Menschen reden mit allen möglichen Dingen. Ihrem Computer, Fernseher, Telefon oder auch mit ihrem Auto, aber nur die allerwenigsten der Angesprochenen antworten gezielt. Zumindest noch nicht. Bei den Autos könnte sich das schon bald ändern. Ein Auto wie K.I.T.T. aus der 1980er-Jahre-Serie Knight Rider ist mittlerweile bis zu einem gewissen Maße gar nicht mehr so utopisch. In Teil zwei unserer kleinen Serie über intelligente Spracherkennung geht es heute darum, wie sich der Bereich Automotive in nicht allzu ferner Zukunft schon verändern kann.
„Auch im Automobilbereich und hier vor allem im Bereich des autonomen Fahrens wird sehr viel über Sprachsteuerung passieren. Es wird um mehr gehen als nur darum, Knöpfe zu drücken oder irgendwelche andere Dinge manuell zu bedienen“, sagt Dagmar Schuller, CEO und Mitgründerin des Münchner Startups audEERING. Die Sprachsteuerung bzw. Sprache an sich sei insbesondere im Bereich der Usability schon im Vorfeld bei der Produktentwicklung wichtig, erklärt Schuller. „Das heißt, wie zufrieden bin ich mit der Ausstattung mit meinem Fahrzeug? Das ist ein klassisches Gebiet der Anwendung, auf dem wir tätig sind.“
Spracherkennung wird aber besonders im Auto immer wichtiger. Ist das System einmal eingeschaltet, wird es zum intelligenten Beifahrer und hört es alles mit, was im Auto vor sich geht. Erkennt es zum Beispiel, dass der Fahrer schläfrig ist, erregt, verärgert oder gestresst, kann das System eingreifen. Wenn man mit ihm spricht, kann es den Zustand des Fahrers beurteilen. „Ein gestresster Autofahrer erhöht das Unfallrisiko um das Zehnfache“, weiß Dagmar Schuller. „Das System kann dann wie K.I.T.T. bei Knight Rider von selbst vorschlagen, den Autopiloten einzuschalten. Es trifft aber nicht unbedingt nur aufgrund dessen, was der Fahrer sagt, eine intelligente Entscheidung, denn vielleicht sagt der gar nichts. Das System hört aber möglicherweise über längere Zeit Streitereien, Fluchen, Gähnen oder vielleicht sogar Schnarchgeräusche im Auto, dann ist der Inhalt dessen was er sagt völlig irrelevant.“
Die intelligente Spracherkennung beschränkt sich hier nicht rein auf die Sprache, sondern schließt jede Art von Geräuschen mit ein, das heißt, es macht eine sogenannte akustische Szenenanalyse. „Schreit hinten ein Kind, was ein unheimlicher Stressfaktor sein kann? Ist der Hund nach vorne gesprungen? Bellt der Hund? Ist vielleicht ein Unfall passiert, weil ein Martinshorn zu hören ist? Schreit jemand im Auto? Streitet sich jemand die ganze Zeit? Bei der Zustandserkennung ist der Fahrer selbst nur ein Punkt des Gesamtbildes.“ Die Grundvoraussetzungen für einen Einsatz dieses Systems sind bereits heute gegeben, denn die neuen Autos verfügen über Mikrofone, beispielsweise von der Freisprechanlage, und Mikrofone sind alles, was man dazu braucht.
Ein weiterer Schritt in Richtung intelligenter Autos, die auf die menschliche Sprache reagieren, könnte sein, dass man das Auto künftig auch mit der Stimme steuern kann. „Man hat mit der Stimme einen ebenso einzigartigen Fingerabdruck, wie auch ein Iris-Scan oder ein normaler, individueller Fingerabdruck. Jede Stimme ist individuell und hat auch individuelle Merkmale“, betont Schuller. „Man kann zwar Stimmen imitieren, aber im Grunde ist jede Stimme ebenso einzigartig wie andere physische Merkmale eines Menschen auch.“ Eine solche Sprachsteuerung könnte insbesondere bei der Diebstahlsicherung eine Hürde darstellen, die sich für potentielle Diebe als unüberwindbar herausstellt. Sie wäre von einem Keyword unabhängig und würde rein auf die individuellen Merkmale der Stimme reagieren, oder „man kann es auch mit anderen Schließmechanismen wie Keywords kombinieren. Die Software ist da sehr flexibel und anpassbar.“
Wie anfällig wäre die Software aber für Hackerangriffe? Eine große Angst vieler Menschen besteht bei autonom fahrenden Autos nämlich genau darin: Dass jemand das System überlistet, die Kontrolle übernimmt und der Fahrer hilfloser Passagier ist und nichts dagegen tun kann. Dagmar Schuller beruhigt. „Das System ist extrem stabil und hat außerdem den Vorteil, dass wir zwei Varianten haben, die wir anbieten. Die eine ist über eine Web-API, das heißt über die Cloud, die zweite ist eine On-Device, eine Embedded-Version, für die man noch nicht mal online sein muss. Die gesamten Berechnungen und Auswertungen finden ausschließlich auf den Gerät statt, das heißt in dem Fall in dem Auto.“
Ähnlich wie bei Amazon Alexa müsse eine Verbindung nur dann hergestellt werden, wenn man nach außen kommunizieren will; alle anderen Kalkulationen würden direkt auf dem Gerät stattfinden und auch dort bleiben. „Das ist auch im medizinischen Bereich der Vorteil, wo es um sehr sensible Daten geht. Man muss nur für die Auswertung bestimmter Fingerprints oder bestimmte Vektoren das Gerät verlassen, kann aber auch dann keine Rückschlüsse ziehen, um wen es geht. Ich entscheide also zu 100% selbst, ob ich jemand meine Daten gebe oder nicht. Es bleibt alles bei mir und ich muss keine Angst haben, dass die Versicherung mir zum Beispiel einen schlechten Vertrag gibt, weil sie alle meine Daten kennt.“
Genauso wenig müsse man Angst haben, dass ein Hacker Zugriff auf das System bekommt und einen vielleicht gegen einen Brückenpfeiler fahren lässt, einfach weil er es kann. „Das Gerät bildet eine abgeschlossene Unit“, so Schuller. „Je nachdem, was man raussuchen möchte, kann man das größer oder kleiner gestalten. Unsere Software ist auch so klein kalkulierbar, dass sie sogar auf Hardware wie ein Hörgerät oder ähnliches passt, wenn man nur ganz spezielle Features sucht und alles komplett dort kalkuliert wird.“
Foto: Piqzwa
Grafik: Statista
Zum Thema:
Mit intelligenter Spracherkennung gegen Depressionen und Selbstmorde
Münchner Startup auf den Spuren von Star Trek
Alexa, ask BMW: “Are my Windows open?”