Wie Sprachschnittstellen uns in Zukunft helfen

Sprechen Sie mit Ihrem Computer wie mit einem Menschen

Sprachschnittstellen werden die Interaktion von normalen Benutzern mit Smartphones und Computern benutzerfreundlicher gestalten und vereinfachen. Während Sprachschnittstellen für alle grösseren Technologieunternehmen mehr Daten für Ihre Geschäftstätigkeit liefern, begrüssen die Medien diese Entwicklung als neuen Hype, über den man schreiben kann. Wir haben einen App-Prototyp für mobile Routenberechnungen entwickelt, mit dem Benutzer Zugverbindungen finden können. Dabei haben wir viel über den aktuellen Stand von Sprachschnittstellen erfahren und gelernt, wie diese in Zukunft unsere Interaktionen mit Smartphones und Computern verändern werden.

Eine Sprachschnittstelle („Conversational Interface“) ist eine Benutzerschnittstelle, über die wir mit einem Computer oder einem Smartphone sprechen können, wie mit richtigen Menschen. Das Anklicken von Symbolen und die Eingabe bestimmter Befehle werden überflüssig. Um ein Taxi zum Flughafen zu reservieren, reicht in Zukunft ein Hinweis an das Smartphone: «Ich brauche ein Taxi zum Flughafen. Mein Flug nach London geht um 17:00 Uhr.» Wie ein menschlicher Assistent macht das Telefon dann einen Vorschlag, wann und wo das Taxi Sie abholen könnte, damit Sie Ihren Flug sicher erreichen. Wenn Sie den Vorschlag bestätigen, bucht das Smartphone die Fahrt und hält Sie auf dem Laufenden. Oder wenn Ihnen die Milch ausgeht, sagen Sie Ihrem Smartphone zukünftig: «Wir brauchen mehr Milch» und dieses fügt Ihrer elektronischen Einkaufsliste automatisch Milch hinzu. Bei Bauchschmerzen können Sie diese mit einem virtuellen medizinischen Assistenten besprechen: «Ich habe seit gestern Abend Krämpfe». Der auf künstlicher Intelligenz basierende Assistent stellt dann Fragen, um Ihre Symptome zu bestimmen.

Derzeit gibt es grundsätzlich zwei Kategorien von Sprachschnittstellen: Sprachassistenten, mit denen Sie sprechen können, wie beispielsweise Siri von Apple, und Chatbots, denen Sie schreiben können, wie zum Beispiel M/Chatbot von Facebook. Alle grösseren Technologieunternehmen haben das Potential von Spracherkennung, Chatbots und künstlicher Intelligenz aus unterschiedlichen Gründen erkannt. Apple hat Siri, Microsoft hat Cortana, Facebook hat M, Amazon hat Echo/Alexa, Google hat «Ok Google» und Samsung hat vor kurzem Viv erworben.

Gestützt auf Apples Siri haben wir einen App-Prototyp zur mobilen Routenberechnung entwickelt. Er hilft Benutzern, Zugverbindungen zu suchen, indem Sie zum Beispiel fragen: «Hey Siri, wann fährt der nächste Zug nach Zürich?». Die Bearbeitung dieser einfachen Frage stellt uns vor viele Herausforderungen. Als Erstes bedarf es einer natürlichen Sprachverarbeitung, um zu verstehen, was der Benutzer gesagt hat. Je nachdem, welche Sprache der Benutzer verwendet, versteht Siri den Zielort «Zürich» manchmal richtig und manchmal falsch als «Missouri». Sobald Siri den Satz korrekt transkribiert hat, muss Siri die Bedeutung des Satzes verstehen. Im Beispielfall muss Siri verstehen, dass der Benutzer mit dem Zug nach Zürich fahren möchte und dass er nach einem Fahrplan fragt. Aktuell unterstützt das SiriKit von Apple keine solche «timetable» (Fahrplan)-Domäne, aber es unterstützt die sogenannte «Ride booking» (Fahrtbuchung)-Domäne. Wir sind mit Apple in Kontakt getreten, um eine «timetable»-Domäne für den öffentlichen Verkehr einzuführen. In der Zwischenzeit haben wir unseren Prototypen jedoch basierend auf der «Ride booking»-Domäne entwickelt. Das bedeutet, dass wir unsere Frage nach dem Fahrplan wie folgt umformulieren müssen: «Hey Siri, buche mir eine Fahrt nach Zürich.» Dank der Wörter «buche» und «Fahrt» ist Siri in der Lage, diese Anfrage in die «Ride booking»-Domäne einzuordnen, die verschiedene Eingangsparameter wie «Abfahrtsort» und «Ankunftsort» erfordert. Da wir in unserem Satz keinen Abfahrtsort angegeben haben, nehmen wir die aktuelle Geolokalisierung des Benutzers als Abfahrtsort. Wir haben auch nicht gesagt, über welche mobile App die Fahrt gebucht werden soll. Siri wird uns daher fragen, welche App wir verwenden möchten. Wir können Siri aber auch einfach sagen: «Hey Siri, buche mir eine Fahrt nach Zürich mit TrainApp». Sobald Siri alle domänenspezifischen Daten vom Benutzer eingeholt hat, werden diese als Parameter an die App weitergeleitet. Dadurch zeigt sie uns schliesslich an, wann der nächste Zug nach Zürich abfährt. Wie Sie sich sicher vorstellen können, gibt es noch viele weitere Herausforderungen. Dieses Beispiel vermittelt Ihnen hoffentlich einen Eindruck der Komplexität der scheinbar so einfachen Frage «Wann fährt der nächste Zug nach Zürich?».

Die Integration von Sprachschnittstellen ist eine faszinierende und anspruchsvolle Aufgabe und wir freuen uns, an dieser Entwicklung teilzuhaben. Sprachschnittstellen funktionieren zwar noch nicht perfekt, aber wie auch Kinder mehrere Jahre brauchen, um laufen und sprechen zu lernen, werden wir in den kommenden Jahren lernen, wie wir Sprachschnittstellen weiterentwickeln und nutzen können.

Als erfahrener Integrator nehmen wir bei der Entwicklung von Lösungen, die auf Sprachschnittstellen basieren sowie bei der Integration von Sprachassistenten Dritter in neue und bestehende Kunden- und Backend-Anwendungen eine Führungsrolle ein. Wir entwickeln mobile Apps und Backend-Anwendungen mit Sprachschnittstellen für diverse Branchen, zum Beispiel für den öffentlichen Verkehr, für Zahlungssysteme und den Einzelhandel. Ein sehr wichtiges Thema bei Sprachschnittstellen ist der Datenschutz. Wir nehmen Datenschutz sehr ernst und bieten Lösungen, bei denen die Gespräche zwischen Menschen und Computern/Smartphones nicht nach aussen dringen.

Suche Reiseverbindung
Vorgeschlagene Reiseroute

Sprechen Sie mit unserem Experten

Michael Wechner

Senior Software Engineer

Weitere Stories

Zu diesem Thema

MEHR STORIES