Wohin die Spracherkennung geht

Bis vor kurzem schien die Idee, ein Gespräch mit einem Computer zu führen, reine Science-Fiction. Wenn Sie einen Computer bitten, die Türen des Pod-Schachts zu öffnen – nun, das war nur in Filmen der Fall.

Aber die Dinge ändern sich, und zwar schnell. Immer mehr Menschen telefonieren heute mit ihren mobilen Smartphones und bitten sie, E-Mails und Textnachrichten zu senden, nach Wegbeschreibungen zu suchen oder Informationen im Web zu finden.



Wir befinden uns an einem Übergangspunkt, an dem Stimme und das Verstehen natürlicher Sprache plötzlich im Vordergrund stehen, sagt Vlad Sejnoha, Chief Technology Officer von Nuance Communications, einem Unternehmen mit Sitz in Burlington, Massachusetts, das mit seiner Dragon-Software den Markt für Spracherkennung dominiert und andere Produkte. Ich denke, die Spracherkennung wird die aktuelle [Computer-]Schnittstelle wirklich auf den Kopf stellen.

Der Fortschritt ist teilweise auf den stetigen Fortschritt bei den Technologien zurückzuführen, die erforderlich sind, um Maschinen zu helfen, menschliche Sprache zu verstehen, einschließlich maschinellem Lernen und statistischer Data-Mining-Techniken. Ausgeklügelte Sprachtechnologie ist in Callcentern bereits gang und gäbe, wo Benutzer durch Menüs navigieren und wütende Kunden identifizieren können, die an einen echten Kundendienstmitarbeiter übergeben werden sollten.

Jetzt macht der rasante Aufstieg leistungsstarker mobiler Geräte Sprachschnittstellen noch nützlicher und allgegenwärtiger.

Jim Glass, ein leitender Forscher am MIT, der seit den 1980er Jahren an Sprachschnittstellen arbeitet, sagt, dass die heutigen Smartphones genauso viel Rechenleistung haben wie die Laborgeräte, mit denen er in den 90er Jahren arbeitete. Smartphones verfügen auch über Datenverbindungen mit hoher Bandbreite zur Cloud, wo Server die schwere Arbeit übernehmen können, die sowohl mit der Spracherkennung als auch mit dem Verstehen gesprochener Abfragen verbunden ist. Die Kombination aus mehr Daten und mehr Rechenleistung bedeutet, dass Sie heute Dinge tun können, die Sie vorher nicht tun konnten, sagt Glass. Sie können komplexere statistische Modelle verwenden.

Das prominenteste Beispiel für eine mobile Sprachschnittstelle ist natürlich Siri, der sprachaktivierte persönliche Assistent, der in das neueste iPhone integriert ist. Aber die Sprachfunktionalität ist in Android, der Windows Phone-Plattform und den meisten anderen mobilen Systemen sowie vielen Apps integriert. Während diese Schnittstellen noch erhebliche Einschränkungen haben (siehe Social Intelligence), nähern wir uns den Maschinenschnittstellen, mit denen wir tatsächlich sprechen können.

Nuance ist das Herzstück des Booms der Sprachtechnologie. Das Unternehmen wurde 1992 als Visioneer gegründet und hat Dutzende anderer Sprachtechnologieunternehmen übernommen. Es hat jetzt mehr als 6.000 Mitarbeiter an 35 Standorten auf der ganzen Welt und erzielte im zweiten Quartal 2012 einen Umsatz von 390,3 Millionen US-Dollar, ein Anstieg von 22,4 Prozent gegenüber dem gleichen Zeitraum im Jahr 2011.

In den letzten Jahren hat Nuance seine Expertise in der Spracherkennung geschickt auf den aufstrebenden Markt für Sprachschnittstellen übertragen. Das Unternehmen liefert Spracherkennungstechnologie an viele andere Unternehmen und wird allgemein angenommen, dass es die Sprachkomponente von Siri bereitstellt.

Sprache sei ideal für mobile Computer geeignet, sagt der CTO von Nuance, zum Teil, weil die Benutzer ihre Hände und Augen anderweitig beschäftigt haben – aber auch, weil ein einziger gesprochener Befehl Aufgaben erledigen kann, die normalerweise eine Vielzahl von Wischen und Drücken erfordern würden. Plötzlich hat man diesen neuen Baustein, diese neue Dimension, die man in das Problem einbringen kann, sagt Sejnoha. Und ich denke, wir werden die grundlegende Benutzeroberfläche für moderne Geräte in diesem Sinne entwerfen.

Inspiriert vom Erfolg der Spracherkennungssoftware auf Mobiltelefonen hofft Nuance, seine Sprachschnittstellen an vielen anderen Orten einsetzen zu können, insbesondere im Fernsehen und im Auto. Beide sind beliebt und reif für Innovationen.

Um eine Sendung im Fernsehen zu finden oder eine DVR-Aufzeichnung zu planen, müssen Zuschauer derzeit mit einer Fernbedienung, die nie für die Eingabe von Textabfragen entwickelt wurde, durch umständliche Menüs navigieren. Produkte, die das Auffinden einer Sendung erleichtern sollten, wie beispielsweise Google TV, haben sich als zu komplex für Leute erwiesen, die sich nur für eine abendliche Unterhaltung entspannen möchten.

In den Forschungslabors von Nuance demonstrierte Sejnoha die Software Dragon TV, die auf einem Fernseher in einem nachgebauten Wohnzimmer läuft. Als ein Kollege sagte, Dragon TV, suche Filme mit Meryl Streep, durchsuchte die Benutzeroberfläche sofort die Kanallisten, um mehrere geeignete Filme auszuwählen. Eine Version dieser Technologie ist bereits in einigen von Samsung verkauften Fernsehern enthalten.

Es wird allgemein gemunkelt, dass Apple einen eigenen Fernseher entwickelt, und es wird spekuliert, dass Siri sein Controller sein wird. Befeuert wurde die Idee durch Walter Isaacsons Biografie über Steve Jobs, in der der verstorbene CEO behauptet haben soll, er habe das TV-Interface endlich gelöst.

Inzwischen nutzt das Unterhaltungssystem Sync in Ford-Automobilen bereits die Technologie von Nuance, damit Fahrer Wegbeschreibungen, Wetterinformationen und Lieder abrufen können. Rund vier Millionen Ford-Autos auf den Straßen verfügen über Sync mit Spracherkennung. Letzte Woche hat Nuance eine Software namens Dragon Drive vorgestellt, mit der andere Autohersteller ihre Fahrzeuge um Sprachsteuerungsfunktionen erweitern können.

Diese beiden neuen Kontexte sind eine Herausforderung. Ein Grund, warum Sprachschnittstellen auf Smartphones populär geworden sind, ist, dass Benutzer direkt in das Mikrofon des Geräts sprechen. Damit das System auch in Fernsehern und Autos mit mehr Hintergrundgeräuschen gut funktioniert, experimentiert das Unternehmen mit Array-Mikrofonen und Noise-Cancelling-Technologie.

Nuance stellt eine Reihe von Software Development Kits für jeden zur Verfügung, der Spracherkennungstechnologie in eine Anwendung integrieren möchte. Montrue Technologies, ein Unternehmen mit Sitz in Ashland, Oregon, hat mit Nuances mobilem medizinischen SDK eine iPad-App entwickelt, mit der Ärzte Notizen diktieren können.

Es ist erstaunlich genau, sagt Brian Phelps, CEO und Mitbegründer von Montrue und selbst Notarzt. Die Sprache hat eine Ecke gewendet; Es ist an einem Punkt angelangt, an dem wir eine unglaubliche Genauigkeit direkt nach dem Auspacken erhalten.

Die Kits wiederum stärken die Position von Nuance und helfen dem Unternehmen, seine Spracherkennungs- und Sprachverarbeitungsalgorithmen zu verbessern, indem immer mehr Sprachdaten über seine Server gesendet werden. Wie Glass vom MIT sagt, gibt es in der Spracherkennungs-Community seit langem ein Sprichwort: „Es gibt keine Daten wie mehr Daten“. Nuance sagt, dass es die Daten in einem anonymen Format speichert, um die Privatsphäre zu schützen.

Sejnoha glaubt, dass mobile Sprachschnittstellen in wenigen Jahren viel durchdringender und leistungsfähiger sein werden. Ich sollte einfach in der Lage sein, mit ihm zu sprechen, ohne es zu berühren, sagt er. Es wird ständig nach Triggerwörtern lauschen und es einfach tun – einen Kalender öffnen, eine Textnachricht erstellen oder einen Browser navigieren, der dorthin führt, wo Sie hin möchten.

Vielleicht sprechen die Leute sogar mit Computern, die sie tragen, wie die Fotobrille, die bei Google entwickelt wird. Quellen bei Nuance sagen, dass sie aktiv planen, wie die Sprachtechnologie aufgebaut sein müsste, um auf tragbaren Computern ausgeführt zu werden.

verbergen