AT&T möchte Ihre Stimme für Apps verantwortlich machen

In dem Bemühen, Sprache zur dominierenden Art und Weise zu machen, wie Menschen die Technologie steuern, macht AT&T seine Spracherkennungstechnologie für andere zugänglich. Ab Juni können Software-Ingenieure einen Cloud-Dienst des Unternehmens nutzen, um jedes Gerät, das eine Verbindung zum Internet herstellen kann, auf die Stimme seines Masters zu reagieren.

Was?: Eine Labordemonstration zeigt eine Echtzeit-Konversation zwischen einem Englisch- und einem Spanischsprecher. Gesprochene Wörter wurden in Text übersetzt, übersetzt und maschinell an den Hörer an beiden Enden gesprochen.

AT&T glaubt, dass die Technologie letztendlich für alles verwendet werden könnte, von Smartphone-Apps und Online-Spielen bis hin zu Autos und Haushaltsgeräten. Während das ursprüngliche Angebot nur Sprache in Text und entsprechende Befehle umwandeln wird, erwägt das Unternehmen später eine breitere Palette von Angeboten, einschließlich solcher, die englischen Text in sechs andere Sprachen und umgekehrt übersetzen und auch übersetzte Sprache synthetisieren können.



Wir glauben, dass es viele schlaue Leute gibt, die Anwendungen und Dienste entwickeln können, von denen wir noch nie geträumt haben, sagt Mazin Gilbert, Vice President for Intelligent Systems Research bei AT&T Labs im Florham Park, New Jersey. Um die Technologie zu nutzen, schreiben Entwickler Code in ihre Software, um eine von AT&T spezifizierte API (Application Programming Interface) zu nutzen. Dieser Code veranlasst eine Anwendung, Sprache über das Internet an AT&T zu senden, wo sie in Text umgewandelt und an das Gerät zurückgegeben wird. Die neuen APIs waren angekündigt letzte Woche. AT&T behauptet, dass die Technologie zu 95 Prozent genau ist, wenn es darum geht, englische Sprache zu verarbeiten und als Text wiederzugeben. Es sagt, dass seine Genauigkeit bei der Konvertierung der Bedeutung von englischem Text in und aus anderen Sprachen zwischen 70 und 80 Prozent liegt.

Die zugrundeliegende Sprachtechnologie, die jetzt von AT&T angeboten wird, wird bereits in vielen eigenen Anwendungen verwendet, einschließlich der AT&T-Übersetzer-App für Android- und iOS-Telefone und mobile Sprachverzeichnissuche bereitgestellt von Gelbe Seiten . Ich möchte, dass eine Million Apps auf unserer Plattform laufen, nicht Hunderte, wie wir es heute haben, sagt Gilbert. Was auch immer Ihre wilde Idee ist – wir möchten diese APIs bereitstellen. Ich bin ehrlich: Ich weiß nicht, wofür die Leute es verwenden werden.

Die AT&T-Technologie baut auf jahrzehntelanger Innovation bei Bell Labs vor der Auflösung von AT&T und der anschließenden Gründung der eigenen serviceorientierten Labors von AT&T auf. Allerdings muss sich das Unternehmen insbesondere im Bereich Smartphones mit etablierten Anbietern von Spracherkennungstechnologie messen.

Beispielsweise, Nuance bietet vielen Unternehmen Spracherkennungsfunktionen, darunter angeblich Apple für seinen persönlichen Assistenten Siri. Die Spracherkennungstechnologie von Google wird im gesamten Android-Smartphone-Betriebssystem und in jeder für ein Android-Gerät geschriebenen App angeboten. Microsoft verfügt auch über eine Spracherkennungstechnologie, die in seinem Windows Phone-Betriebssystem und in Produkten von Partnern wie Ford mit seinem Sync-System für die Unterhaltung im Auto vorkommt.

Krish Prabhu, CEO von AT&T Labs, ist der Ansicht, dass die weit verbreitete Verfügbarkeit der Sprachtechnologie es mobile Computer ermöglichen wird, leistungsfähiger zu werden und schneller zu wachsen. In einer Welt, in der wir die Konnektivität weitgehend gelöst und Probleme erreicht haben – obwohl es immer noch Probleme gibt –, entspringt dieser Anstrengung der Sprache der Überzeugung, dass die Schnittstelle zum Netzwerk einfacher werden muss, sagte er bei einer Labordemonstration in New York City letzte Woche. Wir versuchen, den Weg zu ebnen, damit uns die Technologie nicht aufhält.

Die APIs von AT&T für Speech-to-Text, die im Juni auf den Markt kommen sollen, bestehen aus sieben Versionen, die auf bestimmte Anwendungen zugeschnitten sind, z. Zukünftig kommen auch spezielle APIs für Online-Spiele und soziale Netzwerke hinzu.

Später werden möglicherweise APIs verfügbar, die Text zwischen Englisch und sechs anderen Sprachen übersetzen: Spanisch, Französisch, Italienisch, Deutsch, Chinesisch und Japanisch. Andere Sprachen, darunter Koreanisch und Arabisch, sind in Vorbereitung, aber AT&T wird weit hinter den Konkurrenten zurückbleiben. Google bietet beispielsweise bereits Entwicklertools an, die zwischen über tausend Sprachpaaren übersetzen können.

Gilbert sagt, dass die Nutzung aller APIs für 2012 eine Registrierungsgebühr von 99 US-Dollar verursachen würde und dass Pläne für die Zeit nach 2012 nicht öffentlich waren. Google berechnet Gebühren für seine eigenen Übersetzungs-APIs.

Um die Genauigkeit von Spracherkennungs- oder Übersetzungssoftware zu verbessern, müssen mehr Beispieldaten abgerufen werden, um die zugrunde liegenden Algorithmen zu trainieren. Um diesen Prozess zu unterstützen, könnte AT&T schließlich Feedback von Leuten einholen, die Produkte verwenden, die über eine integrierte Sprach- und Übersetzungstechnologie verfügen. Crowdsourcing würde es ermöglichen, ein viel höheres Maß an Genauigkeit zu erreichen, und dies würde wiederum zu einer breiteren Akzeptanz und zu viel zufriedeneren Benutzern führen, sagt Sam Ramji, ein Informatiker und Vizepräsident für Strategie bei Apigee , das API-Plattformen erstellt und am AT&T-Projekt arbeitet.

Ramji glaubt, dass die einfache Verfügbarkeit einer guten Spracherkennungstechnologie traditionelle Menüs und textgesteuerte Benutzeroberflächen langsam aussterben lassen könnte. Die heutigen Benutzeroberflächen sind wie Bäume, durch die wir navigieren müssen, um die Struktur des Programms widerzuspiegeln. Was passieren sollte, ist, dass Geräte den Befehl analysieren, der aus unserem Mund kommt, sagt er.

verbergen