Software übersetzt Ihre Stimme in eine andere Sprache

Forscher von Microsoft haben Software entwickelt, die den Klang Ihrer Stimme lernen und dann damit eine Sprache sprechen kann, die Sie nicht sprechen. Das System könnte verwendet werden, um Sprachunterrichtssoftware persönlicher zu gestalten oder Tools für Reisende zu entwickeln.

In einer Demonstration auf dem Microsoft-Campus in Redmond, Washington, am Dienstag, Microsoft-Forschungswissenschaftler Frank Soong zeigte, wie seine Software spanische Texte mit der Stimme seines Chefs Rick Rashid vorlesen konnte, der die Forschungsaktivitäten von Microsoft leitet. In einer zweiten Demonstration nutzte Soong seine Software, um Craig Mundie, dem Chief Research and Strategy Officer von Microsoft, die Fähigkeit zu verleihen, Mandarin zu sprechen.

Hören Sie Rick Rashids Stimme in seiner Muttersprache und anschließend in mehrere andere Sprachen übersetzt:



Deutsch: Hören Sie sich einen Clip an, in dem Rick Rashid normal spricht.

Spanisch: Hör es dir auf Spanisch an.

Italienisch: Hör es dir auf Italienisch an.

Mandarin: Hören Sie es auf Mandarin.

Auf Englisch begrüßte eine synthetische Version von Mundies Stimme das Publikum zu einem Tag der offenen Tür, der von Microsoft Research veranstaltet wurde, und schloss: Mit Hilfe dieses Systems kann ich jetzt Mandarin sprechen. Der Satz wurde auf Mandarin-Chinesisch wiederholt, in der immer noch erkennbaren Stimme von Mundie.

Wir werden in der Lage sein, einige Szenarioanwendungen durchzuführen, sagte Soong, der das System mit Kollegen von Microsoft Research Asia, dem zweitgrößten Forschungslabor des Unternehmens, in Peking, China, entwickelt hat.

Für einen einsprachigen Sprecher, der in ein fremdes Land reist, werden wir eine Spracherkennung durchführen, gefolgt von einer Übersetzung, gefolgt von der endgültigen Text-zu-Sprachausgabe [in] einer anderen Sprache, aber immer noch in seiner eigenen Stimme, sagte Soong.

Die neue Technik könnte auch verwendet werden, um Schülern beim Erlernen einer Sprache zu helfen, sagte Soong. Das Bereitstellen von Beispiel-Fremdsätzen in der eigenen Stimme einer Person könnte ermutigend oder leichter zu imitieren sein. Soong zeigte auch, wie sein neues System eine Telefon-App für Navigationsanweisungen verbessern könnte, die es einer synthetischen englischen Standardstimme ermöglicht, Text auf chinesischen Straßenschildern nahtlos vorzulesen, während sie Anweisungen für eine Route in Peking übermittelt.

Das System benötigt etwa eine Stunde Training, um ein Modell zu entwickeln, das jeden beliebigen Text mit eigener Stimme vorlesen kann. Dieses Modell wird in ein Modell umgewandelt, das Text in einer anderen Sprache vorlesen kann, indem es mit einem Standard-Text-to-Speech-Modell für die Zielsprache verglichen wird. Einzelne Laute, die das erste Modell verwendet, um Wörter mit der Stimme einer Person in ihrer eigenen Sprache aufzubauen, wurden sorgfältig optimiert, um dem neuen Text-zu-Sprache-Modell die volle Fähigkeit zu geben, Sätze in der zweiten Sprache auszusprechen.

Soong sagt, dass dieser Ansatz zwischen jedem Paar von 26 Sprachen konvertieren kann, einschließlich Mandarin-Chinesisch, Spanisch und Italienisch.

Die Stimme einer Person beizubehalten, wenn Sprache für sie in einer anderen Sprache synthetisiert wird, wäre für einen Benutzer wahrscheinlich beruhigend und könnte Interaktionen, die auf Übersetzungssoftware angewiesen sind, sinnvoller machen, sagt Shrikanth Narayanan , Professor an der University of Southern California in Los Angeles, leitet eine Forschungsgruppe, die an Systemen zur Übersetzung von Sprache in Situationen wie Arzt-Patienten-Konsultationen arbeitet.

Das Wort sei nur ein Teil dessen, was eine Person sagt, sagt er, und um wirklich alle Informationen in der Sprache einer Person zu vermitteln, müssen Übersetzungssysteme in der Lage sein, Stimmen zu speichern und vieles mehr. Die Stimme zu bewahren, die Intonation zu bewahren, diese Dinge sind wichtig, und dieses Projekt weiß das eindeutig, sagt Narayanan. Unsere Systeme müssen den Ausdruck erfassen, den eine Person vermitteln möchte, wer sie ist und wie sie ihn sagt.

Seine Forschungsgruppe untersucht, wie sich Merkmale wie Betonung, Intonation und die Art und Weise, wie Menschen Pausen oder Zögern verwenden, auf die Wirksamkeit und wahrgenommene Qualität einer Wort-für-Wort-Übersetzung auswirken. Wir fragen, ob Sie Systeme bauen können, die zwischen Menschen vermitteln und nur die Wörter ersetzen können, sagt er. Ich betrachte diese [Microsoft-Forschung] als einen Teil dessen, wie Sie dies erreichen.

verbergen