Wie Google Bilder mithilfe von Vektorraummathematik in Wörter „übersetzt“

Die Übersetzung einer Sprache in eine andere war schon immer eine schwierige Aufgabe. Aber in den letzten Jahren hat Google diesen Prozess transformiert, indem es maschinelle Übersetzungsalgorithmen entwickelt hat, die die Art der interkulturellen Kommunikation durch Google Translate verändern.

Jetzt verwendet dieses Unternehmen die gleiche Technik des maschinellen Lernens, um Bilder in Worte zu übersetzen. Das Ergebnis ist ein System, das automatisch Bildunterschriften generiert, die den Inhalt von Bildern genau beschreiben. Das ist etwas, das für Suchmaschinen, für die automatisierte Veröffentlichung und für die Unterstützung von Sehbehinderten beim Navigieren im Internet und in der Tat in der ganzen Welt nützlich sein wird.

Der herkömmliche Ansatz zur Sprachübersetzung ist ein iterativer Prozess, der damit beginnt, Wörter einzeln zu übersetzen und dann die Wörter und Sätze neu anzuordnen, um die Übersetzung zu verbessern. Aber in den letzten Jahren hat Google herausgefunden, wie man seine riesige Suchdatenbank nutzen kann, um Text auf eine ganz andere Art und Weise zu übersetzen.

Der Ansatz besteht im Wesentlichen darin, zu zählen, wie oft Wörter neben oder in der Nähe von anderen Wörtern vorkommen, und sie dann in einem abstrakten Vektorraum in Bezug zueinander zu definieren. Dadurch kann jedes Wort in diesem Raum durch einen Vektor dargestellt werden und Sätze können durch Kombinationen von Vektoren dargestellt werden.

Google geht weiter von einer wichtigen Annahme aus. Dies bedeutet, dass bestimmte Wörter unabhängig von der Sprache die gleiche Beziehung zueinander haben. Beispielsweise sollte der Vektor König - Mann + Frau = Königin in allen Sprachen gelten.

Das macht die Sprachübersetzung zu einem Problem der Vektorraummathematik. Google Translate nähert sich dem, indem es einen Satz in einen Vektor umwandelt und dann diesen Vektor verwendet, um den entsprechenden Satz in einer anderen Sprache zu generieren.

Jetzt verwenden Oriol Vinyals und Freunde bei Google einen ähnlichen Ansatz, um Bilder in Worte zu übersetzen. Ihre Technik besteht darin, mithilfe eines neuronalen Netzwerks einen Datensatz von 100.000 Bildern und ihren Bildunterschriften zu untersuchen und so zu lernen, den Inhalt von Bildern zu klassifizieren.

Aber anstatt eine Reihe von Wörtern zu erzeugen, die das Bild beschreiben, erzeugt ihr Algorithmus einen Vektor, der die Beziehung zwischen den Wörtern darstellt. Dieser Vektor kann dann in den bestehenden Übersetzungsalgorithmus von Google eingefügt werden, um eine Bildunterschrift in Englisch oder tatsächlich in jeder anderen Sprache zu erstellen. Tatsächlich hat der maschinelle Lernansatz von Google gelernt, Bilder in Wörter zu übersetzen.

Um die Wirksamkeit dieses Ansatzes zu testen, setzten sie menschliche Bewerter ein, die von Amazons Mechanical Turk rekrutiert wurden, um auf diese Weise automatisch generierte Untertitel zusammen mit den von anderen automatisierten Ansätzen und von Menschen generierten zu bewerten.

Die Ergebnisse zeigen, dass das neue System, das Google Neural Image Caption nennt, gut abschneidet. Unter Verwendung eines bekannten Bilddatensatzes namens PASCAL übertraf die neuronale Bilderfassung andere automatisierte Ansätze deutlich. NIC erzielte einen BLEU-Score von 59, verglichen mit dem aktuellen Stand der Technik von 25, während die menschliche Leistung 69 erreicht, sagen Vinyals und Co.

Das ist nicht schlecht und der Ansatz scheint mit zunehmender Größe der Trainingsdatensätze besser zu werden. Aus diesen Experimenten geht hervor, dass mit zunehmender Größe der verfügbaren Datensätze zur Bildbeschreibung auch die Leistung von Ansätzen wie NIC zunimmt, so das Google-Team.

Dies ist eindeutig eine weitere Aufgabe, für die die Tage der menschlichen Vorherrschaft über Maschinen gezählt sind.

Ref: arxiv.org/abs/1411.4555 : Show and Tell: Ein Generator für neuronale Bildunterschriften

verbergen