Wie Google die Hausnummernidentifikation in Street View geknackt hat

Google Street View ist zu einem wesentlichen Bestandteil des Online-Mapping-Erlebnisses geworden. Es ermöglicht den Benutzern, auf Straßenebene herunterzufahren, um die Umgebung im fotografischen Detail zu sehen.

Aber es ist auch eine nützliche Ressource für Google. Das Unternehmen verwendet die Bilder, um Hausnummern zu lesen und sie ihrem Geostandort zuzuordnen. Dadurch wird die Position jedes Gebäudes in seiner Datenbank physisch lokalisiert.

Das ist besonders nützlich an Orten, an denen Straßennummern sonst nicht verfügbar sind, oder an Orten wie Japan und Südkorea, an denen Straßen selten in chronologischer Reihenfolge nummeriert sind, sondern in anderer Weise, wie zum Beispiel in der Reihenfolge, in der sie gebaut wurden, ein System, das viele Gebäude unmöglich macht finden, auch für Einheimische.



Das Aufspüren und Identifizieren dieser Zahlen ist jedoch sehr zeitaufwändig. Die Street-View-Kameras von Google haben Hunderte Millionen Panoramabilder aufgenommen, die zusammen Dutzende von Millionen Hausnummern enthalten. Die Aufgabe, diese Bilder manuell zu durchsuchen, um die Nummern zu erkennen und zu identifizieren, ist nicht eine Aufgabe, an die sich jeder gerne herantasten könnte.

Also hat Google das Problem natürlich gelöst, indem es automatisiert wurde. Und heute verraten Ian Goodfellow und seine Freunde im Unternehmen, wie sie es gemacht haben. Es stellt sich heraus, dass ihre Methode auf einem neuronalen Netzwerk beruht, das 11 Ebenen von Neuronen enthält, die sie trainiert haben, um Zahlen in Bildern zu erkennen.

Zu Beginn setzen Goodfellow und Co. der anstehenden Aufgabe einige Grenzen, um sie so einfach wie möglich zu halten. Sie gehen beispielsweise davon aus, dass die Gebäudenummer bereits erkannt und das Bild so beschnitten wurde, dass die Nummer mindestens ein Drittel der Breite des resultierenden Rahmens beträgt. Sie gehen auch davon aus, dass die Nummer nicht länger als fünf Stellen ist, was in den meisten Teilen der Welt eine vernünftige Annahme ist.

Aber das Team teilt die Zahl nicht in einzelne Ziffern auf, wie es viele andere Gruppen getan haben. Ihr Ansatz besteht darin, die gesamte Zahl innerhalb des zugeschnittenen Bildes zu lokalisieren und auf einmal zu identifizieren – alles mit einem einzigen neuronalen Netzwerk.

Sie trainieren dieses Netz mithilfe von Bildern, die aus einem öffentlich verfügbaren Datensatz von Zahlenbildern stammen, der als Street View House Numbers-Datensatz bekannt ist. Diese enthält rund 200.000 Nummern, die von den Street View-Kameras von Google aufgenommen und öffentlich zugänglich gemacht wurden. Die Ausbildung dauert etwa sechs Tage, heißt es.

Goodfellow und Co. sagen, dass es keinen Sinn macht, ein automatisiertes System zu verwenden, das die Leistung menschlicher Bediener, die Zahlen im Allgemeinen in 98 Prozent der Fälle genau erkennen können, nicht erreichen oder übertreffen kann. Das ist also das Ziel des Teams.

Das bedeutet jedoch nicht, 98 Prozent der Zahlen in 100 Prozent der Bilder zu erkennen. Stattdessen sagen Goodfellow und Co, dass es akzeptabel ist, 98 Prozent der Zahlen in einer bestimmten Teilmenge von Bildern zu erkennen, die in diesem Fall etwa 95 Prozent der Gesamtmenge ausmachen.

Aber auch das ist deutlich besser, als jedes andere Team jemals erreichen konnte. Wir haben weltweit fast 100 Millionen physische Hausnummern automatisch erkannt und mit der Genauigkeit von [menschlichen] Operatoren transkribiert, sagen sie und beschreiben dies als beispiellosen Erfolg.

Und das mit beachtlicher Geschwindigkeit. Wir können alle Ansichten, die wir von Straßennummern in Frankreich haben, in weniger als einer Stunde mit unserer Google-Infrastruktur transkribieren, heißt es. Ja, das ist nur eine Stunde.

Eine interessante Frage ist, ob die gleiche Technik dazu beitragen könnte, andere Nummern wie Telefonnummern auf Geschäftsschildern oder sogar Nummernschilder zu extrahieren.

Allerdings sind Goodfellow und Co. nicht optimistisch. Sie sagen, dass der Erfolg ihrer Technik stark auf der Annahme beruht, dass Hausnummern nie länger als fünf Ziffern sind. Für große [Zahlen von Ziffern] ist es unwahrscheinlich, dass unsere Methode gut skaliert, heißt es.

Und natürlich ist das System noch nicht perfekt. Diese 2 Prozent der falsch identifizierten Zahlen sind dem Team immer noch ein Dorn im Auge.

Aber inzwischen kann Google sicher sein, dass es bei der Zeichenextraktion und -erkennung einen bedeutenden Schritt nach vorne gemacht hat: die Lokalisierung und Identifizierung von Zahlen durch ein einziges neuronales Netz.

Die große Frage ist natürlich, was als nächstes kommt. Und Goodfellow und Co kommen dem nach, indem sie den Kimono nur einen Bruchteil öffnen: Dieser Ansatz, ein einzelnes neuronales Netz als komplettes End-to-End-System zu verwenden, könnte auf andere Probleme wie die allgemeine Texttranskription oder Spracherkennung übertragen werden.

Da hast du es also!

Ref: arxiv.org/abs/1312.6082 : Erkennung mehrstelliger Zahlen aus Street View-Bildern mithilfe von Deep Convolutional Neural Networks

verbergen