Google enthüllt neuronales Netzwerk mit übermenschlicher Fähigkeit, den Standort von fast jedem Bild zu bestimmen

Hier ist eine knifflige Aufgabe. Wählen Sie zufällig ein Foto aus dem Internet aus. Versuchen Sie nun herauszufinden, wo es aufgenommen wurde, indem Sie nur das Bild selbst verwenden. Wenn das Bild ein berühmtes Gebäude oder Wahrzeichen wie den Eiffelturm oder die Niagarafälle zeigt, ist die Aufgabe einfach. Aber die Arbeit wird erheblich schwieriger, wenn das Bild keine spezifischen Ortshinweise hat oder drinnen aufgenommen wurde oder ein Haustier oder Essen oder ein anderes Detail zeigt.

Dennoch sind Menschen in dieser Aufgabe überraschend gut. Dazu bringen sie allerlei Wissen über die Welt mit, wie Art und Sprache der ausgestellten Schilder, Vegetationsarten, Baustile, Verkehrsrichtungen und so weiter. Menschen verbringen ein ganzes Leben damit, diese Art von Geolokalisierungshinweisen aufzunehmen.

Es ist also leicht zu glauben, dass Maschinen mit dieser Aufgabe zu kämpfen hätten. Und das haben sie tatsächlich.



Heute ändert sich das dank der Arbeit von Tobias Weyand, einem Computer-Vision-Spezialisten bei Google, und ein paar Freunden. Diese Jungs haben eine Deep-Learning-Maschine trainiert, um die Position von fast jedem Foto zu ermitteln, indem nur die darin enthaltenen Pixel verwendet werden.

Ihre neue Maschine übertrifft Menschen deutlich und kann sogar einen cleveren Trick anwenden, um den Standort von Innenbildern und Bildern von bestimmten Dingen wie Haustieren, Lebensmitteln usw. zu bestimmen, die keine Standorthinweise haben.

Ihr Ansatz ist unkompliziert, zumindest in der Welt des maschinellen Lernens. Weyand und Co. beginnen damit, die Welt in ein Raster zu unterteilen, das aus über 26.000 Quadraten unterschiedlicher Größe besteht, die von der Anzahl der an diesem Ort aufgenommenen Bilder abhängen.

So haben Großstädte, die Gegenstand vieler Bilder sind, eine feinkörnigere Rasterstruktur als abgelegenere Regionen, in denen Fotografien weniger verbreitet sind. Tatsächlich ignorierte das Google-Team Gebiete wie Ozeane und Polarregionen, wo nur wenige Fotos gemacht wurden.

Als nächstes erstellte das Team eine Datenbank mit geolokalisierten Bildern aus dem Internet und verwendete die Standortdaten, um das Gitterquadrat zu bestimmen, in dem jedes Bild aufgenommen wurde. Dieser Datensatz ist riesig und besteht aus 126 Millionen Bildern zusammen mit den dazugehörigen Exif-Standortdaten.

Weyand und Co. verwendeten 91 Millionen dieser Bilder, um einem leistungsstarken neuronalen Netzwerk beizubringen, die Position des Gitters nur anhand des Bildes selbst zu ermitteln. Ihre Idee ist es, ein Bild in dieses neuronale Netz einzugeben und als Ausgabe eine bestimmte Gitterposition oder eine Reihe wahrscheinlicher Kandidaten zu erhalten.

Anschließend validierten sie das neuronale Netzwerk anhand der verbleibenden 34 Millionen Bilder im Datensatz. Schließlich testeten sie das Netzwerk – das sie PlaNet nennen – auf verschiedene Arten, um zu sehen, wie gut es funktioniert.

Die Ergebnisse sorgen für eine interessante Lektüre. Um die Genauigkeit ihrer Maschine zu messen, fütterten sie sie mit 2,3 Millionen mit Geotags versehenen Bildern von Flickr, um zu sehen, ob sie ihren Standort korrekt bestimmen konnte. PlaNet ist in der Lage, 3,6 Prozent der Bilder auf Straßenebene und 10,1 Prozent auf Stadtebene zu lokalisieren, sagen Weyand und Co. Außerdem bestimmt die Maschine bei weiteren 28,4 Prozent der Fotos das Herkunftsland und bei 48,0 Prozent den Kontinent.

Das ist sehr gut. Aber um zu zeigen, wie gut, haben Weyand und Co. PlaNet in einem Test gegen 10 weitgereiste Menschen auf Herz und Nieren geprüft. Für den Test verwendeten sie ein Online-Spiel, das einem Spieler eine zufällige Ansicht aus Google Street View präsentiert und ihn auffordert, seinen Standort auf einer Weltkarte zu lokalisieren.

Jeder kann mitspielen www.geoguessr.com . Probieren Sie es aus – es macht viel Spaß und ist kniffliger, als es sich anhört.

Unnötig zu erwähnen, dass Planet die Menschen verprügelt hat. Insgesamt gewann PlaNet 28 der 50 Runden mit einem mittleren Lokalisierungsfehler von 1131,7 km, während der mittlere menschliche Lokalisierungsfehler 2320,75 km betrug, sagen Weyand und Co. [Dieses] kleine Experiment zeigt, dass PlaNet bei der Aufgabe, Street View-Szenen zu geolokalisieren, übermenschliche Leistungen erbringt.

Eine interessante Frage ist, wie PlaNet so gut funktioniert, ohne die Hinweise zu verwenden, auf die sich Menschen verlassen, wie Vegetation, Baustil und so weiter. Aber Weyand und Co. sagen, sie wüssten warum: „Wir glauben, dass PlaNet einen Vorteil gegenüber Menschen hat, weil es viel mehr Orte gesehen hat, als ein Mensch jemals besuchen kann, und subtile Hinweise auf verschiedene Szenen gelernt hat, die selbst für einen weit gereisten Menschen schwer zu erkennen sind unterscheiden.

Sie gehen noch weiter und verwenden die Maschine, um Bilder zu lokalisieren, die keinen Standorthinweis haben, wie z. B. solche, die in Innenräumen oder von bestimmten Gegenständen aufgenommen wurden. Dies ist möglich, wenn Bilder Teil von Alben sind, die alle am selben Ort aufgenommen wurden. Die Maschine durchsucht einfach andere Bilder im Album, um herauszufinden, wo sie aufgenommen wurden, und geht davon aus, dass das spezifischere Bild an derselben Stelle aufgenommen wurde.

Das ist eine beeindruckende Arbeit, die zeigt, wie tiefe neuronale Netze wieder einmal ihre Muskeln spielen lassen. Vielleicht noch beeindruckender ist, dass das Modell im Gegensatz zu anderen Ansätzen, die Gigabyte des Materials verwenden, relativ wenig Speicher verwendet. Unser Modell verbraucht nur 377 MB, was sogar in den Speicher eines Smartphones passt, sagen Weyand und Co.

Das ist eine verlockende Idee – die Kraft eines übermenschlichen neuronalen Netzwerks auf einem Smartphone. Jetzt wird es sicher nicht mehr lange dauern!

Ref: arxiv.org/abs/1602.05314 : PlaNet – Foto-Geolokalisierung mit Convolutional Neural Networks

verbergen