Die revolutionäre Technik, die das maschinelle Sehen für immer verändert hat

In der Weltraumforschung gibt es den Google Lunar X Prize für die Platzierung eines Rovers auf der Mondoberfläche. In der Medizin gibt es den Qualcomm Tricorder X Prize für die Entwicklung eines Star Trek-ähnlichen Geräts zur Diagnose von Krankheiten. Es gibt sogar einen beginnenden Preis für künstliche Intelligenz X für die Entwicklung eines KI-Systems, das in der Lage ist, einen fesselnden TED-Vortrag zu halten.

In der Welt der maschinellen Bildverarbeitung besteht das entsprechende Ziel darin, die ImageNet Large-Scale Visual Recognition Challenge zu gewinnen. Dabei handelt es sich um einen seit 2010 jährlich stattfindenden Wettbewerb zur Bewertung von Bilderkennungsalgorithmen. (Es soll an ein ähnliches Projekt namens PASCAL VOC anknüpfen, das von 2005 bis 2012 lief).

Teilnehmer an diesem Wettbewerb haben zwei einfache Aufgaben. Wenn einem ein Bild präsentiert wird, besteht die erste Aufgabe darin, zu entscheiden, ob es einen bestimmten Objekttyp enthält oder nicht. Beispielsweise könnte ein Kandidat entscheiden, dass auf diesem Bild zwar Autos, aber keine Tiger zu sehen sind. Die zweite Aufgabe besteht darin, ein bestimmtes Objekt zu finden und einen Rahmen darum zu ziehen. Beispielsweise könnte ein Kandidat entscheiden, dass sich an einer bestimmten Position ein Schraubendreher mit einer Breite von 50 Pixeln und einer Höhe von 30 Pixeln befindet.



Oh, und noch etwas: Es gibt 1.000 verschiedene Kategorien von Objekten, von Abakus bis Zucchini, und die Teilnehmer müssen eine Datenbank mit über 1 Million Bildern durchsuchen, um jede Instanz jedes Objekts zu finden. Heikel!

Computer hatten schon immer Probleme, Objekte in realen Bildern zu identifizieren, daher ist es nicht schwer zu glauben, dass die Gewinner dieser Wettbewerbe im Vergleich zu Menschen immer schlecht abgeschnitten haben.

Aber all das änderte sich 2012, als ein Team der University of Toronto in Kanada einen Algorithmus namens SuperVision eingab, der mit der Opposition den Boden fegte.

Heute lassen Olga Russakovsky von der Stanford University in Kalifornien und ein paar Freunde die Geschichte dieses Wettbewerbs Revue passieren und sagen, dass der umfassende Sieg von SuperVision rückblickend ein Wendepunkt für die Bildverarbeitung war. Seitdem, so sagen sie, hat sich das maschinelle Sehen so schnell verbessert, dass es heute zum ersten Mal mit der menschlichen Genauigkeit mithalten kann.

Was ist also im Jahr 2012 passiert, das die Welt der Bildverarbeitung verändert hat? Die Antwort ist eine Technik namens Deep Convolutional Neural Networks, die der Super Visison-Algorithmus verwendet, um die 1,2 Millionen hochauflösenden Bilder im Datensatz in 1000 verschiedene Klassen zu klassifizieren.

Dies war das erste Mal, dass ein Deep Convolutional Neural Network den Wettbewerb gewonnen hat, und es war ein klarer Sieg. 2010 hatte der Siegerbeitrag eine Fehlerquote von 28,2 Prozent, 2011 war die Fehlerquote auf 25,8 Prozent gesunken. Aber SuperVision gewann 2012 mit einer Fehlerquote von nur 16,4 Prozent (der zweitbeste Beitrag hatte eine Fehlerquote von 26,2 Prozent). Dieser klare Sieg sorgte dafür, dass dieser Ansatz seitdem vielfach kopiert wurde.

Convolutional Neural Networks bestehen aus mehreren Schichten kleiner Neuronensammlungen, die jeweils kleine Teile eines Bildes betrachten. Die Ergebnisse aller Sammlungen in einer Ebene werden überlappt, um eine Darstellung des gesamten Bildes zu erstellen. Die darunter liegende Schicht wiederholt diesen Vorgang dann auf der neuen Bilddarstellung, wodurch das System etwas über den Aufbau des Bildes lernen kann.

Deep Convolutional Neural Networks wurden in den frühen 1980er Jahren erfunden. Aber erst in den letzten Jahren haben Computer begonnen, die für eine qualitativ hochwertige Bilderkennung erforderliche Pferdestärke zu haben.

SuperVision beispielsweise besteht aus etwa 650.000 Neuronen, die in fünf Faltungsschichten angeordnet sind. Es hat rund 60 Millionen Parameter, die während des Lernprozesses fein abgestimmt werden müssen, um Objekte in bestimmten Kategorien zu erkennen. Es ist dieser riesige Parameterraum, der die Erkennung so vieler verschiedener Arten von Objekten ermöglicht.

Seit 2012 haben mehrere Gruppen das Ergebnis von SuperVision deutlich verbessert. In diesem Jahr erreichte ein Algorithmus namens GoogLeNet, der von einem Team von Google-Ingenieuren entwickelt wurde, eine Fehlerquote von nur 6,7 Prozent.

Eine der großen Herausforderungen bei der Durchführung dieser Art von Wettbewerb besteht in erster Linie darin, qualitativ hochwertige Datensätze zu erstellen, sagen Russakovsky und Co. Jedes Bild in der Datenbank muss mit einem Goldstandard versehen werden, den die Algorithmen erfüllen müssen. Es gibt auch eine Trainingsdatenbank mit etwa 150.000 Bildern, die ebenfalls annotiert werden müssen.

Das ist bei einer so großen Anzahl von Bildern keine leichte Aufgabe. Russakovsky und Co haben dies mithilfe von Crowdsourcing auf Einrichtungen wie Amazons Mechanical Turk getan, wo sie menschliche Benutzer bitten, die Bilder zu kategorisieren. Das erfordert eine erhebliche Menge an Planung, Gegenprüfung und erneuter Ausführung, wenn es nicht funktioniert. Aber das Ergebnis ist eine qualitativ hochwertige Datenbank mit Bildern, die mit einem hohen Maß an Genauigkeit kommentiert sind, sagen sie.

Eine interessante Frage ist, wie die Top-Algorithmen bei der Objekterkennung im Vergleich zu Menschen abschneiden. Russakovsky und Co haben Menschen mit Maschinen verglichen und ihre Schlussfolgerung scheint unvermeidlich. Unsere Ergebnisse zeigen, dass ein geschulter menschlicher Kommentator in der Lage ist, das beste Modell (GoogLeNet) um etwa 1,7 % zu übertreffen, sagen sie.

Mit anderen Worten, es wird nicht lange dauern, bis Maschinen den Menschen bei Bilderkennungsaufgaben deutlich übertreffen werden.

Die besten Bildverarbeitungsalgorithmen haben immer noch Probleme mit kleinen oder dünnen Objekten wie einer kleinen Ameise auf einem Blumenstiel oder einer Person, die einen Federkiel in der Hand hält. Sie haben auch Probleme mit Bildern, die mit Filtern verzerrt wurden, ein Phänomen, das bei modernen Digitalkameras immer häufiger vorkommt.

Im Gegensatz dazu stören diese Art von Bildern selten Menschen, die dazu neigen, Probleme mit anderen Problemen zu haben. Sie sind beispielsweise nicht gut darin, Objekte in feinkörnige Kategorien wie bestimmte Hunde- oder Vogelarten einzuordnen, während Algorithmen für maschinelles Sehen dies problemlos handhaben.

Aber der Trend ist eindeutig. Es ist klar, dass Menschen bald modernste Bildklassifizierungsmodelle nur mit erheblichem Aufwand, Fachwissen und Zeit übertreffen werden, sagen Russakovsky und Co.

Oder anders gesagt: Es ist nur eine Frage der Zeit, bis Ihr Smartphone den Inhalt Ihrer Bilder besser erkennt als Sie.

Ref: http://arxiv.org/abs/1409.0575 : ImageNet Large Scale Visual Recognition Challenge

verbergen