Bessere und genauere Bildersuche

Forscher der University of California, San Diego (UCSD), haben eine neue Methode zur Bildsuche entwickelt, von der sie behaupten, dass sie bestehende Ansätze in Bezug auf Genauigkeit und Effizienz deutlich übertrifft. Der Ansatz der Forscher modifiziert eine typische Methode des maschinellen Lernens, mit der Computer trainiert werden, Bilder zu erkennen, sagt Nuno Vasconcelos, Professor für Elektro- und Computertechnik an der UCSD. Das Ergebnis ist eine Suchmaschine, die Bilder automatisch mit den Namen der darin enthaltenen Objekte wie Rettich, Regenschirm oder Schwimmer beschriftet. Und weil der Ansatz Wörter verwendet, um Teile von Bildern zu kennzeichnen und zu klassifizieren, eignet er sich gut für typische Stichwortsuchen, die Menschen im Web durchführen, sagt Vasconcelos.

Fotos finden : Ein an der UCSD entwickelter neuer Algorithmus, der Bildern Wort-Tags hinzufügt, kann die Genauigkeit und Effizienz der Bildsuche erhöhen. Oben wird Merkmalen aus einem Bild eine Wahrscheinlichkeit zugewiesen, dass sie in bestimmte Kategorien wie Wasser oder Person gehören.

Derzeit kann die Suche nach Bildern im Internet mithilfe von Schlüsselwörtern ein Hit-or-Miss sein. Dies liegt daran, dass die meisten bildbasierten Suchen Metadaten verwenden – Text wie Dateiname, Datum oder andere grundlegende Informationen zu einem Bild – die unvollständig, für Stichwortsuchen nutzlos oder ganz fehlen können. Informatiker arbeiten seit mehr als einem Jahrzehnt an besseren Möglichkeiten, Bilder zu identifizieren und durchsuchbar zu machen, aber Maschinen dazu zu bringen, über Metadaten hinauszugehen und zu bestimmen, welche Objekte sich in einem Bild befinden, ist ein schwer zu lösendes Problem, und die meisten bisherigen Bemühungen waren nur war mäßig erfolgreich.



Obwohl die UCSD-Forschung das Problem nicht vollständig löst, verbessert sie die Leistung und Effizienz für einen bestimmten Ansatz, sagt Vasconcelos, und identifiziert einige Einschränkungen in der Art und Weise, wie Menschen das Problem angehen.

Der von den Forschern verfolgte Ansatz wird als inhaltsbasiert bezeichnet und beinhaltet die Beschreibung von Objekten in einem Bild durch die Analyse von Merkmalen wie Farbe, Textur und Linien. Diese Objekte können durch Merkmalssätze dargestellt und dann mit den aus anderen Bildern extrahierten Sätzen verglichen werden. Feature-Sets werden durch ihre Statistiken beschrieben, und der Computer sucht nach statistisch wahrscheinlichen Übereinstimmungen.

Multimedia

  • Bildersuche

Die neue Forschung basiert auf diesem Ansatz, fügt jedoch einen Zwischenschritt hinzu, sagt Pedro Moreno, ein Google-Forschungsingenieur, der an dem Projekt mitgearbeitet hat. Moreno erklärt, dass dieser neue Schritt ein semantisches Label oder ein Wort-Tag bereitstellt, das Objekte in Bildern beschreibt, anstatt sich ausschließlich auf Zahlenreihen zu verlassen.

Erwägen Sie beispielsweise, ein Bild eines Hundes auf einem Rasen einzureichen. Die Objekte in den Bildern werden analysiert und mit Ergebnissen bekannter Objektkategorien wie Hunde, Katzen oder Fische verglichen. Dann führt der Computer eine statistische Analyse durch, die die Wahrscheinlichkeit angibt, dass ein Bild diesen Kategorien entspricht. Das System könnte das Bild mit einer 60-prozentigen Wahrscheinlichkeit bewerten, dass das Hauptobjekt ein Hund ist und eine 20-prozentige Wahrscheinlichkeit, dass es sich um eine Katze oder einen Fisch handelt. Der Computer geht also davon aus, dass das Bild aller Wahrscheinlichkeit nach ein Bild eines Hundes enthält. Die Schlüsselidee besteht darin, Bilder in diesem semantischen Raum darzustellen, sagt Moreno. Dies scheint die Leistung deutlich zu verbessern.

Das System der Forscher erlangte seine Expertise, indem es Tausenden von Bildern ausgesetzt wurde, die Objekte wie Berge, Blumen, Menschen, Wasser und Tiger sowie die den Objekten entsprechenden semantischen Tags enthielten. Dann testeten die Forscher, wie gut das System funktionierte, indem sie es neuen Bildern aussetzten, die noch nicht beschriftete Objekte enthielten. Im Vergleich mit der Beschreibung einer Szene durch einen Menschen schnitt das System gut ab: Ein Bild eines Tigers im hohen Gras veranlasste das System, Katze, Tiger, Pflanzen, Blätter und Gras zu finden. Eine von Menschenhand geschaffene Bildunterschrift umfasste Katze, Tiger, Wald und Gras. Und als die Forscher die Tags ihres Systems mit typischeren inhaltsbasierten Ansätzen verglichen, stellten sie fest, dass es um etwa 40 Prozent besser war. Mit anderen Worten, es wurden weniger Wörter erzeugt, die nicht auf das Bild anwendbar waren.

Larry Zitnick, ein Forscher für Bildsuche bei Microsoft, sagt, dass die Forschung die Grenzen der inhaltsbasierten Suche überschreitet, um zu sehen, wie gut sie funktionieren kann. Was sie tun, ist zu analysieren, wie weit wir gehen können, indem wir [ein Bild nach Objekten durchsuchen], und das ist wirklich gut, wenn es darum geht, die Grenzen zu überschreiten. Er vermutet auch, dass der Ansatz bei großen Bildmengen, etwa im Internet, gut funktionieren könnte.

Zitnick fügt hinzu, dass die UCSD-Ergebnisse für bestimmte Arten einfacher Objektsuche in Bildern großartig sein könnten. Für andere Suchen, wie die Unterscheidung des US-Kapitols vom Kapitol des Staates in Lincoln, NE, würde es jedoch nicht funktionieren. Sehprobleme sind sehr schwierig, und ich glaube nicht, dass eine Lösung alles lösen wird, sagt Zitnick.

Der Ansatz der Forscher könnte jedoch nützlich sein, wenn er in bestehende Suchsoftware integriert würde, sagt Chuck Rosenberg, ein Google-Softwareingenieur, der an der Bildersuche arbeitet. Bei Integration in die Desktop-Suche könnte der Ansatz es Benutzern ermöglichen, auf der Grundlage der Ähnlichkeit des Erscheinungsbilds nach Bildern zu suchen. Aber es würde den Leuten nicht unbedingt helfen, Bilder zu finden, die auf obskureren Konzepten wie Glück basieren. Zum Beispiel, sagt Rosenberg, möchte ich vielleicht ein Bild einer glücklichen Familie beim Abendspaziergang, um es auf eine Karte zu kleben, die ich gerade mache. Dass ein Computer dieses Bild wirklich allein aufgrund des Inhalts des Bildes finden kann … geht über die aktuelle Technologie hinaus.

Vasconcelos von der UCSD vermutet, dass es noch mehr als fünf Jahre dauern wird, bis Computer schwierigere Begriffe wie Glück in Bildern erkennen können. Das bedeute aber nicht, dass die aktuelle Forschung bis dahin nicht sinnvoll sei, sagt er. Die Erwartung muss sein, dass [die Technologie] eher ein Hilfsmittel ist, nicht wie eine Antwort.

verbergen