Genauere Videosuche

Bostoner Startup EveryZing hat eine Suchmaschine auf den Markt gebracht, von der sie hofft, dass sie die Art und Weise verändern wird, wie Menschen online nach Audio und Video suchen. Früher bekannt als PodZinger, eine Podcast-Suchmaschine, nutzt EveryZing Sprachsysteme, die von einem Technologieunternehmen entwickelt wurden BBN die gesprochene Wörter mit einer Genauigkeit von etwa 80 Prozent in durchsuchbaren Text umwandeln können. Dies übertrifft andere kommerziell erhältliche Systeme, sagt Tom Wilde, CEO von EveryZing.

Audiohinweise: Eine neue Video- und Audiosuchmaschine kann Audio mit einer Genauigkeit von 80 Prozent in ein Texttranskript umwandeln. Das reicht aus, um Ausschnitte des Transkripts anzuzeigen, Benutzer an die Stelle in der Datei zu leiten, an der ein Suchbegriff vorkommt, und wichtige Konzepte zusammenzufassen.

Diese hohe Genauigkeit ermöglicht laut Wilde neue Suchfunktionen, wie die Möglichkeit, vollständige Transkripte von Video und Audio bereitzustellen und Personen genau an die Stelle in einer Datei zu leiten, an der ein Wort oder eine Phrase gesprochen wird. Die Technologie wird es dem Unternehmen auch ermöglichen, gezielte Anzeigen zu bestimmten Inhalten bereitzustellen, ähnlich wie Google Anzeigen basierend auf dem Text einer Webseite bereitstellt.



Die große Herausforderung [in Online-Video und Audio] … ist die Undurchsichtigkeit der Medieninhalte, sagt Wilde. Es ist äußerst schwierig zu wissen, welcher Inhaltsbereich sich in einem Video- oder Audioclip befindet. Das Problem, das wir lösen wollen, ist die Auffindbarkeit von Multimedia in der Websuche. EveryZing tut dies, indem es den Inhalt von Multimediadateien extrahiert und Text ausgibt, sodass es die bereits existierenden Textsuchwerkzeuge nutzen kann, die von Google und Yahoo entwickelt wurden.

Das Web explodiert mit Multimedia von YouTube, Podcasts, Fernsehnachrichten und nationalen öffentlichen Radiosendungen. Aber es ist immer noch schwierig, nach Barack Obama zu suchen und alle Instanzen im Web aufzufinden, in denen sein Name erwähnt wird. Normalerweise enthalten die Titel von Clips und die ihnen zugewiesenen Tags nicht genügend Informationen, um nützliche Suchergebnisse zu liefern. Aus diesem Grund haben eine Handvoll Unternehmen in den letzten Jahren die Verwendung von Audioinhalten als Leitfaden untersucht. Zum Beispiel Videosuchmaschine Blinkx verwendet Spracherkennungstechnologie, um das gesamte Web nach relevanten Inhalten zu durchsuchen und diese auf einer einzigen Site zu aggregieren, ähnlich wie Google Webseiten aggregiert. (Siehe Surfen im Internet im Fernsehen .)

Die Geschäftsziele von EveryZing unterscheiden sich von denen von Blinkx, sagt Wilde und vermutet, dass sich die beiden Ansätze ergänzen können. Uns geht es um Merchandising-Inhalte, nicht um das Trollen des Webs, sagt er. EveryZing (das wie Blinkx ein Suchportal für Web-Surfer bereitstellt) möchte hauptsächlich mit Inhaltsanbietern zusammenarbeiten, um deren Multimedia durchsuchbar zu machen. Das Unternehmen möchte beispielsweise alle Audio- und Videoinhalte von ABC.com in durchsuchbaren Text umwandeln und diesem Text (sowie bereits vorhandenem Untertiteltext) Zeitstempel hinzufügen, damit eine Person sofort zu einem bestimmten Wort in a springen kann klammern.

Darüber hinaus ermöglicht die Technologie von BBN im Gegensatz zur aktuellen Technologie von Blinkx EveryZing, hochrangige Konzepte zu extrahieren, nach denen ursprünglich möglicherweise nicht gesucht wurde. Sucht jemand beispielsweise nach Barack Obama, bietet EveryZing im Clip möglicherweise auch andere Schlagworte an, wie zum Beispiel Rallye.

Die Idee, Audiotranskripte für die Suche nach Multimedia zu verwenden, gibt es in Forschungslabors seit Jahrzehnten, und die Grundlagenforschung zur Spracherkennung reicht noch früher zurück. Ein Großteil der bahnbrechenden Arbeit fand bei BBN, MIT, Carnegie Mellon University, IBM und SRI International statt. 1995 hatte Carnegie Mellon eine funktionierende Demonstration eines ähnlichen Videosuchsystems, sagt Richard Stern , Professor für Elektrotechnik und Informationstechnik an der Universität. Dieses System, genannt Infomedia Er habe andere Forschungen auf diesem Gebiet angespornt, sagt er, und sei der Vorläufer des modernen Videoanalyseansatzes von BBN gewesen.

Die zugrunde liegende Technologie von EveryZing besteht aus zwei Basistechnologien von BBN aus Boston. Das Kern-Sprache-zu-Text-System namens Byblos wurde in den letzten fünf Jahren mit Forschungsgeldern in Höhe von 50 Millionen US-Dollar finanziert, die auf einer Reihe von staatlichen Zuschüssen basieren, sagt Wilde. Mit probabilistischen Algorithmen für maschinelles Lernen benötigt das System eine Minute, um jede Minute Audioinhalt in Text umzuwandeln.

Der zweite Teil der Technologie, sagt Wilde, sind die Algorithmen, die den Textinhalt verarbeiten. Die Natural Language-Technologie von BBN enthält riesige Mengen an Phrasen und Wörtern für den Kontext, die einem Video helfen, Sinn zu machen. Zum Beispiel könnte ein Nachrichtensegment über Gesundheit eine Sprache verwenden, die spezifisch für den medizinischen Bereich ist. In diesem Fall wäre das System in der Lage, bestimmte obskure Wörter zu erkennen. Die Bedeutung des Textes zu verstehen, ist laut Wilde ein mächtiges Werkzeug, da EveryZing Benutzern damit Konzepte auf hoher Ebene zur Verfügung stellen kann, damit sie ihre Suche verfeinern können. Und vor allem ermöglicht es dem Unternehmen, zielgerichtete Anzeigen mit den richtigen Inhalten zu kombinieren.

Die Zeit ist reif für eine Videosuchmaschine mit diesen Fähigkeiten, sagt Stern von Carnegie Mellon. Video sei ein viel überzeugenderes und unterhaltsameres Medium als nur reiner Text, sagt er, und mittlerweile sei so viel davon im Internet verfügbar. Er fügt hinzu, dass die 80-prozentige Genauigkeit von BBN wirklich eine Leistung ist und für die Online-Suche von Inhalten ausreichend sein sollte.

Die Technologie ist zwar gut, aber nicht perfekt, sagt Wilde von EveryZing. Die Genauigkeit sinkt, wenn Hintergrundmusik vorhanden ist und mehrere Personen gleichzeitig sprechen. Aber für den Infotainment- und Nachrichtenmarkt, den das Unternehmen gerade anvisiert, sollte die Technologie eine deutliche Verbesserung gegenüber dem derzeit verfügbaren bieten, sagt er. Ich denke, wir werden in ein paar Jahren zurückblicken und sagen: „Natürlich muss der Inhalt von Multimediadateien durchsuchbar sein“, sagt Wilde. Es wäre, als könnten die Webseiten nur nach Titel und Tag durchsucht werden.

verbergen