Erinnern Sie sich noch an GPT-4V, das angebliche „Bild-zu-Text“-Wunder? Es versteht Bildinhalte und kann Aufgaben basierend auf Bildern ausführen – ein wahrer Segen für Faule! Aber es hat einen entscheidenden Nachteil: es sieht nicht besonders gut!

Stellen Sie sich vor, Sie bitten GPT-4V, einen Button zu drücken, aber es klickt wie ein „Bildschirm-Blinder“ wahllos herum. Das ist doch frustrierend, oder?

Heute stellen wir Ihnen ein Tool vor, das GPT-4V die Sicht verbessert – OmniParser! Dies ist ein neues Modell von Microsoft, das darauf abzielt, die Herausforderungen der automatisierten Interaktion mit grafischen Benutzeroberflächen (GUIs) zu lösen.

Was macht OmniParser?

Einfach ausgedrückt, OmniParser ist ein „Bildschirmübersetzer“. Es analysiert Screenshots und wandelt sie in eine „strukturierte Sprache“ um, die GPT-4V versteht. OmniParser kombiniert ein feingetuntes interaktives Icon-Erkennungsmodell, ein feingetuntes Icon-Beschreibungsmodell und die Ausgabe eines OCR-Moduls.

image.png

Diese Kombination erzeugt eine strukturierte, DOM-ähnliche Darstellung der Benutzeroberfläche und einen Screenshot, der die Begrenzungsrahmen potenziell interaktiver Elemente überdeckt. Die Forscher erstellten zunächst einen Datensatz zur Erkennung interaktiver Symbole mithilfe gängiger Webseiten- und Symbolbeschreibungsdatensätze. Diese Datensätze wurden verwendet, um spezielle Modelle zu feintunen: ein Modell zur Erkennung interaktiver Bereiche auf dem Bildschirm und ein Modell zur Extraktion der funktionalen Semantik der erkannten Elemente.

Konkret macht OmniParser Folgendes:

Es erkennt alle interaktiven Symbole und Schaltflächen auf dem Bildschirm, umrahmt sie und gibt jedem Rahmen eine eindeutige ID.

Es beschreibt jedes Symbol mit Text, z. B. „Einstellungen“, „Minimieren“. Es erkennt und extrahiert Text auf dem Bildschirm.

So weiß GPT-4V genau, was sich auf dem Bildschirm befindet, welche Funktion die einzelnen Elemente haben, und kann einen Button einfach über seine ID ansteuern.

image.png

Wie leistungsfähig ist OmniParser?

Die Forscher testeten OmniParser mit verschiedenen Tests und stellten fest, dass es GPT-4V tatsächlich „schärfer sehen“ lässt!

Im ScreenSpot-Test verbesserte OmniParser die Genauigkeit von GPT-4V deutlich und übertraf sogar einige speziell für grafische Benutzeroberflächen trainierte Modelle. Beispielsweise verbesserte sich die Genauigkeit von OmniParser im ScreenSpot-Datensatz um 73 % und übertraf Modelle, die auf der Analyse von HTML-Code basieren. Bemerkenswert ist, dass die Einbeziehung der lokalen Semantik von Benutzeroberflächelementen zu einer deutlichen Verbesserung der Vorhersagegenauigkeit führte – die korrekte Kennzeichnung von Symbolen durch GPT-4V verbesserte sich von 70,5 % auf 93,8 %, wenn die Ausgabe von OmniParser verwendet wurde.

Im Mind2Web-Test verbesserte OmniParser die Leistung von GPT-4V bei Webbrowser-Aufgaben und übertraf sogar GPT-4V, das mit HTML-Informationen unterstützt wurde.

Im AITW-Test verbesserte OmniParser die Leistung von GPT-4V bei Smartphone-Navigationsaufgaben deutlich.

image.png

Welche Schwächen hat OmniParser?

Obwohl OmniParser beeindruckend ist, hat es auch einige kleine Mängel:

Bei sich wiederholenden Symbolen oder Texten kann es zu Verwechslungen kommen, daher sind detailliertere Beschreibungen erforderlich.

Manchmal sind die Rahmen nicht ganz präzise, was dazu führt, dass GPT-4V an der falschen Stelle klickt.

Das Verständnis von Symbolen kann gelegentlich fehlerhaft sein, daher ist die Einbeziehung des Kontextes für eine genauere Beschreibung notwendig.

Die Forscher arbeiten jedoch an der Verbesserung von OmniParser, und es wird mit Sicherheit immer leistungsfähiger und letztendlich der beste Partner für GPT-4V werden!

Modell-Erfahrung:https://huggingface.co/microsoft/OmniParser

Paper-Link:https://arxiv.org/pdf/2408.00203

Offizielle Einführung:https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/

Wichtigste Punkte:

✨OmniParser hilft GPT-4V, Bildschirm Inhalte besser zu verstehen und Aufgaben genauer auszuführen.

🔍OmniParser hat sich in verschiedenen Tests als sehr effektiv erwiesen.

🛠️OmniParser hat noch Verbesserungspotenzial, aber die Zukunft sieht vielversprechend aus.