Microsoft veröffentlicht OmniParser V2.0: Screenshots in für LLMs verarbeitbares strukturiertes Format umwandeln

Microsoft hat kürzlich OmniParser V2.0 veröffentlicht, ein neues Analysetool, das Benutzeroberflächen (UI)-Screenshots in ein strukturiertes Format umwandelt. OmniParser kann die Leistung von auf großen Sprachmodellen (LLM) basierenden UI-Agenten verbessern und Benutzern helfen, Informationen auf dem Bildschirm besser zu verstehen und zu bedienen.

Das Trainingsdataset des Tools umfasst einen Datensatz zur interaktiven Icons-Erkennung, der sorgfältig aus beliebten Webseiten ausgewählt und automatisch annotiert wurde, um klickbare und bedienbare Bereiche hervorzuheben. Darüber hinaus gibt es einen Datensatz zur Icon-Beschreibung, der darauf abzielt, jedes UI-Element mit seiner entsprechenden Funktion zu verknüpfen.

In Version V2.0 wurde OmniParser deutlich verbessert. Der aktualisierte Datensatz ist größer und sauberer, und die Beschreibung und Lokalisierung von Icons wurde um 60 % verbessert. Tests zufolge wurde die durchschnittliche Latenz deutlich reduziert: etwa 0,6 Sekunden/Frame auf einem A100-Gerät und 0,8 Sekunden/Frame auf einer einzelnen 4090-Grafikkarte. In Bezug auf die Leistung erzielte OmniParser im ScreenSpot Pro-Test eine durchschnittliche Genauigkeit von 39,6 %.

Benutzer können Windows 11-VMs einfach mit dem OmniTool-Tool steuern. In Kombination mit OmniParser können Benutzer auch ein geeignetes visuelles Modell auswählen. Derzeit unterstützt OmniTool verschiedene große Sprachmodelle wie mehrere Versionen von OpenAI, DeepSeek (R1), Qwen (2.5VL) und Anthropic Computer Use, um Benutzern verschiedene Operationen zu ermöglichen.

OmniParser zielt darauf ab, unstrukturierte Screenshot-Bilder in eine strukturierte Elementliste umzuwandeln, einschließlich der Position interaktiver Bereiche und der Beschreibung der potenziellen Funktion von Icons. Benutzer dieses Tools benötigen grundlegende analytische Fähigkeiten und kritisches Denken, da OmniParser zwar Informationen extrahieren kann, die endgültige Beurteilung jedoch vom Benutzer selbst getroffen werden muss. Dieses Tool kann für verschiedene Arten von Screenshots verwendet werden, einschließlich PC- und Smartphone-Oberflächen, und ist daher sehr anpassungsfähig.

Die Einschränkungen von OmniParser sind jedoch ebenfalls zu beachten. Das Tool erkennt keine schädlichen Inhalte in der Eingabe. Benutzer sollten daher vorsichtig sein, welche Eingaben sie liefern, um sicherzustellen, dass keine schädlichen Informationen enthalten sind. Obwohl OmniParser Screenshots nur in Text umwandelt, kann er dennoch zum Erstellen von bedienbaren grafischen Benutzeroberflächen-Agenten verwendet werden. Entwickler müssen bei der Erstellung und dem Betrieb von Agenten mit OmniParser Sicherheitsstandards und ethische Richtlinien befolgen.

Modell: https://huggingface.co/microsoft/OmniParser-v2.0

Projekt: https://github.com/microsoft/OmniParser/tree/master

Highlights:
🔍 OmniParser V2.0 ist ein intelligentes Analysetool, das UI-Screenshots in strukturierte Informationen umwandelt und das Benutzererlebnis verbessert.
⚡ Die neue Version wurde deutlich verbessert: Die durchschnittliche Latenz wurde auf 0,6 Sekunden/Frame reduziert, die Genauigkeit beträgt 39,6 %.
🔐 Bei der Verwendung ist auf die Sicherheit der eingegebenen Inhalte zu achten. Entwickler sollten Sicherheitsstandards und ethische Richtlinien befolgen.

KI-Nachrichten und -Informationen

Microsoft veröffentlicht OmniParser V2.0: Screenshots in für LLMs verarbeitbares strukturiertes Format umwandeln

AIbase基地