OmniParser
Rein auf visueller Wahrnehmung basierender Proxy-Parser mit grafischer Benutzeroberfläche
Normales ProduktProduktivitätVisuell-sprachliches ModellBenutzeroberflächenanalyse
OmniParser ist eine von Microsoft Research entwickelte Methode zum Parsen von Screenshots von Benutzeroberflächen. Durch die Erkennung interaktiver Symbole und das Verständnis der Semantik verschiedener Elemente in Screenshots verbessert er die Fähigkeit von visuell basierten Sprachmodellen (wie GPT-4V), genaue Benutzeroberflächenaktionen zu generieren, deutlich. Mit feinabgestimmten Detektions- und Beschreibungsmodellen analysiert die Technologie interaktive Bereiche in Screenshots und extrahiert die Funktionssemantik, wodurch sie in mehreren Benchmark-Tests die Baseline-Modelle übertrifft. OmniParser kann als Plugin mit anderen visuell-sprachlichen Modellen kombiniert werden, um deren Leistung zu steigern.
OmniParser Neueste Verkehrssituation
Monatliche Gesamtbesuche
934048
Absprungrate
53.20%
Durchschnittliche Seiten pro Besuch
2.7
Durchschnittliche Besuchsdauer
00:02:01