OmniParser V2

OmniParser V2 ist eine Technologie, die jedes LLM in einen vom Computer nutzbaren Agenten umwandelt.

Internationale AuswahlProgrammierungKünstliche IntelligenzGUI-Automatisierung
OmniParser V2 ist ein fortschrittliches KI-Modell des Microsoft Research Teams, das darauf ausgelegt ist, Large Language Models (LLMs) in intelligente Agenten umzuwandeln, die grafische Benutzeroberflächen (GUIs) verstehen und bedienen können. Die Technologie wandelt Screenshots von Benutzeroberflächen aus dem Pixelraum in interpretierbare strukturierte Elemente um, sodass LLMs interaktive Symbole genauer erkennen und vordefinierte Aktionen auf dem Bildschirm ausführen können. OmniParser V2 hat signifikante Fortschritte bei der Erkennung kleiner Symbole und schneller Inferenz erzielt. In Kombination mit GPT-4o erreichte es im ScreenSpot Pro-Benchmark eine durchschnittliche Genauigkeit von 39,6 %, was weit über den 0,8 % des ursprünglichen Modells liegt. Darüber hinaus bietet OmniParser V2 das OmniTool, das die Verwendung mit verschiedenen LLMs unterstützt und die Entwicklung der GUI-Automatisierung weiter vorantreibt.
Website öffnen

OmniParser V2 Neueste Verkehrssituation

Monatliche Gesamtbesuche

1154579588

Absprungrate

44.37%

Durchschnittliche Seiten pro Besuch

3.4

Durchschnittliche Besuchsdauer

00:03:21

OmniParser V2 Besuchstrend

OmniParser V2 Geografische Verteilung der Besuche

OmniParser V2 Traffic-Quellen

OmniParser V2 Alternativen