OmniParser V2
OmniParser V2 ist eine Technologie, die jedes LLM in einen vom Computer nutzbaren Agenten umwandelt.
Internationale AuswahlProgrammierungKünstliche IntelligenzGUI-Automatisierung
OmniParser V2 ist ein fortschrittliches KI-Modell des Microsoft Research Teams, das darauf ausgelegt ist, Large Language Models (LLMs) in intelligente Agenten umzuwandeln, die grafische Benutzeroberflächen (GUIs) verstehen und bedienen können. Die Technologie wandelt Screenshots von Benutzeroberflächen aus dem Pixelraum in interpretierbare strukturierte Elemente um, sodass LLMs interaktive Symbole genauer erkennen und vordefinierte Aktionen auf dem Bildschirm ausführen können. OmniParser V2 hat signifikante Fortschritte bei der Erkennung kleiner Symbole und schneller Inferenz erzielt. In Kombination mit GPT-4o erreichte es im ScreenSpot Pro-Benchmark eine durchschnittliche Genauigkeit von 39,6 %, was weit über den 0,8 % des ursprünglichen Modells liegt. Darüber hinaus bietet OmniParser V2 das OmniTool, das die Verwendung mit verschiedenen LLMs unterstützt und die Entwicklung der GUI-Automatisierung weiter vorantreibt.
OmniParser V2 Neueste Verkehrssituation
Monatliche Gesamtbesuche
1154579588
Absprungrate
44.37%
Durchschnittliche Seiten pro Besuch
3.4
Durchschnittliche Besuchsdauer
00:03:21