OmniParser V2
OmniParser V2 est une technologie permettant de transformer n'importe quel LLM en agent utilisable par ordinateur.
Sélection InternationaleProgrammationIntelligence artificielleAutomatisation GUI
OmniParser V2 est un modèle d'intelligence artificielle avancé développé par l'équipe de recherche Microsoft. Il vise à transformer les grands modèles de langage (LLM) en agents intelligents capables de comprendre et de manipuler les interfaces graphiques utilisateur (GUI). Cette technologie convertit les captures d'écran d'interface de l'espace pixel en éléments structurés interprétables, permettant aux LLM d'identifier plus précisément les icônes interactives et d'exécuter des actions prédéfinies à l'écran. OmniParser V2 a réalisé des progrès significatifs dans la détection des petites icônes et le raisonnement rapide. Couplé à GPT-4o, il atteint une précision moyenne de 39,6 % sur le benchmark ScreenSpot Pro, surpassant largement les 0,8 % du modèle original. De plus, OmniParser V2 fournit l'outil OmniTool, compatible avec plusieurs LLM, stimulant ainsi le développement de l'automatisation des GUI.
OmniParser V2 Dernière situation du trafic
Nombre total de visites mensuelles
1154579588
Taux de rebond
44.37%
Nombre moyen de pages par visite
3.4
Durée moyenne de la visite
00:03:21