OmniParser V2 est un modèle d'intelligence artificielle avancé développé par l'équipe de recherche Microsoft. Il vise à transformer les grands modèles de langage (LLM) en agents intelligents capables de comprendre et de manipuler les interfaces graphiques utilisateur (GUI). Cette technologie convertit les captures d'écran d'interface de l'espace pixel en éléments structurés interprétables, permettant aux LLM d'identifier plus précisément les icônes interactives et d'exécuter des actions prédéfinies à l'écran. OmniParser V2 a réalisé des progrès significatifs dans la détection des petites icônes et le raisonnement rapide. Couplé à GPT-4o, il atteint une précision moyenne de 39,6 % sur le benchmark ScreenSpot Pro, surpassant largement les 0,8 % du modèle original. De plus, OmniParser V2 fournit l'outil OmniTool, compatible avec plusieurs LLM, stimulant ainsi le développement de l'automatisation des GUI.