OmniParser V2 é um modelo de inteligência artificial avançado desenvolvido pela equipe de pesquisa da Microsoft, projetado para transformar modelos de linguagem grandes (LLMs) em agentes inteligentes capazes de entender e operar interfaces gráficas do usuário (GUIs). Essa tecnologia converte capturas de tela de interfaces do espaço de pixels em elementos estruturados interpretáveis, permitindo que o LLM identifique ícones interativos com maior precisão e execute ações predefinidas na tela. O OmniParser V2 alcançou avanços significativos na detecção de pequenos ícones e raciocínio rápido, atingindo uma precisão média de 39,6% no benchmark ScreenSpot Pro em combinação com o GPT-4o, superando em muito os 0,8% do modelo original. Além disso, o OmniParser V2 oferece a ferramenta OmniTool, que suporta o uso com vários LLMs, impulsionando ainda mais o desenvolvimento da automação de GUIs.