Microsoft lança OmniParser V2.0: Convertendo capturas de tela em formatos estruturados para LLMs

A Microsoft lançou recentemente o OmniParser V2.0, uma nova ferramenta de análise projetada para converter capturas de tela de interfaces de usuário (UI) em um formato estruturado. O OmniParser pode melhorar o desempenho de agentes de UI baseados em modelos de linguagem grandes (LLM), ajudando os usuários a entender e interagir melhor com as informações na tela.

O conjunto de dados de treinamento da ferramenta inclui um conjunto de dados de detecção de ícones interativos, cuidadosamente selecionado e anotado automaticamente a partir de sites populares para destacar áreas clicáveis e interativas. Além disso, existe um conjunto de dados de descrição de ícones, destinado a associar cada elemento da UI à sua função correspondente.

Na versão V2.0, o OmniParser recebeu melhorias significativas. O conjunto de dados atualizado é maior e mais limpo, com uma melhoria de 60% na descrição e localização dos ícones. De acordo com os testes, a latência média desta versão também foi reduzida significativamente, cerca de 0,6 segundos/frame em um dispositivo A100 e 0,8 segundos/frame em uma única placa gráfica 4090. Em termos de desempenho, o OmniParser obteve uma precisão média de 39,6 no teste ScreenSpot Pro.

Os usuários podem controlar uma máquina virtual Windows 11 usando a ferramenta OmniTool. Combinado com o OmniParser, o OmniTool permite que os usuários escolham o modelo visual adequado. Atualmente, o OmniTool suporta vários modelos de linguagem grandes, como várias versões do OpenAI, DeepSeek (R1), Qwen (2.5VL) e Anthropic Computer Use, facilitando várias operações para os usuários.

O OmniParser visa converter imagens de capturas de tela não estruturadas em uma lista estruturada de elementos, incluindo a localização de áreas interativas e descrições da função potencial dos ícones. Os usuários desta ferramenta precisam ter habilidades básicas de análise e pensamento crítico, pois, embora o OmniParser possa extrair informações, o julgamento final ainda deve ser feito pelo usuário. Esta ferramenta pode ser usada para vários tipos de capturas de tela, incluindo interfaces de PC e celular, sendo altamente adaptável.

No entanto, as limitações do OmniParser também devem ser observadas. A ferramenta não detecta conteúdo prejudicial na entrada, portanto, os usuários devem ter cuidado ao fornecer entradas, garantindo que não contenham informações prejudiciais. Embora o OmniParser apenas converta capturas de tela em texto, ele ainda pode ser usado para construir agentes de interface gráfica do usuário operacionais. Os desenvolvedores devem seguir os padrões de segurança e as normas éticas ao construir e operar agentes usando o OmniParser.

Modelo: https://huggingface.co/microsoft/OmniParser-v2.0

Projeto: https://github.com/microsoft/OmniParser/tree/master

Destaques:
🔍 O OmniParser V2.0 é uma ferramenta de análise inteligente que converte capturas de tela da UI em informações estruturadas, melhorando a experiência do usuário.
⚡ A nova versão apresenta melhorias significativas, com latência média reduzida para 0,6 segundos/frame e precisão de 39,6%.
🔐 Ao usar, é necessário atenção à segurança do conteúdo de entrada, e os desenvolvedores devem seguir os padrões de segurança e as normas éticas.

Notícias e Informações de IA

Microsoft lança OmniParser V2.0: Convertendo capturas de tela em formatos estruturados para LLMs

AIbase基地

Notícias de IA Relacionadas Recomendadas

xAI Grok-3 supera o GPT4.5 e conquista o topo da arena de modelos de linguagem grandes

ByteDance lança AIBrix: novo sistema de inferência de código aberto projetado para modelos de linguagem grandes

Baidu: Lançará a série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrirá o código-fonte em 30 de junho

Conhecimento histórico como ponto fraco da IA: modelos de linguagem grandes têm dificuldades com problemas históricos complexos