Em ambientes profissionais, os agentes de interface gráfica do usuário (GUI) enfrentam três desafios cruciais. Primeiro, a complexidade dos aplicativos profissionais é muito maior do que a de softwares comuns, exigindo uma compreensão profunda de layouts complexos; segundo, as ferramentas profissionais geralmente possuem resoluções mais altas, resultando em tamanhos de destino menores e, consequentemente, menor precisão de localização; terceiro, os fluxos de trabalho costumam depender de ferramentas e documentos adicionais, aumentando a complexidade da operação. Esses desafios destacam a necessidade de desenvolver benchmarks e soluções mais avançadas para melhorar o desempenho dos agentes GUI nesses cenários rigorosos.

image.png

Os modelos e benchmarks atuais de localização de GUI não atendem às necessidades de ambientes profissionais. Por exemplo, ferramentas como o ScreenSpot são projetadas principalmente para tarefas de baixa resolução e carecem da diversidade necessária para simular cenários reais com precisão. Modelos como OS-Atlas e UGround apresentam baixo desempenho computacional, especialmente quando os alvos são pequenos ou a interface possui muitos ícones, frequentemente falhando nesses casos. Além disso, a falta de suporte multilíngue limita a aplicação desses modelos em fluxos de trabalho globais. Essas deficiências reforçam a necessidade de benchmarks mais abrangentes e realistas para impulsionar o desenvolvimento nessa área.

Para resolver esses problemas, uma equipe de pesquisa da Universidade Nacional de Singapura, da Universidade Normal do Leste da China e da Universidade Baptista de Hong Kong lançou o ScreenSpot-Pro, um novo benchmark projetado especificamente para ambientes profissionais de alta resolução. Este benchmark possui um conjunto de dados de 1.581 tarefas de 23 setores, incluindo desenvolvimento, ferramentas criativas, CAD, plataformas científicas e suítes de escritório. Ele utiliza efeitos visuais de tela cheia em alta resolução e anotações de especialistas para garantir precisão e realismo. O ScreenSpot-Pro também oferece instruções multilíngues, incluindo inglês e chinês, para ampliar o escopo da avaliação. Diferentemente dos anteriores, o ScreenSpot-Pro documenta os fluxos de trabalho reais, garantindo a geração de anotações de alta qualidade, fornecendo assim uma ferramenta eficaz para a avaliação e desenvolvimento abrangentes de modelos de localização de GUI.

O conjunto de dados captura cenários realistas e desafiadores, baseado em imagens de alta resolução, com áreas de destino que ocupam em média apenas 0,07% da tela, mostrando a sutileza e o tamanho reduzido dos elementos da GUI. Os dados foram coletados por usuários profissionais com ampla experiência em aplicativos relevantes, utilizando ferramentas especializadas para garantir a precisão das anotações. Além disso, o conjunto de dados suporta recursos multilíngues, facilitando os testes de capacidade bilíngue e inclui vários fluxos de trabalho para capturar as nuances das tarefas profissionais. Essas características o tornam particularmente útil para avaliar e melhorar a precisão e a flexibilidade dos agentes GUI.

A análise dos modelos de localização de GUI existentes usando o ScreenSpot-Pro revelou sua grave insuficiência no tratamento de ambientes profissionais de alta resolução. A precisão do OS-Atlas-7B foi de apenas 18,9%. No entanto, o ReGround, utilizando um método iterativo e ajuste fino por meio de uma abordagem de várias etapas, melhorou o desempenho, alcançando uma precisão de 40,2%. A identificação de componentes pequenos, como ícones, apresentou dificuldades significativas, e as tarefas bilíngues destacaram ainda mais as limitações do modelo. Essas descobertas enfatizam a necessidade de melhorias tecnológicas para aumentar a capacidade de compreensão e adaptação contextual em ambientes GUI complexos.

O ScreenSpot-Pro estabelece um benchmark transformador para a avaliação de agentes GUI em ambientes profissionais de alta resolução. Ele aborda os desafios específicos de fluxos de trabalho complexos, fornecendo um conjunto de dados diversificado e preciso para orientar a inovação na localização de GUI. Essa contribuição lançará as bases para agentes mais inteligentes e eficientes, permitindo a execução perfeita de tarefas profissionais e melhorando significativamente a produtividade e a inovação em vários setores.

Artigo: https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf

Dados: https://huggingface.co/datasets/likaixin/ScreenSpot-Pro

Destaques:

🌟 **Complexidade de aplicativos profissionais**: Os agentes GUI precisam lidar com interfaces de software profissionais de alta complexidade e alta resolução.  

🛠️ **Conjunto de dados ScreenSpot-Pro**: Contém 1.581 tarefas, abrangendo 23 aplicativos profissionais e suportando avaliação multilíngue.  

📈 **Melhoria do desempenho do modelo**: Através do ajuste fino em várias etapas, melhora a precisão dos modelos de localização de GUI em ambientes de alta resolução.