ScreenSpot-Pro : outil de référence LLM multi-modal conçu pour les environnements haute résolution !

Dans un environnement professionnel, les agents d'interface utilisateur graphique (GUI) sont confrontés à trois défis majeurs. Premièrement, la complexité des applications professionnelles dépasse largement celle des logiciels grand public, nécessitant une compréhension approfondie des interfaces complexes ; deuxièmement, les outils professionnels fonctionnent souvent avec des résolutions plus élevées, ce qui réduit la taille des cibles et diminue la précision du positionnement ; enfin, les flux de travail dépendent souvent d'outils et de documents supplémentaires, augmentant la complexité des opérations. Ces défis soulignent la nécessité de développer des benchmarks et des solutions plus avancés pour améliorer les performances des agents GUI dans ces contextes exigeants.

Les modèles et benchmarks actuels de localisation GUI ne répondent pas aux exigences des environnements professionnels. Par exemple, des outils comme ScreenSpot sont principalement conçus pour des tâches à basse résolution et manquent de diversité pour simuler fidèlement les scénarios réels. Quant aux modèles OS-Atlas et UGround, leurs performances en termes d'efficacité de calcul sont médiocres, notamment lorsque les cibles sont petites ou que l'interface graphique est riche en icônes, entraînant souvent des échecs. De plus, l'absence de prise en charge multilingue limite l'utilisation de ces modèles dans les flux de travail mondiaux. Ces lacunes mettent en évidence le besoin de benchmarks plus complets et réalistes pour faire progresser ce domaine.

Pour résoudre ces problèmes, une équipe de chercheurs de l'Université nationale de Singapour, de l'Université normale de l'Est de la Chine et de l'Université baptiste de Hong Kong a lancé ScreenSpot-Pro, un nouveau benchmark spécialement conçu pour les environnements professionnels haute résolution. Ce benchmark dispose d'un jeu de données de 1 581 tâches provenant de 23 secteurs, notamment le développement, les outils créatifs, la CAO, les plateformes scientifiques et les suites bureautiques. Il utilise des visuels plein écran haute résolution et des annotations d'experts garantissent la précision et le réalisme. ScreenSpot-Pro propose également des instructions multilingues, y compris en anglais et en chinois, pour élargir la portée de l'évaluation. Contrairement aux précédents benchmarks, ScreenSpot-Pro documente les flux de travail réels, assurant ainsi la production d'annotations de haute qualité, et fournit ainsi un outil efficace pour l'évaluation et le développement complets des modèles de localisation GUI.

Ce jeu de données capture des scénarios réalistes et stimulants, basés sur des images haute résolution où les zones cibles représentent en moyenne seulement 0,07 % de l'écran, illustrant la finesse et la petite taille des éléments GUI. Les données ont été collectées par des utilisateurs professionnels expérimentés dans les applications concernées, utilisant des outils spécialisés pour garantir la précision des annotations. De plus, ce jeu de données prend en charge le multilinguisme, facilitant les tests de capacités bilingues, et inclut plusieurs flux de travail pour capturer les nuances des tâches professionnelles. Ces caractéristiques le rendent particulièrement utile pour évaluer et améliorer la précision et la flexibilité des agents GUI.

L'analyse des modèles de localisation GUI existants à l'aide de ScreenSpot-Pro a révélé leurs graves lacunes dans la gestion des environnements professionnels haute résolution. La précision d'OS-Atlas-7B n'atteint que 18,9 % au maximum. Cependant, ReGround, utilisant une méthode itérative, a amélioré ses performances grâce à un ajustement fin en plusieurs étapes, atteignant une précision de 40,2 %. L'identification de petits composants tels que les icônes s'avère particulièrement difficile, et les tâches bilingues mettent encore plus en évidence les limites des modèles. Ces résultats soulignent la nécessité d'améliorer les techniques pour renforcer la compréhension contextuelle et l'adaptabilité dans les environnements GUI complexes.

ScreenSpot-Pro établit une référence révolutionnaire pour l'évaluation des agents GUI dans les environnements professionnels haute résolution. Il répond aux défis spécifiques des flux de travail complexes, fournissant un jeu de données diversifié et précis pour guider l'innovation en matière de localisation GUI. Cette contribution jettera les bases d'agents plus intelligents et efficaces, permettant ainsi une exécution transparente des tâches professionnelles et améliorant considérablement la productivité et l'innovation dans divers secteurs.

Article : https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf

Données : https://huggingface.co/datasets/likaixin/ScreenSpot-Pro

Points clés :
🌟 **Complexité des applications professionnelles** : Les agents GUI doivent traiter les interfaces des logiciels professionnels hautement complexes et haute résolution.
🛠️ **Jeu de données ScreenSpot-Pro** : Comprend 1 581 tâches, couvrant 23 applications professionnelles, et prend en charge l'évaluation multilingue.
📈 **Amélioration des performances des modèles** : Amélioration de la précision des modèles de localisation GUI dans les environnements haute résolution grâce à un ajustement fin en plusieurs étapes.

Actualités IA

ScreenSpot-Pro : outil de référence LLM multi-modal conçu pour les environnements haute résolution !

AIbase基地