OmniParser
Analyseur d'interface utilisateur graphique basé sur la vision par ordinateur
Produit OrdinaireProductivitéModèle linguistique visuelAnalyse d'interface utilisateur
OmniParser est une méthode de parsing d'images d'interfaces utilisateur développée par l'équipe de recherche Microsoft. En identifiant les icônes interactives et en comprenant la sémantique des différents éléments d'une capture d'écran, il améliore considérablement la capacité des modèles linguistiques basés sur la vision (comme GPT-4V) à générer des instructions d'interaction précises. Grâce à des modèles de détection et de description finement ajustés, cette technologie analyse les zones interactives des captures d'écran et extrait la sémantique fonctionnelle, surpassant ainsi les modèles de référence sur plusieurs tests de référence. OmniParser, sous forme d'extension, peut être utilisé avec d'autres modèles linguistiques visuels pour améliorer leurs performances.
OmniParser Dernière situation du trafic
Nombre total de visites mensuelles
934048
Taux de rebond
53.20%
Nombre moyen de pages par visite
2.7
Durée moyenne de la visite
00:02:01