L'outil d'analyse de contenu d'écran OmniParser, récemment lancé par Microsoft, a grimpé cette semaine en tête du classement des modèles les plus populaires sur la plateforme open source de technologie artificielle Hugging Face. Selon Clem Delangue, co-fondateur et PDG de Hugging Face, il s'agit du premier outil d'analyse à recevoir cet honneur dans ce domaine.
OmniParser est principalement utilisé pour convertir les captures d'écran en données structurées, aidant ainsi les autres systèmes à mieux comprendre et traiter les interfaces graphiques. L'outil utilise une approche multi-modèles : YOLOv8 détecte la position des éléments interactifs, BLIP-2 analyse leur fonction, et un module de reconnaissance optique de caractères extrait les informations textuelles, permettant ainsi une analyse complète de l'interface.
Cet outil open source est largement compatible et prend en charge de nombreux modèles visuels populaires. Ahmed Awadallah, responsable de la recherche chez les partenaires Microsoft, souligne que la collaboration ouverte est essentielle pour le progrès technologique, et OmniParser en est un parfait exemple.
Actuellement, les géants de la technologie investissent massivement dans le domaine de l'interaction avec les écrans. Anthropic a publié une solution propriétaire appelée "Computer Use", tandis qu'Apple a lancé Ferret-UI pour les interfaces mobiles. OmniParser, quant à lui, se distingue par sa polyvalence multiplateforme.
Cependant, OmniParser fait face à certains défis techniques, tels que la reconnaissance d'icônes en double et la localisation précise dans les cas de superposition de texte. Mais la communauté open source estime que ces problèmes devraient être résolus grâce à la contribution d'un plus grand nombre de développeurs.
Le succès rapide d'OmniParser témoigne du besoin urgent des développeurs pour un outil d'interaction avec les écrans polyvalent et laisse présager un développement rapide de ce secteur.
Adresse : https://microsoft.github.io/OmniParser/