Téléphones, tablettes, ordinateurs, télévisions : les écrans se multiplient, les interfaces deviennent de plus en plus complexes, vous laissant peut-être perplexe ? Apple vient de sortir un atout majeur : Ferret-UI2, un modèle de compréhension d’interface utilisateur extrêmement puissant, qui ambitionne d’unifier le monde numérique !
Ce n’est pas une simple déclaration : Ferret-UI2 vise à devenir un véritable couteau suisse, capable de comprendre les interfaces utilisateur sur toutes sortes de plateformes. Que ce soit sur iPhone, Android, iPad, sur le web ou sur Apple TV, il les maîtrise toutes avec aisance.
L’un des points forts de Ferret-UI2 est sa prise en charge multiplateforme. Contrairement à Ferret-UI, limité aux plateformes mobiles, Ferret-UI2 est capable de comprendre les interfaces utilisateur provenant de tablettes, de sites web et de télévisions intelligentes. Cette compatibilité multiplateforme lui permet de s’adapter à l’écosystème d’appareils diversifié d’aujourd’hui, offrant ainsi aux utilisateurs un champ d’application plus large.
Pour améliorer sa capacité de perception de l’interface utilisateur, Ferret-UI2 intègre une technique d’encodage d’images dynamiques à haute résolution et utilise une méthode améliorée appelée « grille adaptative ». Grâce à cette méthode, Ferret-UI2 conserve ses capacités perceptives à la résolution d’origine des captures d’écran de l’interface utilisateur, ce qui lui permet d’identifier plus précisément les éléments visuels et leurs relations.
De plus, Ferret-UI2 utilise des données d’entraînement de haute qualité pour apprendre des tâches de base et avancées. Pour les tâches de base, Ferret-UI2 convertit les données de référence et de localisation simples en un format conversationnel, permettant au modèle d’établir une compréhension fondamentale de diverses interfaces utilisateur. Pour les tâches plus avancées axées sur l’expérience utilisateur, Ferret-UI2 utilise la technique de **« prompts visuels d’ensembles de marqueurs basés sur GPT-4o »** pour générer des données d’entraînement, et remplace les simples instructions de clic des méthodes précédentes par une interaction utilisateur monocouche centrée sur l’utilisateur.
Pour évaluer les performances de Ferret-UI2, les chercheurs ont créé 45 tests de référence couvrant cinq plateformes, comprenant 6 tâches de base et 3 tâches avancées pour chaque plateforme. Ils ont également utilisé des tests de référence publics tels que GUIDE et GUI-World. Les résultats montrent que Ferret-UI2 surpasse Ferret-UI sur tous les tests de référence, avec des progrès significatifs en particulier sur les tâches avancées, démontrant ainsi sa polyvalence dans le traitement des tâches de compréhension d’interfaces utilisateur multiplateformes.
Des études d’ablation montrent en outre que les améliorations de l’architecture et des données de Ferret-UI2 ont toutes deux contribué à l’amélioration des performances, l’impact du nouvel ensemble de données étant plus important pour les tâches plus difficiles. De plus, Ferret-UI2 affiche d’excellentes performances en matière d’apprentissage par transfert multiplateforme, notamment une bonne capacité de généralisation entre les plateformes iPhone, iPad et Android.
Adresse du modèle : https://huggingface.co/jadechoghari/Ferret-UI-Llama8b
Adresse de l’article : https://arxiv.org/pdf/2410.18967