Apple a récemment lancé Ferret-UI2, sa nouvelle génération de système d'intelligence artificielle. Cet assistant IA multiplateforme a réalisé une percée majeure dans la reconnaissance des éléments d'interface utilisateur, obtenant un score de 89,73 lors des tests, dépassant largement les 77,73 de GPT-4V, démontrant ainsi des performances exceptionnelles.
La principale caractéristique de ce système réside dans sa capacité à comprendre intelligemment les intentions de l'utilisateur. Contrairement aux méthodes traditionnelles basées sur des clics de coordonnées, Ferret-UI2 peut, grâce à des instructions en langage naturel, localiser et exécuter automatiquement les opérations correspondantes. L'équipe de recherche a utilisé les capacités visuelles de GPT-4V pour générer des données d'entraînement, permettant au système de mieux comprendre les relations spatiales entre les éléments de l'interface.
Sur le plan de l'architecture technique, Ferret-UI2 adopte une conception adaptative, permettant une reconnaissance précise des éléments d'interface utilisateur sur plusieurs plateformes : iPhone, iPad, appareils Android, navigateurs web et Apple TV. Le système est également équipé d'algorithmes intelligents qui adaptent automatiquement la résolution des images et les besoins de traitement en fonction des différentes plateformes, garantissant ainsi l'efficacité des calculs locaux tout en préservant l'intégrité des informations.
Les données de test réelles montrent que le système offre d'excellentes performances sur toutes les plateformes : fonctionnement fluide sur iPhone, précision de 68 % sur iPad et taux de réussite de 71 % sur les appareils Android. Cependant, des défis subsistent dans les scénarios multi-appareils, notamment lors de la commutation entre un appareil mobile et une télévision ou une interface web, principalement en raison des différences de disposition de l'interface entre les plateformes.
Il est important de noter que la concurrence dans le domaine de l'IA d'interaction utilisateur est de plus en plus intense. Anthropic a récemment amélioré les capacités d'interaction utilisateur de Claude3.5 Sonnet, tandis que Microsoft a mis en open source l'outil OmniParser, visant à convertir le contenu de l'écran en données structurées.
Apple a également lancé le framework CAMPHOR, qui, grâce à la collaboration d'un agent IA spécialisé et d'un agent de raisonnement principal, améliore encore la capacité du système à gérer des tâches complexes. Cela signifie qu'à l'avenir, des assistants vocaux comme Siri pourront accomplir plus intelligemment des tâches complexes, telles que les réservations de restaurants, sans intervention manuelle de l'utilisateur.
Cette avancée technologique améliore non seulement le niveau d'intelligence des opérations multi-appareils, mais dessine également un tableau clair de l'avenir de l'interaction homme-machine. Avec l'évolution continue de la technologie, une expérience d'interaction homme-machine plus intelligente et plus naturelle est désormais à portée de main.