L'équipe IA/ML d'Apple, en collaboration avec l'université de Columbia, a développé un modèle multi-modal de grande envergure, baptisé "Furet" (Ferret), qui a réussi à déjouer les CAPTCHA (tests de Turing) de Google. Ce modèle est capable de reconnaître les feux de circulation et d'améliorer la précision des grands modèles dans les tâches de "voir, dire, répondre".
L'innovation de Furet réside dans son intégration d'une capacité de compréhension spatiale faisant référence et localisant des éléments. Il comprend simultanément la sémantique et les objets, contrairement aux modèles multi-modaux traditionnels. Utilisant une méthode de représentation de zones mixtes, combinant des coordonnées discrètes et des caractéristiques continues, le modèle affiche d'excellents résultats lors des évaluations multi-tâches, notamment pour les tâches de référence et d'ancrage visuel.
Cette percée, réalisée par une équipe chinoise, met en lumière la puissance de la Chine dans la recherche sur les grands modèles multi-modaux et ouvre de nouvelles perspectives pour la compréhension d'images et les tâches multi-modales. Les réussites de Furet devraient permettre des avancées significatives dans les domaines de l'interaction homme-machine et de la recherche intelligente.