L'équipe IA/ML d'Apple et l'université de Columbia réussissent à contourner le CAPTCHA de Google

站长之家

Publié leActualités IA · 2 minutes de lecture · Oct 12, 2023

Le modèle multi-modal "Furet" défie les CAPTCHA de Google

L'équipe IA/ML d'Apple, en collaboration avec l'université de Columbia, a développé un modèle multi-modal de grande envergure, baptisé "Furet" (Ferret), qui a réussi à déjouer les CAPTCHA (tests de Turing) de Google. Ce modèle est capable de reconnaître les feux de circulation et d'améliorer la précision des grands modèles dans les tâches de "voir, dire, répondre".

L'innovation de Furet réside dans son intégration d'une capacité de compréhension spatiale faisant référence et localisant des éléments. Il comprend simultanément la sémantique et les objets, contrairement aux modèles multi-modaux traditionnels. Utilisant une méthode de représentation de zones mixtes, combinant des coordonnées discrètes et des caractéristiques continues, le modèle affiche d'excellents résultats lors des évaluations multi-tâches, notamment pour les tâches de référence et d'ancrage visuel.

Cette percée, réalisée par une équipe chinoise, met en lumière la puissance de la Chine dans la recherche sur les grands modèles multi-modaux et ouvre de nouvelles perspectives pour la compréhension d'images et les tâches multi-modales. Les réussites de Furet devraient permettre des avancées significatives dans les domaines de l'interaction homme-machine et de la recherche intelligente.

Actualités du secteur des grands modèles d'IA : poursuite des avancées technologiques et des collaborations

Dans le contexte du développement rapide de l'intelligence artificielle, la recherche et les applications des grands modèles d'IA sont en plein essor. Récemment, les dernières actualités de plusieurs entreprises et institutions dans ce domaine ont suscité un vif intérêt. Tout d'abord, la valorisation boursière de Nvidia avant le lancement de ChatGPT a attiré l'attention de Wall Street, les experts estimant que ce phénomène pourrait présager une répétition du succès d'Apple en 2008. Parallèlement, Yu Feng, directeur de l'information de Guotai Junan, a déclaré que l'essor des grands modèles d'IA propulserait le secteur de la sécurité vers une ère de « cognition intelligente ».

Abélien Technologie : Intégration de grands modèles d'IA dans les cockpits intelligents pour transformer l'expérience utilisateur automobile

Abélien Technologie révolutionne l'expérience utilisateur automobile en intégrant des grands modèles d'IA dans les cockpits intelligents. Cette intégration permet une interaction plus intuitive et personnalisée avec le véhicule, ouvrant la voie à de nouvelles fonctionnalités et à une conduite plus sûre et plus agréable.

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois

L'équipe du modèle de langage large Doubao de ByteDance a récemment annoncé avoir réussi à surmonter les goulots d'étranglement clés de l'architecture du modèle d'expert mixte (MoE) et a publié en open source une technologie d'optimisation majeure nommée COMET. Cette technologie améliore considérablement l'efficacité de l'entraînement des grands modèles, permettant une augmentation de l'efficacité allant jusqu'à 1,7 fois et réduisant efficacement les coûts de formation de 40 %. Remarque sur l'image : l'image a été générée par l'IA, le fournisseur de services d'autorisation d'image étant Midjourney. COMET a déjà été appliquée à l'entraînement en cluster de plusieurs milliers de cartes chez ByteDance, permettant des économies de plusieurs millions de GP.

Actualités IA

L'équipe IA/ML d'Apple et l'université de Columbia réussissent à contourner le CAPTCHA de Google

站长之家

Recommandations d'actualités IA connexes

Actualités du secteur des grands modèles d'IA : poursuite des avancées technologiques et des collaborations

iFLYTEK rejoint les rangs de la recherche sur les grands modèles grâce à des cartes de calcul nationales

Abélien Technologie : Intégration de grands modèles d'IA dans les cockpits intelligents pour transformer l'expérience utilisateur automobile

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois