Dans le monde de l'IA, un nouveau venu remarquable vient de faire son apparition : Cambrian-1, un grand modèle linguistique multi-modal (MLLM) développé par des sommités du secteur comme LeCun et Xie Saining. Ce modèle représente non seulement une avancée technologique majeure, mais aussi une profonde réflexion sur la recherche en apprentissage multi-modal.

La philosophie de conception de Cambrian-1 privilégie la vision, ce qui est particulièrement précieux dans le contexte actuel de la recherche en IA centrée sur le langage. Cela nous rappelle que l'acquisition des connaissances humaines ne se limite pas au langage ; la vision, l'audition, le toucher et d'autres expériences sensorielles sont tout aussi importants. Le code source de Cambrian-1 est mis à disposition, offrant ainsi une ressource précieuse à tous les chercheurs et développeurs intéressés par l'apprentissage multi-modal.

image.png

La construction de ce modèle s'articule autour de cinq éléments clés : l'apprentissage de la représentation visuelle, la conception du connecteur, les données d'ajustement fin des instructions, la stratégie d'ajustement fin des instructions et les tests de référence. Chaque élément représente une exploration approfondie de l'espace de conception des MLLM, reflétant la vision unique de l'équipe de recherche sur les problèmes existants.

Il est important de noter que les performances de Cambrian-1 dans les tâches de langage visuel sont impressionnantes. Il surpasse non seulement les autres modèles open source, mais se situe également au niveau des meilleurs modèles propriétaires du secteur sur certains tests de référence. Ce succès repose sur une réflexion novatrice de l'équipe de recherche sur l'ajustement fin des instructions et la conception du connecteur.

Cependant, le chemin de la recherche de Cambrian-1 n'a pas été sans embûches. Les chercheurs ont constaté que même les MLLM bien entraînés pouvaient présenter des lacunes en matière de capacité de conversation, un phénomène appelé « effet répondeur automatique ». Pour résoudre ce problème, ils ont intégré des invites système à l'entraînement afin d'encourager le modèle à générer des conversations plus riches.

Le succès de Cambrian-1 est dû à la formidable équipe de recherche qui le soutient. Shengbang Tong (童晟邦), premier auteur de l'article, a apporté une contribution essentielle. Il est actuellement doctorant à l'Université de New York, sous la direction des professeurs Yann LeCun et Xie Saining. Ses centres d'intérêt de recherche couvrent plusieurs domaines, notamment les modèles du monde, l'apprentissage non supervisé/auto-supervisé, les modèles génératifs et les modèles multi-modaux.

La publication du code source de Cambrian-1 apporte un vent de fraîcheur à la communauté de l'IA. Il fournit non seulement un outil puissant pour l'apprentissage multi-modal, mais suscite également une réflexion approfondie sur la recherche dans ce domaine. Avec l'arrivée croissante de chercheurs et de développeurs participant à l'exploration de Cambrian-1, nous pouvons raisonnablement penser qu'il deviendra une force motrice importante pour le développement des technologies de l'IA.

Adresse du projet : https://github.com/cambrian-mllm/cambrian

Article : https://arxiv.org/abs/2406.16860