L'Institut Allen pour l'intelligence artificielle (Ai2) a récemment publié Molmo, une nouvelle famille de modèles d'IA multimodaux open source qui se distingue par ses performances exceptionnelles, surpassant même GPT-4 d'OpenAI, Claude 3.5 Sonnet d'Anthropic et Gemini 1.5 de Google dans plusieurs benchmarks tiers.
Molmo est capable d'analyser des images téléchargées par les utilisateurs et a été entraîné avec « 1000 fois moins de données que ses concurrents », grâce à des techniques d'entraînement uniques.
Cette publication démontre l'engagement d'Ai2 envers la recherche ouverte, en fournissant des modèles hautes performances ainsi que des poids et des données ouverts à une communauté et à des entreprises plus larges. La famille Molmo comprend quatre modèles principaux : Molmo-72B, Molmo-7B-D, Molmo-7B-O et MolmoE-1B. Molmo-72B, le modèle phare avec 72 milliards de paramètres, se démarque particulièrement.
Selon les évaluations, Molmo-72B a obtenu les meilleurs scores dans 11 benchmarks importants et se classe juste derrière GPT-4 en termes de préférence des utilisateurs. Ai2 a également lancé un modèle OLMoE utilisant une approche de « combinaison de petits modèles » pour améliorer le rapport coût-efficacité.
L'architecture de Molmo a été soigneusement conçue pour des performances efficaces et exceptionnelles. Tous les modèles utilisent le modèle CLIP ViT-L/14336px d'OpenAI comme encodeur visuel, transformant les images multi-échelles en jetons visuels. Le modèle linguistique est un transformateur décodeur avec différentes capacités et ouvertures.
En termes d'entraînement, Molmo a suivi un processus en deux étapes : un pré-entraînement multimodal suivi d'un réglage fin supervisé. Contrairement à de nombreux modèles modernes, Molmo ne s'appuie pas sur l'apprentissage par renforcement avec rétroaction humaine, mais sur un processus d'entraînement finement ajusté pour mettre à jour les paramètres du modèle.
Molmo excelle dans plusieurs benchmarks, notamment dans des tâches complexes comme la lecture de documents et le raisonnement visuel, démontrant ainsi ses capacités puissantes. Ai2 a déjà publié ces modèles et ensembles de données sur Hugging Face, et prévoit de publier davantage de modèles et de rapports techniques étendus au cours des prochains mois afin de fournir plus de ressources aux chercheurs.
Pour découvrir les fonctionnalités de Molmo, une démo publique est disponible sur le site officiel de Molmo (https://molmo.allenai.org/).
Points clés :
🌟 Le modèle d'IA multimodal open source Ai2 Molmo surpasse les produits phares du secteur.
📊 Molmo-72B offre des performances exceptionnelles dans plusieurs benchmarks, juste derrière GPT-4.
🔍 Forte ouverture : modèles et ensembles de données disponibles pour les chercheurs et une utilisation libre.