Récemment, l'Allen Institute for Artificial Intelligence (AI2) a lancé son dernier grand modèle linguistique : OLMo232B. Ce modèle a fait son apparition avec un certain prestige, car il s'agit non seulement de la dernière création de la série OLMo2, mais il défie également les modèles propriétaires fermés en adoptant une approche « entièrement ouverte ».
La caractéristique la plus remarquable d'OLMo232B est son caractère open source complet. AI2 a généreusement rendu publiques toutes les données, le code, les poids et le processus d'entraînement détaillé du modèle. Cette transparence contraste fortement avec les modèles propriétaires fermés et secrets.
AI2 espère que cette approche de collaboration ouverte favorisera une recherche et une innovation plus larges, permettant aux chercheurs du monde entier de s'appuyer sur les travaux d'OLMo232B. Après tout, à l'ère du partage des connaissances, la confidentialité n'est pas une stratégie viable à long terme.
32 milliards de paramètres : une puissance comparable, voire supérieure, à GPT-3.5 Turbo
Bien sûr, l'ouverture d'esprit ne suffit pas ; la performance est essentielle. OLMo232B possède 32 milliards de paramètres, un chiffre considérable qui témoigne d'une amélioration significative de l'échelle par rapport à ses prédécesseurs.
Plus enthousiasmant encore, lors de nombreux tests de référence académiques largement reconnus, ce modèle open source a surpassé GPT-3.5 Turbo et GPT-4 mini ! Cela injecte une dose d'optimisme dans la communauté open source de l'IA, démontrant que seules les grandes entreprises ne sont pas capables de créer des modèles d'IA de pointe. Il semble que le travail acharné et une formation astucieuse peuvent permettre à de plus petits acteurs d'obtenir des résultats exceptionnels.
Les performances exceptionnelles d'OLMo232B sont étroitement liées à son processus d'entraînement précis. Ce processus se divise en deux phases principales : le pré-entraînement et l'entraînement intermédiaire. Durant la phase de pré-entraînement, le modèle a « digéré » un vaste ensemble de données d'environ 3,9 billions de jetons, provenant de sources diverses, notamment DCLM, Dolma, Starcoder et Proof Pile II. C'est comme si le modèle avait lu une vaste bibliothèque, apprenant ainsi de nombreux schémas linguistiques.
L'entraînement intermédiaire s'est concentré sur l'ensemble de données Dolmino, un ensemble de données de haute qualité contenant 843 milliards de jetons, couvrant des sujets éducatifs, mathématiques et académiques, améliorant ainsi les capacités de compréhension du modèle dans des domaines spécifiques. Cette approche d'entraînement par étapes et ciblée garantit qu'OLMo232B possède des bases linguistiques solides et nuancées.
Un « modèle économe » : des performances supérieures avec moins de puissance de calcul
Outre ses performances exceptionnelles, OLMo232B a démontré une capacité impressionnante en termes d'efficacité de l'entraînement. Il est indiqué qu'il a atteint un niveau de performance comparable aux modèles open source de pointe tout en n'utilisant qu'environ un tiers des ressources de calcul, contrairement à des modèles comme Qwen2.532B qui nécessitent une puissance de calcul plus importante.
C'est comme un artisan hautement efficace qui réalise une œuvre aussi bonne, voire meilleure, avec moins d'outils et de temps, ce qui témoigne de l'engagement d'AI2 dans le développement d'une IA économe en ressources. Cela laisse présager l'émergence future de modèles d'IA puissants plus « accessibles », qui ne seront plus l'apanage d'une poignée de géants.
Le lancement d'OLMo232B ne représente pas seulement un nouveau modèle d'IA, mais aussi une étape importante sur la voie d'une IA ouverte et accessible. En fournissant une solution entièrement ouverte et dont les performances égalent, voire surpassent, certains modèles propriétaires, AI2 prouve que la conception minutieuse des modèles et des méthodes d'entraînement efficaces peuvent conduire à des percées considérables. Cette ouverture encouragera les chercheurs et les développeurs du monde entier à participer activement et à contribuer ensemble au progrès du domaine de l'intelligence artificielle, pour le bien de l'humanité.
On peut prévoir qu'OLMo232B apportera un vent de fraîcheur dans le domaine de la recherche sur l'IA. Il a non seulement abaissé le seuil d'entrée de la recherche, favorisant une collaboration plus large, mais il a également montré une voie de développement de l'IA plus dynamique et innovante. Quant aux géants de l'IA qui s'accrochent encore à leurs « recettes secrètes », ils devraient peut-être envisager d'adopter l'ouverture pour conquérir un avenir plus vaste.
github : https://github.com/allenai/OLMo-core
huggingface : https://huggingface.co/allenai/OLMo-2-0325-32B-Instruct