Récemment, l'Allen Institute for AI (AI2) a publié un nouveau modèle open source, OLMoE, conçu pour répondre à la demande croissante de grands modèles de langage (LLM). Ce modèle offre non seulement des performances exceptionnelles, mais aussi un coût relativement faible.
OLMoE utilise une architecture d'expert mélangé (MoE) clairsemée, avec 7 milliards de paramètres, mais n'utilise qu'un milliard de paramètres pour chaque jeton d'entrée. Il existe deux versions : OLMoE-1B-7B, plus généraliste, et OLMoE-1B-7B-Instruct, optimisé par instructions.
Contrairement à la plupart des modèles d'expert mélangé propriétaires, AI2 souligne le caractère entièrement open source d'OLMoE. Dans leur article, ils mentionnent que « la plupart des modèles MoE sont propriétaires : même si certains poids de modèles sont rendus publics, les informations sur les données d'entraînement, le code ou la recette sont extrêmement limitées. » Cela rendait l'accès à ces modèles difficile pour de nombreux chercheurs.
Nathan Lambert, chercheur scientifique chez AI2, a déclaré sur les réseaux sociaux qu'OLMoE contribuerait à l'élaboration des politiques, pouvant servir de point de départ pour la mise en ligne de clusters H100 dans le monde académique. Il a également ajouté que la publication du modèle OLMoE s'inscrivait dans le cadre de l'engagement d'AI2 à développer des modèles open source dont les performances rivalisent avec celles des modèles propriétaires.
Pour la construction du modèle, AI2 a opté pour 64 petits experts avec un routage fin, n'activant que huit d'entre eux lors de l'exécution. Les expériences ont montré qu'OLMoE offre des performances comparables à celles d'autres modèles, mais avec une réduction significative du coût d'inférence et de la mémoire. OLMoE s'appuie également sur le modèle open source précédent d'AI2, OLMO1.7-7B, et prend en charge une fenêtre contextuelle de 4096 jetons. Les données d'entraînement d'OLMoE proviennent de plusieurs sources, notamment Common Crawl, Dolma CC et Wikipédia.
Lors des tests de référence, OLMoE-1B-7B surpasse de nombreux modèles existants ayant un nombre de paramètres similaire, et dépasse même des modèles plus grands, tels que Llama2-13B-Chat et DeepSeekMoE-16B.
L'un des objectifs d'AI2 est de fournir aux chercheurs davantage de modèles d'IA entièrement open source, y compris les architectures d'expert mélangé. Bien que de nombreux développeurs utilisent l'architecture MoE, AI2 estime que la plupart des autres modèles d'IA sont encore loin d'être suffisamment ouverts.
huggingface : https://huggingface.co/collections/allenai/olmoe-66cf678c047657a30c8cd3da
Article : https://arxiv.org/abs/2409.02060
Points clés :
- 🌟 Le nouveau modèle open source OLMoE d'AI2 offre un excellent rapport performances/coût.
- 📊 OLMoE utilise une architecture d'expert mélangé clairsemée, réduisant efficacement le coût d'inférence et les besoins en mémoire.
- 🔍 AI2 s'engage à fournir des modèles d'IA entièrement open source pour favoriser la recherche et le développement académiques.