Teuken-7B, un modèle linguistique doté de 7 milliards de paramètres, est désormais disponible sur Hugging Face et prend en charge les 24 langues officielles de l'Union européenne. Développé par le projet de recherche européen OpenGPT-X, ce modèle est disponible en open source. Contrairement à la plupart des modèles linguistiques d'IA centrés sur l'anglais, Teuken-7B a été construit de zéro, environ la moitié de ses données d'entraînement provenant de langues européennes non anglaises.

Cerveau Grand Modèle

Source : Image générée par IA, fournie par Midjourney.

L'équipe de développement affirme que Teuken-7B offre d'excellentes performances dans toutes les langues sur lesquelles il a été entraîné, et sa fiabilité est particulièrement impressionnante pour les langues autres que l'anglais. Pour évaluer les performances des modèles linguistiques dans les langues européennes, l'équipe du projet a également créé un nouveau classement européen des LLM, dépassant les méthodes de test standard antérieures principalement basées sur l'anglais.

Cette publication marque une avancée majeure de l'Europe dans le développement de modèles d'intelligence artificielle multilingues. Elle fournit également aux développeurs un outil puissant et polyvalent pour soutenir les applications et les recherches interlinguistiques.