MiniMax a annoncé le 15 janvier 2025 la publication en open source de sa nouvelle série de modèles, MiniMax-01. Cette série comprend le grand modèle linguistique de base MiniMax-Text-01 et le grand modèle multi-modal visuel MiniMax-VL-01. La série MiniMax-01 présente des innovations architecturales audacieuses, implémentant pour la première fois à grande échelle un mécanisme d'attention linéaire, ce qui permet de dépasser les limites de l'architecture Transformer traditionnelle. Avec un nombre de paramètres atteignant 456 milliards et une activation unique de 45,9 milliards, ses performances globales sont comparables à celles des meilleurs modèles étrangers, et il peut traiter efficacement des contextes allant jusqu'à 4 millions de jetons, soit 32 fois la longueur de GPT-4o et 20 fois celle de Claude-3.5-Sonnet.

MiniMax estime que 2025 sera une année clé pour le développement rapide des agents. Que ce soit pour les systèmes mono-agents ou multi-agents, des contextes plus longs sont nécessaires pour soutenir la mémoire persistante et une communication abondante. Le lancement de la série de modèles MiniMax-01 répond à ce besoin et constitue une première étape vers l'établissement des capacités de base des agents complexes.

微信截图_20250115091926.png

Grâce à l'innovation architecturale, à l'optimisation de l'efficacité et à la conception intégrée de l'entraînement et de l'inférence en cluster, MiniMax peut fournir des services API de compréhension textuelle et multimodale à des prix parmi les plus bas du secteur. La tarification standard est de 1 yuan/million de jetons en entrée et de 8 yuans/million de jetons en sortie. La plateforme ouverte MiniMax et sa version internationale sont en ligne et disponibles pour les développeurs.

La série de modèles MiniMax-01 est disponible en open source sur GitHub et sera continuellement mise à jour. Dans les évaluations de compréhension textuelle et multimodale les plus courantes du secteur, la série MiniMax-01 a égalé les modèles de pointe étrangers reconnus GPT-4o-1120 et Claude-3.5-Sonnet-1022 pour la plupart des tâches. Notamment, pour les tâches sur de longs textes, MiniMax-Text-01 présente la plus faible dégradation des performances avec l'augmentation de la longueur d'entrée, surpassant ainsi de manière significative Gemini de Google.

Les modèles MiniMax sont extrêmement efficaces pour traiter les longues entrées, avec une complexité proche de la linéarité. Dans leur conception structurelle, 7 couches sur 8 utilisent l'attention linéaire basée sur Lightning Attention, tandis qu'une couche utilise l'attention SoftMax traditionnelle. Il s'agit de la première fois dans le secteur que le mécanisme d'attention linéaire est étendu à un modèle commercial. MiniMax a pris en compte de manière globale la loi d'échelle, l'intégration avec MoE, la conception structurelle, l'optimisation de l'entraînement et l'optimisation de l'inférence, et a reconstruit les systèmes d'entraînement et d'inférence, notamment une optimisation plus efficace de la communication MoE All-to-all, une optimisation des séquences plus longues et une implémentation efficace du noyau d'attention linéaire au niveau de l'inférence.

Sur la plupart des ensembles de données académiques, la série MiniMax-01 a obtenu des résultats comparables à ceux des meilleurs modèles étrangers. Elle est même nettement en avance sur les ensembles de données d'évaluation de longs contextes, comme dans la tâche de recherche Needle-In-A-Haystack avec 4 millions de jetons. Au-delà des ensembles de données académiques, MiniMax a également construit un ensemble de tests de scénarios d'assistance basés sur des données réelles, où MiniMax-Text-01 s'est particulièrement distingué. Dans les ensembles de tests de compréhension multimodale, MiniMax-VL-01 est également en tête.

Adresse open source : https://github.com/MiniMax-AI