MiniMax-Text-01 est un grand modèle linguistique développé par MiniMaxAI, possédant 456 milliards de paramètres, dont 45,9 milliards sont activés par jeton. Il utilise une architecture hybride combinant l'attention éclair, l'attention softmax et la Mixture of Experts (MoE). Grâce à des stratégies de parallélisation avancées et des méthodes innovantes de chevauchement calcul-communication, telles que LASP+ (Linear Attention Sequence Parallelism+), l'attention cyclique à longueur variable et l'ETP (Expert Tensor Parallelism), la longueur du contexte d'entraînement a été étendue à 1 million de jetons, et le modèle peut traiter un contexte allant jusqu'à 4 millions de jetons lors de l'inférence. MiniMax-Text-01 a démontré des performances de pointe sur plusieurs benchmarks académiques.