MiniMax-Text-01 es un gran modelo de lenguaje desarrollado por MiniMaxAI, con 456 billones de parámetros, donde cada token activa 45,9 billones de parámetros. Emplea una arquitectura híbrida que combina atención relámpago, atención softmax y mezcla de expertos (MoE). Mediante estrategias de paralelismo avanzadas y métodos innovadores de superposición computación-comunicación, como el paralelismo de secuencias de atención lineal plus (LASP+), la atención cíclica de longitud variable y el paralelismo de tensores de expertos (ETP), extiende la longitud del contexto de entrenamiento a 1 millón de tokens y puede procesar contextos de hasta 4 millones de tokens durante la inferencia. En múltiples pruebas de referencia académicas, MiniMax-Text-01 ha demostrado un rendimiento de nivel superior.