MiniMax anunció el 15 de enero de 2025 el lanzamiento de código abierto de su nueva serie de modelos, MiniMax-01, que incluye el modelo lingüístico básico MiniMax-Text-01 y el modelo multimodal de visión MiniMax-VL-01. La serie MiniMax-01 presenta una innovación arquitectónica audaz, implementando a gran escala el mecanismo de atención lineal por primera vez, superando las limitaciones de la arquitectura Transformer tradicional. Con una cantidad de parámetros de hasta 4560 mil millones y una activación única de 45.9 mil millones, su rendimiento general es comparable al de los modelos líderes internacionales, y puede procesar eficientemente contextos de hasta 4 millones de tokens, 32 veces más que GPT-4o y 20 veces más que Claude-3.5-Sonnet.
MiniMax considera que 2025 será un año clave para el rápido desarrollo de los agentes. Tanto los sistemas de agentes individuales como los sistemas multiagentes necesitan contextos más largos para admitir la memoria continua y una gran cantidad de comunicación. El lanzamiento de la serie de modelos MiniMax-01 pretende satisfacer esta necesidad, dando el primer paso para establecer las capacidades básicas de los agentes complejos.
Gracias a la innovación arquitectónica, la optimización de la eficiencia y el diseño integrado de entrenamiento e inferencia en clúster, MiniMax puede ofrecer servicios de API de comprensión de texto y multimodal a un precio mínimo en la industria, con un precio estándar de 1 yuan/millón de tokens para tokens de entrada y 8 yuan/millón de tokens para tokens de salida. La plataforma abierta de MiniMax y su versión internacional ya están disponibles para que los desarrolladores las prueben.
La serie de modelos MiniMax-01 ya se ha lanzado en código abierto en GitHub y se actualizará continuamente. En las evaluaciones de comprensión de texto y multimodal más importantes del sector, la serie MiniMax-01 ha igualado a los modelos avanzados internacionalmente reconocidos GPT-4o-1120 y Claude-3.5-Sonnet-1022 en la mayoría de las tareas. En particular, en tareas con textos largos, MiniMax-Text-01 muestra la menor disminución de rendimiento con el aumento de la longitud de entrada en comparación con el modelo Gemini de Google, superándolo significativamente.
Los modelos de MiniMax son extremadamente eficientes en el procesamiento de entradas largas, con una complejidad cercana a la lineal. En su diseño de estructura, 7 de cada 8 capas utilizan atención lineal basada en Lightning Attention, y 1 capa utiliza atención SoftMax tradicional. Esta es la primera vez en la industria que se amplía el mecanismo de atención lineal a modelos comerciales. MiniMax ha considerado de forma integral la ley de escalamiento, la combinación con MoE, el diseño de la estructura, la optimización del entrenamiento y la optimización de la inferencia, y ha reconstruido el sistema de entrenamiento e inferencia, incluyendo una optimización más eficiente de la comunicación MoE All-to-all, una optimización de secuencias más largas y una implementación eficiente del kernel de atención lineal a nivel de inferencia.
En la mayoría de los conjuntos de datos académicos, la serie MiniMax-01 ha obtenido resultados comparables a los de los modelos líderes internacionales. En los conjuntos de evaluación de contextos largos, incluso muestra una ventaja significativa, como en la tarea de recuperación Needle-In-A-Haystack de 4 millones de tokens. Además de los conjuntos de datos académicos, MiniMax también ha creado un conjunto de pruebas de escenarios de asistente basado en datos reales, en el que MiniMax-Text-01 destaca. En los conjuntos de pruebas de comprensión multimodal, MiniMax-VL-01 también muestra un rendimiento superior.
Dirección de código abierto: https://github.com/MiniMax-AI