Em 15 de janeiro de 2025, a MiniMax anunciou o lançamento em código aberto de sua nova série de modelos, MiniMax-01. Esta série inclui o modelo de linguagem básico MiniMax-Text-01 e o modelo multimodal de visão MiniMax-VL-01. A série MiniMax-01 apresenta inovações ousadas em sua arquitetura, implementando em larga escala o mecanismo de atenção linear pela primeira vez, superando as limitações da arquitetura Transformer tradicional. Com um número impressionante de 456 bilhões de parâmetros e uma ativação única de 45,9 bilhões, seu desempenho geral é comparável aos modelos de ponta internacionais, processando eficientemente contextos de até 4 milhões de tokens – 32 vezes mais que o GPT-4o e 20 vezes mais que o Claude-3.5-Sonnet.

A MiniMax acredita que 2025 será um ano crucial para o rápido desenvolvimento de agentes. Sistemas de agente único ou múltiplos agentes exigem contextos mais longos para suportar memória contínua e comunicação extensa. O lançamento da série de modelos MiniMax-01 visa atender a essa necessidade, dando o primeiro passo para construir capacidades básicas para agentes complexos.

微信截图_20250115091926.png

Graças à inovação arquitetônica, otimização de eficiência e design integrado de treinamento e inferência em cluster, a MiniMax consegue oferecer serviços de API de compreensão de texto e multimodal com o menor preço do setor. O preço padrão é de R$ 1,00 por milhão de tokens de entrada e R$ 8,00 por milhão de tokens de saída. A plataforma aberta MiniMax e sua versão internacional já estão disponíveis para os desenvolvedores experimentarem.

A série de modelos MiniMax-01 já foi lançada em código aberto no GitHub e continuará sendo atualizada. Nos principais testes de avaliação de compreensão de texto e multimodal do setor, a série MiniMax-01 alcançou resultados comparáveis aos modelos avançados internacionalmente reconhecidos GPT-4o-1120 e Claude-3.5-Sonnet-1022 na maioria das tarefas. Em particular, em tarefas com textos longos, em comparação com o modelo Gemini do Google, o MiniMax-Text-01 apresentou a menor degradação de desempenho com o aumento do comprimento da entrada, superando significativamente o Gemini.

Os modelos MiniMax são extremamente eficientes no processamento de entradas longas, aproximando-se da complexidade linear. Em seu design de estrutura, 7 de cada 8 camadas utilizam atenção linear baseada em Lightning Attention, enquanto 1 camada utiliza atenção SoftMax tradicional. Esta é a primeira vez na indústria que o mecanismo de atenção linear é expandido para modelos de nível comercial. A MiniMax levou em consideração fatores como Scaling Law, combinação com MoE, design de estrutura, otimização de treinamento e otimização de inferência, e reconstruiu os sistemas de treinamento e inferência, incluindo otimização de comunicação MoE All-to-all mais eficiente, otimização de sequências mais longas e implementação de kernel eficiente de atenção linear no nível de inferência.

Na maioria dos conjuntos de dados acadêmicos, a série MiniMax-01 obteve resultados comparáveis aos melhores modelos internacionais. Nos conjuntos de testes de contexto longo, apresentou resultados significativamente superiores, como na tarefa de recuperação Needle-In-A-Haystack com 4 milhões de tokens. Além dos conjuntos de dados acadêmicos, a MiniMax também construiu um conjunto de testes de cenários de assistente baseado em dados reais, onde o MiniMax-Text-01 se destacou. Nos conjuntos de testes de compreensão multimodal, o MiniMax-VL-01 também apresentou resultados bastante avançados.

Endereço do código aberto: https://github.com/MiniMax-AI