MiniMax gab am 15. Januar 2025 die Open-Source-Veröffentlichung seiner neuen Modellreihe MiniMax-01 bekannt. Diese Reihe umfasst das grundlegende Sprachmodell MiniMax-Text-01 und das visuelle multimodale Modell MiniMax-VL-01. Die MiniMax-01-Reihe zeichnet sich durch eine mutige Architekturinnovation aus: Die erstmalig groß angelegte Implementierung eines linearen Aufmerksamkeitsmechanismus, der die Grenzen traditioneller Transformer-Architekturen durchbricht. Es verfügt über 456 Milliarden Parameter und eine Einzelaktivierung von 45,9 Milliarden. Die Gesamtleistung ist mit den führenden ausländischen Modellen vergleichbar und kann effizient Kontexte mit einer Länge von bis zu 4 Millionen Token verarbeiten – das ist das 32-fache von GPT-4o und das 20-fache von Claude-3.5-Sonnet.

MiniMax geht davon aus, dass 2025 ein entscheidendes Jahr für die rasante Entwicklung von Agents sein wird. Sowohl Einzel- als auch Mehr-Agenten-Systeme benötigen längere Kontexte, um ein dauerhaftes Gedächtnis und eine umfangreiche Kommunikation zu unterstützen. Die Einführung der MiniMax-01-Modellreihe dient genau diesem Zweck und ist ein erster Schritt zum Aufbau grundlegender Fähigkeiten für komplexe Agents.

微信截图_20250115091926.png

Dank Architekturinnovationen, Effizienzoptimierungen und einem integrierten Cluster-Trainings- und Inferenzdesign kann MiniMax Text- und Multimodal-Verständnis-API-Dienste zu den niedrigsten Preisen der Branche anbieten. Die Standardpreise betragen 1 Yuan/Million Token für Eingabe-Token und 8 Yuan/Million Token für Ausgabe-Token. Die MiniMax-Open-Source-Plattform und die internationale Version sind bereits online und stehen Entwicklern zur Verfügung.

Die MiniMax-01-Modellreihe ist auf GitHub Open Source und wird kontinuierlich aktualisiert. In den gängigen Benchmarks für Text- und Multimodal-Verständnis erreicht die MiniMax-01-Reihe bei den meisten Aufgaben die Leistung der international anerkannten Top-Modelle GPT-4o-1120 und Claude-3.5-Sonnet-1022. Besonders bei Langtext-Aufgaben weist MiniMax-Text-01 im Vergleich zu Googles Gemini-Modell die geringste Leistungsabnahme mit zunehmender Eingabelänge auf und ist deutlich besser als Gemini.

Die Modelle von MiniMax sind bei der Verarbeitung langer Eingaben äußerst effizient und weisen eine nahezu lineare Komplexität auf. In ihrer Struktur verwenden 7 von 8 Schichten die auf Lightning Attention basierende lineare Aufmerksamkeit, während 1 Schicht die traditionelle SoftMax-Aufmerksamkeit verwendet. Dies ist die erste Implementierung eines linearen Aufmerksamkeitsmechanismus im kommerziellen Maßstab in der Branche. MiniMax hat Scaling Laws, die Kombination mit MoE, die Architektur, die Trainingsoptimierung und die Inferenzoptimierung umfassend berücksichtigt und das Trainings- und Inferenzsystem neu gestaltet, einschließlich effizienterer MoE All-to-All-Kommunikationsoptimierung, Optimierung für längere Sequenzen und effizienter Kernel-Implementierung der linearen Aufmerksamkeit auf Inferenzebene.

In den meisten akademischen Datensätzen erzielt die MiniMax-01-Reihe Ergebnisse, die mit den führenden internationalen Modellen vergleichbar sind. Bei Benchmarks mit langen Kontexten ist sie deutlich überlegen, z. B. bei der Needle-In-A-Haystack-Suchaufgabe mit 4 Millionen Token. Neben akademischen Datensätzen hat MiniMax auch einen auf realen Daten basierenden Testsatz für Assistentenszenarien erstellt, in dem MiniMax-Text-01 hervorragende Leistungen zeigt. Im Multimodal-Verständnistestsatz liegt MiniMax-VL-01 ebenfalls führend.

Open-Source-Adresse: https://github.com/MiniMax-AI