Im Bereich der künstlichen Intelligenz ist das Training großer Sprachmodelle (LLMs) zu einem wichtigen Ansatzpunkt für den technologischen Fortschritt geworden. Mit zunehmender Modellgröße und steigenden Datenmengen zeigen herkömmliche Optimierungsmethoden – insbesondere AdamW – jedoch zunehmend ihre Grenzen. Forscher stehen vor Herausforderungen wie hohen Rechenkosten, Instabilitäten während des Trainings, darunter Gradienten-Vanishing/Exploding, inkonsistente Aktualisierungen der Parametermatrizen und hohen Ressourcenanforderungen in verteilten Umgebungen. Daher besteht ein dringender Bedarf an effizienteren und stabileren Optimierungstechniken, um diese Komplexität zu bewältigen.
Um diese Herausforderungen zu lösen, haben Moonshot AI (月之暗面) und die University of California, Los Angeles (UCLA), Moonlight entwickelt, ein Mixture-of-Expert (MoE)-Modell, das den Muon-Optimierer verwendet. Moonlight bietet zwei Konfigurationen: eine mit 3 Milliarden aktivierten Parametern und eine mit insgesamt 16 Milliarden Parametern. Das Training erfolgte mit 5,7 Billionen Tokens. Die Innovation des Muon-Optimierers liegt in der Verwendung des Newton-Schulz-Iterationsverfahrens zur Matrixorthogonalisierung, um eine gleichmäßige Gradientenaktualisierung im Parameterraum des Modells zu gewährleisten. Diese Verbesserung bietet eine vielversprechende Alternative zu herkömmlichem AdamW und steigert die Trainingseffizienz und -stabilität.
Im Detail wurden am Muon-Optimierer zwei wichtige Anpassungen vorgenommen. Erstens wurde eine Gewichtszerfalls-Technik eingeführt, um das Wachstum der Gewichte während des Trainings großer Modelle mit umfangreichen Daten zu kontrollieren. Zweitens wurde die Aktualisierungsstärke für jeden Parameter kalibriert, indem sie anhand der Quadratwurzel der maximalen Dimension der Gewichtsmatrix skaliert wird, um eine konsistente Aktualisierung zu erreichen.
Durch empirische Evaluierungen von Moonlight stellten die Forscher fest, dass es an Zwischen-Checkpoints herkömmliche AdamW-Trainingsmodelle übertrifft. Beispielsweise erzielte Moonlight im Sprachverständnis höhere Punktzahlen im MMLU-Benchmark. Im Bereich der Codegenerierung war die Leistungssteigerung noch deutlicher, was die positive Wirkung des Muon-Optimierungsmechanismus auf die Aufgabenleistung zeigt.
Die erfolgreiche Implementierung des Moonlight-Projekts wird neue Standards für das Training großer Sprachmodelle setzen. Die Open-Source-Veröffentlichung des Muon-Optimierers sowie von vortrainierten Modellen und Zwischen-Checkpoints wird voraussichtlich die weitere Forschung zu skalierbaren Optimierungstechniken fördern.
github: https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file
huggingface: https://huggingface.co/moonshotai/Moonlight-16B-A3B
论文: https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Highlights:
🌟 Das Moonlight-Modell wurde von Moonshot AI und UCLA gemeinsam entwickelt und ist ein Mixture-of-Expert-Modell mit Konfigurationen von 3 Milliarden und 16 Milliarden Parametern, trainiert mit 5,7 Billionen Tokens.
⚙️ Der Muon-Optimierer verbessert durch das Newton-Schulz-Iterationsverfahren und die Gewichtszerfalls-Technik die Effizienz und Stabilität des Trainings großer Modelle deutlich.
📈 Empirische Ergebnisse zeigen, dass Moonlight herkömmliche AdamW-Trainingsmodelle in verschiedenen Aufgaben übertrifft und bessere Fähigkeiten im Sprachverständnis und in der Codegenerierung aufweist.