Kürzlich sorgte die Ankündigung von Moonshot für Aufsehen in der KI-Branche: Der neue, optimierte Open-Source-Optimizer Muon wurde veröffentlicht und erreicht eine zweifach höhere Berechnungsleistung als der traditionelle AdamW-Optimizer. Die Veröffentlichung fällt zeitgleich mit der bevorstehenden Veröffentlichung mehrerer Code-Repositories durch DeepSeek zusammen und hat zu intensiver Diskussion in der Branche geführt.
Der Muon-Optimizer wurde ursprünglich 2024 von OpenAI-Forschern wie Keller Jordan et al. vorgestellt und zeigte sich bei kleineren Modellen als besonders leistungsstark. Mit wachsender Modellgröße stieß der ursprüngliche Muon jedoch an seine Grenzen. Das Team von Moonshot führte daher tiefgreifende Verbesserungen durch, darunter die Hinzufügung von Weight Decay und konsistenten RMS-Updates (Root Mean Square), um Muon auch für groß angelegte Trainingsprozesse zu ermöglichen, ohne dass eine Anpassung der Hyperparameter erforderlich ist.
Der neue Muon-Optimizer wurde bereits im kürzlich veröffentlichten Moonlight-Modell eingesetzt, einem MoE-Modell (Mixture of Experts) mit 3B/16B Parametern. Nach dem Training mit 5,7 Billionen Tokens zeigte sich eine deutliche Leistungssteigerung, die das Modell an die aktuelle Pareto-Grenze bringt. Dies bedeutet, dass Moonlight bei gleichem Trainingsbudget alle anderen Modelle in allen Leistungsmetriken übertrifft.
Moonshot hat den Quellcode von Muon, sowie vorab trainierte Modelle und Zwischen-Checkpoints veröffentlicht, wodurch wertvolle Ressourcen für die weitere Forschung bereitgestellt werden. Studien zeigen, dass Muon im Trainingsprozess nur 52% der FLOPs (Floating-Point Operations) von AdamW benötigt, was seine Effizienz bei der Ausbildung großer Sprachmodelle weiter unterstreicht.
Der Muon-Optimizer von Moonshot übertrifft nicht nur traditionelle Optimierer in Bezug auf die Leistung, sondern belebt durch seine Open-Source-Veröffentlichung die gesamte KI-Landschaft. Durch die zunehmende Beteiligung von Forschern und Entwicklern dürfte dieser Optimizer die Weiterentwicklung der KI-Technologie entscheidend vorantreiben.
Paper-Adresse: https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf