最近、人工知能分野で大きな波紋が広がっています。ムーンショット(Moonshot)社が、新バージョンの最適化器Muonをオープンソースとして公開し、計算効率を従来のAdamWの2倍に向上させることに成功しました。この新しい最適化器の発表は、DeepSeek社が複数のコードライブラリを連続してオープンソース化する時期と重なり、業界で大きな注目と議論を呼んでいます。
Muon最適化器は、OpenAIの研究者Keller Jordan氏らが2024年に発表したもので、小規模モデルのトレーニングにおいて優れた性能を発揮します。しかし、モデル規模が拡大するにつれて、元のMuonは性能向上においてボトルネックに遭遇しました。そこで、ムーンショットチームは、重み減衰と一貫した二乗平均平方根(RMS)更新を追加するなど、技術的な改良を徹底的に行い、大規模トレーニングでもMuonを適用できるようにし、ハイパーパラメータの調整が不要になりました。
新しいMuon最適化器は、最新発表のMoonlightモデル(3B/16Bパラメータを持つ混合専門家(MoE)モデル)に適用され、5.7兆トークンのトレーニングの後、性能が大幅に向上し、現在の「パレートフロンティア」となりました。この成果は、同じトレーニング予算で、Moonlightモデルが他のすべてのモデルをすべての性能指標で上回っていることを意味します。
ムーンショット社は、Muonの実装コードをオープンソースとして公開し、対応する事前トレーニング済みモデルと中間チェックポイントも公開しました。これにより、研究者による今後の研究に貴重なリソースが提供されます。研究によると、Muon最適化器はトレーニング中にAdamWのわずか52%のFLOPsしか必要とせず、大規模言語モデルトレーニングにおける高い効率性をさらに裏付けています。
ムーンショット社のMuon最適化器は、性能面で従来の最適化器を凌駕するだけでなく、オープンソース化によってAI分野全体の進歩に新たな活力を吹き込んでいます。ますます多くの研究者や開発者が参加するにつれて、この最適化器は人工知能技術の更なる進歩を促進すると期待されています。
論文アドレス:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf