人工知能分野では、大型言語モデル(LLMs)のトレーニングが技術進歩を推進する重要な方向性となっています。しかし、モデルの規模とデータセットの拡大に伴い、従来の最適化手法—特にAdamW—がその限界を次第に露呈しています。研究者たちは計算コストの高さやトレーニングの不安定さなど、一連の課題に直面しています。これには、勾配の消失や爆発、パラメータ行列の更新不整合、分散環境下でのリソース要求の高さなどがあります。したがって、これらの複雑性に対処するために、より効率的で安定した最適化技術の必要性が高まっています。