人工知能の激しい競争の中で、100万ドル規模の大規模実験が、大規模言語モデルのトレーニング方法を静かに変えつつあります。階躍星辰研究チームは先日、重要な研究成果を発表しました。彼らは、約100万NVIDIA H800 GPU時間を費やし、ゼロから3,700個もの異なる規模のモデルをトレーニングし、合計で驚異の100兆トークンをトレーニングしました。「Step Law」と呼ばれる普遍的なスケーリング則を明らかにし、大規模言語モデルの高効率トレーニングのための新しい指針を提供しています。

この研究は、単なるハイパーパラメータ最適化の探求ではありません。モデルの最適なハイパーパラメータの安定性を、異なる形状、スパース性、データ分布下で包括的に調査した最初の研究です。研究結果によると、モデルのアーキテクチャ設計や、トレーニングデータの言語や分野に関わらず、「Step Law」は驚くべき堅牢性を示し、実際の応用における価値を大幅に向上させています。

チームがトレーニングした3,700個のモデルは、異なる規模、異なるハイパーパラメータの組み合わせ、異なる形状、異なるデータ比率、異なるスパース性の構成を含み、MoEとDenseの2つのアーキテクチャが含まれています。これらの膨大な実験を通して、彼らは最適な学習率がモデルパラメータの規模とデータの規模にべき乗則に従って変化し、最適なバッチサイズは主にデータの規模に関連していることを発見しました。この発見は、ハイパーパラメータ設定に対する業界の従来の認識を覆すものです。

メタバース SF サイバーパンク 絵画 (1)大規模モデル

画像出典:AI生成画像、画像ライセンス提供元Midjourney

実験データによると、モデルのサイズとデータの規模を固定した場合、ハイパーパラメータ最適化のランドスケープは明確な凸状の特徴を示します。これは、安定していて容易に見つけられる最適なハイパーパラメータ領域が存在することを意味します。これを検証するために、研究チームは3次元可視化空間を構築し、学習率とバッチサイズがトレーニング損失に与える影響を直感的に示しました。「谷」の形がはっきりと示され、凸状の底は比較的平坦な領域であり、実際的なハイパーパラメータ調整のための貴重な理論的根拠となります。

この発見をAIコミュニティ全体に役立てるために、チームは汎用的な最適ハイパーパラメータ推定ツールを開発・公開しました。このツールの予測結果は、網羅的探索によって得られたグローバル最適ハイパーパラメータと比較して、性能差はわずか0.09%です。これは、研究者やエンジニアが、高価なグリッドサーチに頼る必要がなくなり、このツールを使って最適に近いハイパーパラメータ構成を直接得ることができることを意味します。

さらに印象的なのは、「Step Law」の普遍性です。研究チームは3つの異なる角度からその適用範囲を検証しました。まず、モデルの形状がどのように変化しても(幅優先、深さ優先、または幅と深さのバランス)、Step Lawは最適なハイパーパラメータ領域を正確に予測できます。次に、この法則はDenseモデルだけでなく、異なるスパース性のMoEモデルにもうまく拡張できます。最後に、トレーニングデータが英語中心、英語と中国語の両方、コードと英語の混合、またはコード中心の分布であるかに関わらず、「Step Law」は驚くべき安定性を示しました。

研究では、学習率スケジューリング戦略の最適化方向も明らかにされました。従来の学習率減衰戦略とは異なり、チームは最小学習率を固定値(1e-5)にすることを提案しました。これは、従来の方法では最小値を最大値の1/10に設定していました。この変更により、トレーニングの後半でもより合理的なパラメータ更新ステップサイズを維持することができ、損失関数が収束段階で継続的に振動するのを効果的に回避できます。

さらに、平滑化されたトレーニング損失と検証損失の最適なハイパーパラメータは高度に一致することがわかりました。この発見は、ハイパーパラメータの選択により経済的な方法を提供します。研究者は、平滑化されたトレーニング損失を監視することでハイパーパラメータ調整を導き、検証セットでモデルの性能を頻繁に評価する必要がなくなります。

顕著な成果を収めたものの、階躍星辰研究チームは、これはほんの始まりに過ぎないと述べています。彼らは、約4,000個のモデルの最終チェックポイントを含む実験の詳細を順次公開し、コミュニティ全体によるより深い分析と理論的解釈を可能にする予定です。将来の研究方向としては、Loss-BS-LR 3次元空間の凸性の探求、最適ハイパーパラメータのフィッティング方法の改良、異なる構成における最適領域の変化の解明、および異なる設定下でのトレーニングダイナミクスの詳細な研究などがあります。

Predictable Scaleシリーズの今後の研究では、超大規模モデルの性能予測、Code&Mathのスケーリング特性、および異なるAttentionタイプのスケーリング特性についてさらに議論される可能性があります。この一連の研究は、大規模言語モデルの高効率トレーニングのためのより包括的な理論的指針と実践的なツールを提供し、AI技術をより効率的で制御可能な方向に推進すると予想されます。