スタンフォード大学とワシントン大学の研究チームは最近、画期的なAIトレーニング手法「S1」を発表しました。この手法の核心は、極めてシンプルなテスト時スケーリング技術を用いて、言語モデルの推論能力を大幅に向上させることにあります。従来の大規模な計算能力や複雑なアルゴリズムに依存する手法とは異なり、S1手法はテスト時の計算資源配分を巧みに制御することで、性能の大幅な向上を実現しています。
S1手法ではまず、1000個の高品質な推論問題を含む小型データセット「s1K」が作成されました。このデータセットの選定基準は非常に厳しく、難易度が高い、多様性が高い、質が高い、という3つの条件を同時に満たす必要があります。研究チームは詳細なアブレーション実験を通じて、これらの3つの基準の重要性を検証し、ランダムに選択したり、単一の基準にのみ注目したりすると、性能が大幅に低下することを示しました。特筆すべきは、5万9千個のサンプルを含む超集合を用いてトレーニングした場合でも、厳選された1000個のサンプルよりも効果がはるかに劣っていたことであり、データ選択の重要性が浮き彫りになりました。
モデルのトレーニングが完了した後、研究者たちは「予算強制」と呼ばれる技術を用いて、テスト時の計算量を制御しました。簡単に言うと、この手法はモデルの思考プロセスを強制的に停止したり、「待機」命令を追加したりすることで、モデルの思考時間を長くし、より深い探求と検証を促すものです。この方法により、モデルは推論ステップを繰り返しチェックし、エラーを効果的に修正できます。
実験結果によると、s1Kデータセットでの微調整と「予算強制」技術の適用により、s1-32Bモデルは、競争レベルの数学問題におけるパフォーマンスがOpenAIのo1-previewモデルを27%も上回りました。「予算強制」によるスケーリングにより、s1-32Bモデルは、自身のトレーニングレベルを超える汎化能力も示し、AIME24テストセットでのスコアは50%から57%に向上しました。
この研究の中心的な貢献は、高推論能力を持つデータセットを作成し、テスト時の性能スケーリングを実現するための、シンプルで効率的な方法を提供したことでしょう。これに基づき、研究チームはs1-32Bモデルを開発しました。このモデルのパフォーマンスは、クローズドソースモデルに匹敵し、あるいはそれを凌駕するものでありながら、オープンソースで、高いサンプル効率を実現しています。この研究のコード、モデル、データはGitHubで公開されています。
研究者たちは、データの微妙な点とテスト時スケーリング技術について、詳細なアブレーション実験も行いました。データに関しては、難易度、多様性、品質を同時に考慮することが極めて重要であることを発見しました。テスト時スケーリングに関しては、「予算強制」手法が優れた制御性と性能向上を示しました。この研究では、並列スケーリングと順次スケーリングという2つの異なる手法も検討され、REBASEなどの高度な技術も導入されており、今後の研究の方向性にとって重要な示唆を与えています。
この研究は、AIトレーニング分野に低コストで高効率な新しいアイデアをもたらすだけでなく、より広範なAIアプリケーションの基盤を築くものです。
論文アドレス:https://arxiv.org/pdf/2501.19393