人工知能の進歩に伴い、拡散モデルは推論能力において頭角を現し、もはや自己回帰モデルの「追従者」ではありません。最近、カリフォルニア大学ロサンゼルス校(UCLA)とMetaの研究者らが共同で、d1という新しいフレームワークを発表しました。このフレームワークは、教師あり微調整(SFT)と強化学習(RL)を組み合わせることで、数学的理解や論理的推論など、拡散モデルの推論能力を大幅に向上させます。
この革新的なd1フレームワークは、2段階の事後トレーニング戦略によって、マスク付き大規模言語モデル(dLLM)の性能を向上させます。第一段階では、高品質の推論軌跡を用いて教師あり微調整を行い、基礎知識と論理的推論能力を習得します。次に第二段階では、マスク付きdLLM向けに最適化されたdiffu-GRPOという新しい方策勾配法を導入し、推論効率を大幅に向上させます。
これまでの研究と比較して、d1は強化学習による事後トレーニングにおける拡散モデルの課題解決を目指しています。従来の自己回帰モデルは、生成シーケンスの対数確率を計算することでモデルの出力を最適化しますが、dLLMは反復的な生成特性を持つため、計算上の困難に直面します。そこで、研究チームは、各トークンの確率を個別に計算することで計算時間を大幅に削減し、トレーニング効率を向上させる効率的な対数確率推定器を開発しました。
実験では、LLaDA-8B-Instructをベースモデルとして使用し、d1-LLaDAと、SFTのみ、またはdiffu-GRPOのみでトレーニングされたモデルを比較しました。その結果、d1-LLaDAは、複数の数学的および論理的推論テストにおいて優れた性能を示し、ベースモデルや単一手法を大きく上回りました。この組み合わせ手法は、モデルの推論能力を高めるだけでなく、良好な相乗効果も示しました。
d1フレームワークの発表により、拡散モデルの推論タスクにおける性能は新たな高みに達し、今後の研究に大きな可能性をもたらします。研究者らは、この革新的なフレームワークが言語モデルの更なる発展を推進し、より複雑な推論や論理タスクの実現に貢献すると確信しています。
プロジェクトアドレス:https://dllm-reasoning.github.io/