最近、Google、カーネギーメロン大学、MultiOnの研究チームが、大規模言語モデルの訓練における合成データの応用に関する新たな研究を発表しました。AI開発研究機関Epoch AIの報告によると、現在公開されている高品質なテキスト訓練データは約300兆トークンですが、ChatGPTなどの大規模モデルの急速な発展に伴い、訓練データの需要は指数関数的に増加しており、2026年までに枯渇すると予想されています。そのため、合成データが重要な代替手段として注目されています。
研究者らは、合成データの2つの主要なタイプ、肯定データと否定データを探求しました。肯定データとは、GPT-4やGemini 1.5 Proなどの高性能大規模モデルによって生成された、正しい問題解決策のことです。これらのデータは、モデルに数学問題の解き方を学ぶための例を提供します。しかし、肯定データのみに依存した訓練には限界があります。まず、この方法では問題解決過程の内部ロジックを深く解明できない可能性があり、モデルは単なるパターンマッチングで学習し、真の理解に至らない可能性があります。次に、訓練データが増えるにつれて、モデルは偶然の誤った関連付けを学習し、新しい問題に対処する際の汎化能力が低下する可能性があります。
そこで、研究者らは否定データというタイプを導入しました。これらのデータには、誤りと検証された解法手順が含まれており、モデルが誤りを認識し回避する能力を高め、論理的推論能力を強化することができます。否定データの利用には、誤った手順が誤解を招く可能性があるという課題がありますが、DPO(直接選好最適化)法を用いて最適化することで、研究者らはモデルが誤りから学習し、各解法手順の重要性を強調することに成功しました。
DPO法は、各解法手順に優位性値を割り当て、その手順が理想的な解法に対する価値を反映します。研究によると、高い優位性値の手順は正しい解法の鍵であり、低い優位性値の手順はモデルの推論における問題を示唆している可能性があります。これらの優位性値により、モデルは強化学習の枠組みの中で戦略を動的に調整し、合成データをより効率的に学習し改善することができます。
合成データの効果を検証するために、研究チームはGSM8KとMATHデータセットでDeepSeek-Math-7B、LLama2-7Bなどのモデルを総合的にテストしました。その結果、肯定的および否定的合成データで事前学習された大規模モデルは、数学的推論タスクにおける性能が8倍向上しました。この研究成果は、合成データが大規模モデルの論理的推論能力向上に大きな可能性を秘めていることを示しています。
要点:
📊 合成データは、増加する訓練データの需要に対応する効果的な代替手段です。
🧩 肯定データと否定データの組み合わせにより、モデルの数学的推論能力と論理能力が向上します。
🚀 研究によると、合成データによる事前学習後、大規模モデルの推論能力は8倍向上しました。