最近、Google DeepMindの研究チームと複数の大学が共同で、生成AIの推論タスクにおける正確性と信頼性を向上させる新しい手法「生成報酬モデル(GenRM)」を発表しました。
生成AIは自然言語処理など多くの分野で広く利用されており、一連の単語の次の単語を予測することで、首尾一貫したテキストを生成します。しかし、これらのモデルは、特に教育、金融、医療など正確性が極めて重要な分野において、誤った情報を自信満々に出力することがあります。これは大きな問題です。
現在、生成AIモデルの出力精度における課題に対して、研究者たちは様々な解決策を試みています。その一つに、判別報酬モデル(RMs)があり、スコアに基づいて潜在的な回答の正誤を判断しますが、この方法は、大規模言語モデル(LLMs)の生成能力を十分に活用できていませんでした。「LLMを判定者として用いる」という方法も一般的ですが、複雑な推論タスクを解く際には、専門の検証者よりも効果が劣ることが多いです。
GenRMの革新的な点は、検証プロセスを「次の単語予測タスク」として再定義したことでしょう。従来の判別報酬モデルとは異なり、GenRMはLLMsのテキスト生成能力を検証プロセスに統合することで、モデルが潜在的な解決策を同時に生成および評価することを可能にします。さらに、GenRMは連鎖推論(CoT)もサポートしており、最終結論を導き出す前に、中間的な推論ステップを生成することで、検証プロセスをより包括的で体系的なものにします。
生成と検証を組み合わせることで、GenRM手法は統一的な訓練戦略を採用し、訓練プロセスにおいて生成能力と検証能力の両方を同時に向上させることができます。実際の応用では、モデルは中間推論ステップを生成し、それらのステップを使用して最終的な回答を検証します。
研究者たちは、GenRMモデルが複数の厳格なテストで優れた性能を示したことを発見しました。例えば、就学前児童向けの算数問題やアルゴリズム問題解決タスクにおいて、GenRMの正確性は著しく向上しました。判別報酬モデルやLLMを判定者として用いる方法と比較して、GenRMの問題解決成功率は16%から64%向上しました。
例えば、Gemini1.0Proモデルの出力を検証する際、GenRMは問題解決成功率を73%から92.8%に引き上げました。
GenRM手法の発表は、生成AI分野における大きな進歩を示しています。解決策の生成と検証を単一のプロセスに統合することで、AIが生成する解決策の正確性と信頼性を大幅に向上させました。
要点:
1. 🌟 GenRMは検証プロセスを次の単語予測タスクとして再定義することで、生成AIの推論能力を向上させました。
2. 📈 GenRMは複数のテストで優れた性能を示し、従来の方法と比べて正確性が16%から64%向上しました。
3. 🧠 この手法は生成と検証を統合することで、AIの高リスク分野における応用可能性を高めました。