Google DeepMind研究チームは最近、画期的な技術であるSCoRe(Self-Correction through Reinforcement Learning、強化学習による自己修正)を開発しました。この技術は、大規模言語モデル(LLM)が自己修正できないという長年の課題に対処することを目的としており、複数のモデルや外部チェックに頼ることなく、エラーの特定と修正を可能にします。

SCoRe技術の中核は、その2段階アプローチにあります。第1段階では、モデルの初期化を最適化し、2回目の試行で修正を生成できるようにしながら、最初の応答と基礎モデルの類似性を維持します。第2段階では、多段階強化学習を用いて、モデルが最初の回答と2番目の回答をどのように改善するかを学習させます。この方法のユニークな点は、自己生成のトレーニングデータのみを使用し、モデルが問題を解決し、解決策の改善を試みることで独自の例を作成することです。

QQ20240926-150104.png

実際のテストでは、SCoReは著しい性能向上を示しました。GoogleのGemini 1.0 Proと1.5 Flashモデルを使用したテストでは、MATHベンチマークテストの数学的推論タスクにおいて、自己修正能力が15.6%向上しました。HumanEvalのコード生成タスクでは、性能が9.1%向上しました。これらの結果は、SCoReがAIモデルの自己修正能力の向上において実質的な進歩を遂げたことを示しています。

研究者らは、SCoReが意味のある積極的な内在的自己修正を実現した最初の方法であり、モデルが外部からのフィードバックなしに回答を改善できることを強調しています。しかし、現在のバージョンのSCoReは自己修正トレーニングを1回のみ行いますが、将来の研究では、複数の修正ステップの可能性を探求するかもしれません。

DeepMindチームのこの研究は、自己修正などのメタ戦略を教えるには、標準的な言語モデルのトレーニング方法を超える必要があるという重要な洞察を示しています。多段階強化学習は、AI分野に新たな可能性を切り開き、よりスマートで信頼性の高いAIシステムの開発を促進する可能性があります。

この画期的な技術は、AIの自己改善の可能性を示しただけでなく、大規模言語モデルの信頼性と正確性の問題解決のための新たなアイデアを提供し、将来のAIアプリケーションの発展に大きな影響を与える可能性があります。