生成系言語モデルは、訓練から実際の応用に至るまで、多くの課題に直面しています。その主要な問題の一つは、推論段階でモデルを最適なパフォーマンスに到達させる方法です。

現在の人間からのフィードバックによる強化学習(RLHF)などの対策は、主にモデルの正解率向上に焦点を当てていますが、Best-of-Nサンプリングや制御されたデコーディングなどの推論時のデコーディング戦略はしばしば見過ごされています。この訓練目標と実際の使用状況のギャップにより、効率の低下、出力の質と信頼性の低下につながる可能性があります。

これらの問題を解決するために、Google DeepMindとGoogle Researchチームは、推論戦略と連携することを目的とした機械学習フレームワークであるInfAlignを開発しました。InfAlignは、推論時の手法を調整プロセスに組み込み、訓練と応用のギャップを埋めることを目指しています。特定の推論戦略に基づいた報酬関数を、調整された強化学習手法を用いて調整します。InfAlignは、Best-of-Nサンプリング(複数の応答を生成し、最適なものを選択する)やWorst-of-N(安全性の評価によく使用される)などの技術に特に有効であり、調整されたモデルが制御された環境と現実のシナリオの両方で良好なパフォーマンスを発揮することを保証します。

image.png

InfAlignの中核は、校正と変換強化学習(CTRL)アルゴリズムであり、これは報酬スコアの校正、推論戦略によるこれらのスコアの変換、KL正則化された最適化問題の解決という3つのステップに従います。報酬変換を特定のシナリオに合わせてカスタマイズすることで、InfAlignは訓練目標と推論のニーズを一致させます。この方法は、推論時の正解率を向上させるだけでなく、計算効率も維持します。さらに、InfAlignはモデルの堅牢性を強化し、様々なデコーディング戦略に効果的に対応し、一貫して高品質の出力を生成します。

Anthropicの有用性と無害性に関するデータセットを使用した実験で、InfAlignの有効性が検証されました。既存の方法と比較して、InfAlignはBest-of-Nサンプリングの推論正解率を8%~12%向上させ、Worst-of-N安全評価では4%~9%向上しました。これらの改善は、校正された報酬変換によるものであり、報酬モデルの誤校正問題を効果的に解決し、様々な推論シナリオにおける一貫したパフォーマンスを保証します。

InfAlignは、生成系言語モデルの調整において重要な進歩を表しています。推論を意識した戦略を組み合わせることで、InfAlignは訓練と展開の間の重要な違いを解決します。その堅実な理論的基礎と実証的な結果は、AIシステムの調整を全体的に改善する可能性を浮き彫りにしています。

リンク:https://arxiv.org/abs/2412.19792

要点:

🌟 InfAlignは、Google DeepMindが開発した新しいフレームワークであり、言語モデルの推論段階でのパフォーマンス向上を目指しています。

📈 このフレームワークは、調整された強化学習手法を用いて、推論戦略の報酬関数を調整し、訓練目標と推論のニーズを一致させます。

✅ 実験結果は、InfAlignが複数のタスクでモデルの推論正解率を大幅に向上させ、優れた適応性と信頼性を示していることを示しています。