先日、Meta AIの研究チームはカリフォルニア大学バークレー校およびニューヨーク大学の研究者と協力し、指示微調整済み大規模言語モデル(LLM)の応答品質を向上させることを目的とした「思考選好最適化(Thought Preference Optimization、TPO)」という手法を発表しました。

従来のモデルが最終的な回答のみに焦点を当てていたのに対し、TPO手法はモデルが応答生成前に内部的に思考することを可能にし、より正確で首尾一貫した回答を生成します。

image.png

この新技術は、改良版の思考連鎖(Chain-of-Thought、CoT)推論手法を組み合わせています。訓練過程において、この手法はモデルが応答前に「思考」することを促し、より体系的な内部思考プロセスを構築するのを支援します。従来の直接的なCoTプロンプトは、正確性を低下させることがあり、明確な思考ステップが不足しているため、訓練過程が困難でした。TPOは、モデルが思考プロセスを最適化および簡素化することを可能にすることで、これらの限界を克服し、中間思考ステップをユーザーに表示しません。

TPOのプロセスでは、まず大規模言語モデルに複数の思考プロセスを生成するよう促し、最終的な応答を生成する前に、これらの出力をサンプリングして評価します。その後、評価モデルが出力を採点し、最適な応答と最悪な応答を特定します。これらの出力を、直接選好最適化(Direct Preference Optimization、DPO)を行うための採択と拒否のペアとして用いることで、この反復的な訓練手法は、モデルがより関連性の高い高品質な応答を生成する能力を高め、全体的な効果を向上させます。

この手法では、訓練プロンプトが調整され、モデルが応答前に内部的に思考することを促します。評価された最終的な応答はLLMベースの評価モデルによって採点され、モデルは暗黙的な思考ステップを考慮することなく、応答の有効性のみを基に品質を向上させることができます。さらに、TPOは直接選好最適化を利用して、暗黙的な思考を含む採択と拒否の応答ペアを作成し、複数の訓練サイクルを経てモデルの内部プロセスをさらに洗練させます。

image.png

研究結果によると、TPO手法は複数のベンチマークテストで優れた性能を示し、既存のさまざまなモデルを上回りました。この手法は、論理や数学のタスクだけでなく、マーケティングやヘルスケアなどの創造的な分野における指示追従タスクにも可能性を示しています。

論文:https://arxiv.org/pdf/2410.10630

要点:

🧠 TPO技術は、大規模言語モデルの応答生成前の思考能力を高め、より正確な応答を保証します。

📈 改良された思考連鎖推論により、モデルは内部思考プロセスを最適化および簡素化し、応答品質を向上させることができます。

💡 TPOは、論理や数学のタスクだけでなく、創造的な分野やヘルスケア分野など、幅広い分野に適用できます。