Meta FAIR、カリフォルニア大学バークレー校、ニューヨーク大学の研究者らが共同で、思考選好最適化(TPO)と呼ばれる画期的な技術を発表しました。これは、大規模言語モデル(LLM)が指示に対する回答の質を向上させることを目的とした技術です。従来のモデルが最終的な回答のみに焦点を当てていたのに対し、TPOはモデルが最終的な回答を出す前に内部で思考と熟考を行うことを可能にし、より正確で一貫性のある回答を生成します。

image.png

TPO技術の中核は、改良された連鎖思考(CoT)推論手法です。この手法は、トレーニング中にモデルに「考えてから答える」ことを促し、最終的な回答を出す前に、より整理された内的な思考プロセスを構築するよう支援します。従来のCoTプロンプトは、正確性が低下したり、明確な思考ステップがないためにトレーニングが非常に困難になることがありました。しかし、TPOはモデルが中間ステップをユーザーに公開することなく、思考プロセスを最適化し簡素化することで、これらの課題を克服しました。

TPOのトレーニングプロセスでは、まず大規模言語モデルに複数のアイデアを生成させ、その後最終的な回答をまとめます。次に、これらの出力結果は「評価者」モデルによって評価され、最も優れた回答と最も劣る回答が選ばれます。これらの評価結果は、直接選好最適化(DPO)の「選択」と「拒否」のペアとして使用され、モデルの応答品質を継続的に向上させます。

トレーニングプロンプトを調整することで、TPOはモデルが回答する前に内部で思考することを促します。このプロセスは、モデルが回答を最適化し、より明確で関連性の高いものにするよう導きます。最終的には、LLMベースの評価モデルが最終的な回答のみを採点し、隠れた思考ステップとは独立してモデルの回答品質の向上を支援します。TPOは直接選好最適化も活用し、隠れた思考を含む最適な回答と拒否された回答のペアを作成し、複数回のトレーニングを経てモデルの内部プロセスをさらに洗練させます。

AlpacaEvalとArena-Hardのベンチマークテストでは、TPO手法は従来の応答ベースラインを上回り、「思考プロンプト」を使用したLlama-3-8B-Instructモデルよりも優れた性能を示しました。この手法の反復的なトレーニングにより、思考生成能力が最適化され、最終的に複数のベースラインモデルを凌駕しました。注目すべきは、TPOは論理や数学の問題だけでなく、マーケティングや健康など、創造性を必要とする指示に従うタスクでも高い能力を発揮することです。

AIとロボットの専門家であるKaran Verma氏は、ソーシャルメディアプラットフォームX上で「思考型LLM」という概念に対する見解を共有し、このイノベーションに非常に興奮しており、医療分野での可能性、特に患者へのより良い治療効果への期待を表明しました。

この構造化された内的な思考プロセスにより、モデルは複雑な指示をより効率的に処理できるようになり、多層的な推論と詳細な理解が必要な分野での応用がさらに広がります。これは、人間が特定の思考データを提供することなく実現できます。この研究は、TPOがさまざまなコンテキストで大規模言語モデルをより柔軟かつ効率的に使用することを可能にし、応答生成の柔軟性と深さに高い要求がある分野に適していることを示しています。