プリンストン大学とイェール大学の研究者らは最近、大規模言語モデル(LLM)の「思考連鎖(CoT)」推論能力に関する報告書を発表し、CoT推論の謎を明らかにしました。それは純粋に論理規則に基づく記号推論ではなく、記憶、確率、ノイズ推論など複数の要素が融合したものなのです。
研究者らは、シーザー暗号解読をテスト課題として、GPT-4、Claude3、Llama3.1の3つのLLMのパフォーマンスを分析しました。シーザー暗号は単純な暗号化方法で、各文字はアルファベットで一定の数だけシフトされた文字に置き換えられます。例えば、アルファベットを3文字シフトすると、「CAT」は「FDW」になります。
研究結果によると、CoT推論の結果に影響を与える3つの重要な要素は次のとおりです。
確率:LLMは、推論ステップが確率の低い答えを指している場合でも、確率の高い出力を生成する傾向があります。例えば、推論ステップが「STAZ」を指している場合でも、「STAY」の方が一般的な単語であれば、LLMは「自己修正」して「STAY」を出力する可能性があります。
記憶:LLMは事前学習中に大量のテキストデータを記憶しており、それがCoT推論の正確性に影響を与えます。例えば、rot-13は最も一般的なシーザー暗号であり、LLMはrot-13での正確性が他のタイプのシーザー暗号よりも明らかに高くなっています。
ノイズ推論:LLMの推論プロセスは完全に正確ではなく、ある程度のノイズが存在します。シーザー暗号のシフト量が増加するにつれて、復号に必要な中間ステップも増加し、ノイズ推論の影響もより顕著になり、LLMの正確性が低下します。
研究者らはまた、LLMのCoT推論は自己条件化に依存していることを発見しました。つまり、LLMは後続の推論ステップのコンテキストとしてテキストを明示的に生成する必要があります。LLMがテキストを出力せずに「黙って考える」ように指示されると、推論能力は大幅に低下します。さらに、デモステップの有効性はCoT推論への影響は小さく、デモステップに誤りがあっても、LLMのCoT推論結果は安定したままです。
この研究は、LLMのCoT推論が完璧な記号推論ではなく、記憶、確率、ノイズ推論などの複数の要素が融合したものであることを示しています。LLMはCoT推論において、記憶の達人の特徴と確率の高手の風格の両方を示しています。この研究は、LLMの推論能力をより深く理解し、より強力なAIシステムの開発に役立つ貴重な知見を提供します。