最近、カリフォルニア大学ロサンゼルス校とアマゾンの研究者らが、大規模言語モデル(LLM)の推論能力について詳細な分析を行いました。初めて体系的に帰納推論と演繹推論の2つの能力を区別し、これらがAIシステムにとってどの程度難しい課題であるかを検討しました。

AI顔交換 顔認識 (2)

画像出典:AI生成画像、画像ライセンス提供元Midjourney

帰納推論とは、具体的な観察から一般的な法則を導き出すことであり、演繹推論とは、一般的な規則を特定の事例に適用することです。この研究の目的は、どちらの推論能力が大型言語モデルにとってより困難であるかを理解することです。「SolverLearner」と呼ばれる新しい手法を開発しました。この手法により、モデルは少数の例から関数を学習し、入力を出力にマッピングします。その後、外部プログラムがこの関数を使用することで、演繹推論との混同を回避します。

研究結果によると、GPT-4のような言語モデルは帰納推論において非常に優れた性能を示し、「SolverLearner」手法を用いた場合、精度はほぼ100%に達しました。しかし、演繹推論、特に「反事実」タスクでは、モデルの能力は不十分でした。例えば、モデルは10進数の算術タスクでは良好な成績を収めましたが、他の数体系の計算では困難に直面しました。さらに、単語の順序が異常に変化したり、空間的な向きが変化したりする文を分析する際にも、モデルの柔軟性に欠けることが明らかになりました。

研究者らは、演繹推論は現在のLLMにとって大きな課題であると結論付けています。学習済みの規則を正しく適用できるかどうかは、これらのタスクがトレーニングプロセスでどのくらいの頻度で出現したかに依存することが多いです。チェーン・オブ・ソー(連鎖思考)などのプロンプト手法を用いても、モデルの演繹推論能力をわずかに向上させることはできますが、効果は依然として不十分です。なお、最近発表されたOpenAIの新しいモデルo1は、今回のテストには参加していません。

オハイオ州立大学とカーネギーメロン大学の研究者らによる別の研究では、Transformerモデルの論理推論能力が調べられました。特に組み合わせと比較のタスクにおいて、モデルが「grokking(グロッキング)」を通じて暗黙の推論能力を獲得できるかどうかを研究しました。

その結果、これらのモデルは長時間のトレーニングの後、暗黙の推論能力を獲得できることが示されましたが、これは比較タスクにおいてのみ、未見の例に一般化することができました。研究者らは、この違いは学習された回路の内部構造に関連しており、Transformerアーキテクチャを調整することで、予備実験における品質向上を目指すべきだと提案しています。

要点:

🌟 LLMは帰納推論において優れた性能を示し、精度はほぼ100%に達しました。

🧩 演繹推論は依然として課題であり、特に反事実タスクの処理において顕著です。

🔍 別の研究によると、Transformerモデルは組み合わせタスクにおいて暗黙の推論能力を獲得できますが、一般化能力は限定的です。