最近、アップル社は、大規模言語モデル(LLM)の推論能力に関する研究を行い、これらのモデルの数学分野における性能に注目が集まっています。
GSM8Kベンチマークは、モデルの小中学校レベルの数学問題に対する推論能力を評価するために広く用いられていることは周知のとおりです。近年、LLMのGSM8Kにおける性能は向上していますが、研究者らはその結果の信頼性に疑問を抱いていました。そのため、彼らは最先端のオープンソースとクローズドソースモデルの性能を探る大規模な研究を行いました。
モデルの推論能力をより適切に評価するために、研究チームは改良されたベンチマーク、GSM-Symbolicを導入しました。この新しいベンチマークは、多様な問題を生成するシンボルテンプレートを使用しており、評価プロセスをより適切に制御し、より信頼性の高い指標を提供することができます。
研究の結果、問題の数値が変化すると、LLMの性能が明らかに変動することが分かりました。さらに興味深いことに、問題の項数が増加するにつれて、モデルの性能は著しく低下しました。研究者らは、この性能の低下は、既存のLLMが真の論理的推論能力を備えているのではなく、単にトレーニングデータにおける推論手順を模倣していることを示唆していると推測しています。
実験では、一見関連性のありそうな項を1つ追加するだけで、最先端モデルの性能が最大65%も低下しました。これらの項は、最終的な答えを導き出す推論チェーンとは無関係であるにもかかわらず、モデルの性能に大きな影響を与えました。全体として、この研究は、LLMの数学的推論能力とその限界についてのより深い理解を提供してくれます。
要点:
🔍 LLMの数学的推論能力は、問題事例によって著しく異なる性能を示します。
📉 問題の複雑さが増すにつれて、LLMの性能は顕著に低下し、特に追加の項を追加した場合に顕著です。
🤖 既存のLLMは真の論理的推論能力を備えておらず、主にトレーニングデータの反復と模倣に依存しています。