最近、アップル社の研究者らが大規模言語モデル(LLM)の数理推論能力について詳細な研究を行い、GSM-Symbolicという新しいベンチマークテストを発表しました。
この新しいベンチマークテストは、基礎的な数学能力の評価を目的としたGSM8Kをベースに開発されました。多くのLLMがGSM8Kにおいて性能向上を見せていますが、科学界ではこれらのモデルの推論能力について疑問が残っており、既存の評価指標では真の能力を完全に反映できない可能性があるとされています。研究によると、LLMは真の論理的推論ではなく、確率的なパターンマッチングに依存していることが多く、そのため入力の小さな変化にも非常に敏感です。
この新しい研究では、研究者らは多様な数学問題を作成するために記号テンプレートを使用することで、より信頼性の高い評価を提供しています。実験結果によると、問題の数値や複雑さが増すと、LLMの性能は著しく低下します。さらに、問題の表面上は関連しているが実際には無関係な情報を追加するだけでも、モデルの性能は最大65%低下する可能性があります。これらの結果は、LLMが推論において正式な論理的推論ではなく、パターンマッチングにさらに依存していることを改めて示しています。
GSM8Kデータセットには、学年レベルに適した8000を超える数学問題が含まれており、その普及からデータ汚染や小さな問題の変化による性能の変動などのリスクが生じています。これらの課題に対処するために、GSM-Symbolicが登場し、問題の多様性を効果的に制御できるようになりました。このベンチマークテストでは、100個のテンプレートから5000個のサンプルを使用して、20種類以上のオープンモデルとクローズドモデルを評価し、LLMの数理推論能力に関する深い洞察と限界を示しています。
予備実験によると、GSM-Symbolicにおける様々なモデルの性能差は顕著であり、全体的な正確性はGSM8Kで報告された性能よりも低くなっています。さらに、変数名と数値の変更がLLMに与える影響についても調査が行われ、数値の変化の方が性能への影響が大きいことが示されました。また、問題の複雑さも正確性に直接影響し、複雑な問題では性能が著しく低下します。これらの結果は、モデルが数学問題を処理する際に、真の推論能力ではなく、パターンマッチングに依存している可能性が高いことを示唆しています。
この研究は、現在のGSM8K評価の限界を強調し、LLMの数理推論能力を評価することを目的とした新しいベンチマークGSM-Symbolicを紹介しています。全体として、研究結果は、LLMが複雑な問題を処理する際には、論理的推論能力のさらなる向上が必要であることを示しています。
論文:https://arxiv.org/abs/2410.05229
要点:
🧮 研究者らは、LLMの数理推論能力を評価するための新しいベンチマークGSM-Symbolicを発表しました。
📉 LLMは複雑な数学問題を処理する際に性能が低く、論理的推論ではなくパターンマッチングに依存しています。
📊 研究は、新しいベンチマーク下での様々なモデルの性能差が顕著であることを明らかにし、評価方法の改善を訴えています。