最近、ミラ研究所、Google DeepMind、マイクロソフトリサーチの研究者らが、AI言語モデルの推論能力について詳細な調査を行い、小型で安価なモデルが複雑な問題解決において著しい欠点を持つことを発見しました。

この研究で使用されたのは「複合GSM」と呼ばれるテストで、連鎖する基礎的な数学問題を解く際のモデルの性能を評価することを目的としています。

AIロボット 人工知能 (3)データ分析

画像出典:AI生成画像、画像ライセンス提供元Midjourney

研究者らはGSM8Kデータセットから2つの問題を組み合わせ、最初の問題の答えを次の問題の変数として使用してテストを行いました。その結果、ほとんどのモデルがこれらの複雑な推論タスクにおいて期待をはるかに下回る結果となり、特に小型モデルでその傾向が顕著でした。小型モデルはGSM8Kなどの標準的な数学テストでは大型モデルと同様のスコアを得ていましたが、新しい複合テストでは論理的な差が2倍から12倍にも拡大しました。

GPT-4o miniを例にとると、元のベンチマークテストではGPT-4oとほぼ同等の性能でしたが、この新しいテストでははるかに劣る結果となりました。GeminiやLLAMA3などの他のモデルでも同様の傾向が見られました。この研究は、小型モデルは一般的なタスクでは表面的なパターンを認識できるものの、新しい状況でその知識を適用することに苦労することを示唆しています。

研究では、数学用に特別に設計された小型モデルにも欠点があることが判明しました。例えば、Qwen2.5-Math-7B-ITは難易度が高い高校レベルの数学の問題では80%以上の正解率を達成しましたが、連鎖する基礎的な数学問題では正解率が60%を下回りました。また、小型モデルでは、指示チューニング法は元のGSM8Kテストでは性能を大幅に向上させましたが、複合GSMテストではその効果はごくわずかでした。

この研究は、OpenAIが最近発表した論理最適化モデルo1がテストに含まれていないため、完全に最新のものではありません。o1は計画能力が大幅に向上している兆候が見られますが、研究では、数学問題解決の速度と効率性においては依然として人間が優れていることが示されています。GoogleのGeminiモデルも最近のアップデートで数学能力が向上しています。

研究者らは、既存の評価方法ではこれらのモデルの体系的な違いが隠されてしまい、小型モデルの能力を過大評価している可能性があると強調しています。彼らは、低コストAIシステムの開発戦略の再評価を呼びかけ、複雑な推論と汎化能力におけるこれらのモデルの固有の限界に疑問を呈しています。この研究は、AIシステムの限界をより深く理解するための洞察を提供しています。

要点:

📉 小型AI言語モデルは、連鎖する数学問題の解決において不十分で、論理的な差は最大12倍にも及びます。

🧮 数学用に特別に設計された小型モデルでさえ、基礎的な問題の正解率は60%を下回ります。

🔍 既存の評価方法は小型モデルの能力を過大評価している可能性があり、開発戦略の再検討が必要です。