ミュンヘン大学、ミュンヘン機械学習センター、アドビ研究所が最近共同で発表した研究によると、GPT-4、Gemini 1.5 Pro、Llama 3.3-70Bなど、12種類の最先端AI言語モデルは、長文の概念推論タスクにおいて顕著な性能低下に直面していることが示されました。これらのモデルはすべて少なくとも128,000トークンのコンテキスト処理をサポートしていますが、深層的な論理的関連付け能力には根本的な限界があることが明らかになりました。
研究チームが開発したNOLIMA(ノー文字マッチング)ベンチマークシステムは、キーワードの重複を意図的に回避する設計により、AIモデルにおける概念連結の脆弱性を明らかにしました。例えば、「ユキはゼンパーオーパーの近くに住んでいる」という文章が与えられた場合、モデルは「ゼンパーオーパーはドレスデンにある」という常識を理解する必要があります。「誰がドレスデンに行ったか」という質問に答えるためには。
画像出典:AI生成画像、画像ライセンスプロバイダーMidjourney
テスト結果は以下の通りです:
1. **長文における性能の急激な低下**: コンテキストを2,000トークンから8,000トークンに拡張すると、多くのモデルの性能が著しく低下しました。32,000トークンのシナリオでは、12モデルのうち10モデルの性能は短文時の半分以下でした。
2. **アテンションメカニズムの弱点**: モデルは長文の中で関連情報を正確に特定することが困難であり、重要な回答がテキストの後半にある場合、正確性はさらに低下しました。
3. **専用推論モデルにも欠陥**: 複雑な推論用に設計されたo1、o3-mini、DeepSeek-R1システムは、32KトークンのNOLIMA-Hardテストで50%未満のスコアしか得られませんでした。短文ではほぼ完璧な性能を示したにもかかわらずです。
研究では、モデルが「単語の一致」に過度に依存していることが中心的な問題であると指摘されています。テストで同じ単語を意図的に排除した場合、思考連鎖(CoT)プロンプト技術を使用しても、Llama 3.3-70Bの長文処理能力の向上は限定的でした。さらに深刻なことに、無関係なコンテキストに単語の一致による干渉があると、モデルの誤判がさらに悪化します。
「これは、現在のAIの根本的な矛盾、つまりコンテキストウィンドウの拡張は容易だが、深層推論能力の向上は難しいことを示しています。」と研究者は強調しています。GPT-4を例にとると、8,000トークンの有効なコンテキスト長に達していますが、段落を跨いでの概念統合には依然として力不足です。テキストが長くなるにつれて、モデルのアテンションメカニズムは徐々に「焦点がぼけ」、一貫した論理チェーンを維持することが困難になります。
この研究は、AI開発への警鐘を鳴らしています。処理の長さを単に増やすだけでは、推論のボトルネックを突破することはできません。業界はモデルアーキテクチャの設計を見直し、より効率的な情報抽出と関連付けメカニズムを開発する必要があります。将来的には、AIがパターンマッチングに頼るのではなく、テキストを真に理解することが、長文処理の限界を突破する鍵となるでしょう。