ドイツのダルムシュタット工科大学による最新の研究は、考えさせられる現象を明らかにしました。それは、最先端のAI画像モデルでさえ、単純な視覚推論タスクに明らかな誤りを犯すということです。この研究結果は、AIの視覚能力の評価基準に新たな疑問を投げかけています。

研究チームは、ロシアの科学者Michail Bongardが設計したBongard問題をテストツールとして採用しました。この視覚パズルは、12枚の単純な画像で構成され、2つのグループに分けられており、両グループを区別するルールを特定する必要があります。ほとんどの人にとって、この抽象的な推論タスクは難しくありませんが、AIモデルの成績は意外なものでした。

image.png

現在最先端とされているマルチモーダルモデルGPT-4oでさえ、100個の視覚パズル中、わずか21個しか解くことができませんでした。Claude、Gemini、LLaVAなどの他の有名なAIモデルの成績はさらに芳しくありませんでした。これらのモデルは、垂直線と水平線の識別や螺旋の方向の判断などの基本的な視覚概念の認識において、明らかな困難を示しました。

研究者たちは、選択肢を提供しても、AIモデルの成績はわずかにしか向上しないことを発見しました。GPT-4とClaudeの成功率がそれぞれ68問と69問に上昇したのは、可能な回答数を厳しく制限した場合のみでした。4つの特定の事例を詳細に分析することで、研究チームは、AIシステムが「思考」と「推論」の段階に達する前に、基本的な視覚認識の段階で既に問題を抱えている場合があることを発見しましたが、その具体的な原因はまだ特定できていません。

この研究は、AIシステムの評価基準についても再考を促しています。研究チームは、「なぜ視覚言語モデルは確立されたベンチマークテストでは優れた成績を収めながら、一見単純なBongard問題で困難に遭遇するのか?これらのベンチマークテストは、真の推論能力を評価する上で、どれだけの意味があるのか?」と指摘しています。これらの疑問は、現在のAI評価システムを、AIの視覚推論能力をより正確に測定できるよう再設計する必要があることを示唆しています。

この研究は、現在のAI技術の限界を示しただけでなく、将来のAI視覚能力の発展の方向性も示しています。AIの急速な進歩を称賛する一方で、基礎的な認知能力においてはまだ改善の余地があることを冷静に認識する必要があることを思い出させてくれます。