視覚言語モデル(VLMs)をご存知でしょうか?AI界の優等生として、テキストの理解だけでなく、画像も「理解」できると言われています。しかし、本当にそうでしょうか?今回は、VLMsの能力を検証し、人間のように画像を「理解」しているのかどうかを詳しく見ていきましょう。
まず、VLMsとは何かを簡単に説明します。GPT-4やGemini-1.5Proのような大規模言語モデルの一種で、画像とテキストの処理に優れ、多くの視覚認識テストで高得点を取得しています。しかし、これらの高得点に惑わされることなく、真の実力を検証します。
研究者たちは「BlindTest」と呼ばれるテストを設計しました。このテストには7つの課題が含まれており、人間にとっては非常に簡単です。例えば、2つの円が重なっているかどうか、2本の線が交差しているかどうか、またはオリンピックマークに含まれる円の数などを数えるといった課題です。幼稚園児でも簡単に解けるような課題ばかりですが、VLMsの結果は驚くべきものでした。
結果、最先端モデルとされるVLMsの平均正解率はわずか56.20%、最も高いSonnet-3.5でも73.77%でした。これは、清華大学や北京大学への進学を期待される秀才が、小学校算数の問題を解けないようなものです。
なぜこのような結果になったのでしょうか?研究者によると、VLMsは画像処理において、まるで近視のように細部を見ることができない可能性があります。全体的な傾向は把握できるものの、2つの図形が交差しているか、重なっているかといった正確な空間情報となると、混乱してしまうようです。
例えば、研究者たちはVLMsに2つの円が重なっているかどうかを判断させましたが、2つの円がスイカのように大きくても、100%正確に回答できませんでした。また、オリンピックマークの円の数え上げでも、その精度は芳しくありませんでした。
さらに興味深いことに、VLMsは数え上げにおいて、数字の「5」に特別な偏りがあることが分かりました。オリンピックマークの円が5個を超える場合でも、「5」と回答する傾向があり、これはオリンピックマークに5つの円があるため、この数字に非常に馴染んでいることが原因と考えられます。
このように、一見高度なVLMsにも、視覚認識において多くの限界があることが分かりました。人間のレベルには遠く及ばないのです。ですから、AIが人間を完全に置き換えると言われたら、少し疑って見てください。
論文アドレス:https://arxiv.org/pdf/2407.06581
プロジェクトページ:https://vlmsareblind.github.io/