हाल ही में बहुत ध्यान आकर्षित करने वाले दृश्य भाषा मॉडल GPT-4V के लिए, शोधकर्ताओं ने इसकी छवि तर्क क्षमता की जांच करने के लिए एक नया मानक परीक्षण HallusionBench विकसित किया है। परिणामों से पता चला है कि GPT-4V जैसे मॉडल HallusionBench में खराब प्रदर्शन करते हैं, जो अपनी स्वयं की पैरामीटर याददाश्त से प्रभावित होकर भाषा भ्रांतियाँ उत्पन्न करते हैं, और उत्तरों की गलती दर 90% तक पहुँच जाती है। इसके अतिरिक्त, ज्यामिति जैसे दृश्य समस्याओं पर GPT-4V का प्रदर्शन भी संतोषजनक नहीं है, जो इसके वर्तमान दृश्य क्षमताओं की सीमाओं को दर्शाता है। सरल छवि संचालन आसानी से GPT-4V को गुमराह कर सकता है, जिससे इसकी कमजोरी उजागर होती है। इसके विपरीत, LLaVA-1.5 का ज्ञान भंडार GPT-4V के मुकाबले कम समृद्ध है, जिसमें कुछ सामान्य ज्ञान की गलतियाँ भी हैं। यह अध्ययन वर्तमान दृश्य भाषा मॉडलों की छवि तर्क में सीमाओं को उजागर करता है, जो भविष्य में सुधार के लिए संदर्भ प्रदान करता है।