दृश्य भाषा मॉडल (VLMs) के बारे में आप सभी ने सुना होगा, ये AI की दुनिया के छोटे जादूगर न केवल पाठ को समझ सकते हैं, बल्कि चित्रों को भी "देख" सकते हैं। लेकिन सच ऐसा नहीं है, आज हम इनकी "तलाशी" लेने जा रहे हैं, यह देखने के लिए कि क्या वे वास्तव में हमारे जैसे चित्रों को "देख" सकते हैं।

पहले, हमें आपको यह समझाना होगा कि VLMs क्या होते हैं। सरल शब्दों में, ये कुछ बड़े भाषा मॉडल हैं, जैसे GPT-4o और Gemini-1.5Pro, जो चित्र और पाठ के प्रसंस्करण में बहुत अच्छा प्रदर्शन करते हैं, और कई दृश्य समझ परीक्षणों में उच्च अंक प्राप्त करते हैं। लेकिन इन उच्च अंकों से भ्रमित न हों, आज हम देखेंगे कि क्या वे वास्तव में इतने सक्षम हैं।

शोधकर्ताओं ने एक परीक्षण डिजाइन किया जिसे BlindTest कहा जाता है, जिसमें 7 कार्य होते हैं, जो मानव के लिए बेहद आसान हैं। जैसे, यह判断 करना कि क्या दो वृत्त ओवरलैप करते हैं, क्या दो रेखाएं एक-दूसरे को काटती हैं, या ओलंपिक प्रतीक में कितने वृत्त हैं। ये कार्य सुनने में क्या आपको लगता है कि नर्सरी के बच्चे भी आसानी से कर सकते हैं? लेकिन आपको बताना है कि इन VLMs का प्रदर्शन उतना शानदार नहीं है।

परिणाम चौंकाने वाले थे, इन所谓 उन्नत मॉडलों का BlindTest पर औसत सटीकता केवल 56.20% थी, जबकि सबसे अच्छे Sonnet-3.5 की सटीकता केवल 73.77% थी। यह ऐसा है जैसे कोई खुद को टॉप छात्र कहता है, लेकिन वह प्राथमिक विद्यालय के गणित के प्रश्न भी ठीक से नहीं कर सकता।

image.png

ऐसा क्यों हुआ? शोधकर्ताओं का विश्लेषण है कि शायद VLMs चित्रों को संसाधित करते समय, जैसे कोई निकट दृष्टि वाले व्यक्ति, जो विवरणों को स्पष्ट रूप से नहीं देख सकता। वे भले ही चित्रों की समग्र प्रवृत्ति को देख सकते हैं, लेकिन जब सटीक स्थानिक जानकारी की बात आती है, जैसे कि क्या दो आकृतियाँ ओवरलैप करती हैं, या काटती हैं, तो वे भौंचक्के रह जाते हैं।

एक उदाहरण के लिए, शोधकर्ताओं ने VLMs से पूछा कि क्या दो वृत्त ओवरलैप करते हैं, परिणामस्वरूप पाया गया कि भले ही दोनों वृत्त तरबूज के आकार के हों, ये मॉडल 100% सटीकता से जवाब नहीं दे सके। और जब उन्हें ओलंपिक प्रतीक में वृत्तों की संख्या गिनने के लिए कहा गया, तो उनका प्रदर्शन भी कुछ खास नहीं था।

image.png

और दिलचस्प बात यह है कि शोधकर्ताओं ने पाया कि इन VLMs को गिनती करते समय संख्या 5 के प्रति एक विशेष झुकाव है। जैसे, जब ओलंपिक प्रतीक में वृत्तों की संख्या 5 से अधिक होती है, तो वे "5" का उत्तर देने की प्रवृत्ति रखते हैं, शायद इसलिए कि ओलंपिक प्रतीक में 5 वृत्त होते हैं, वे इस संख्या से विशेष रूप से परिचित हैं।

image.png

ठीक है, इतना कहने के बाद, क्या दोस्तों, क्या आपको इन उच्च तकनीकी VLMs के बारे में एक नई समझ मिली है? वास्तव में, वे दृश्य समझ में कई सीमाओं के साथ हैं, और हमारी मानव स्तर तक नहीं पहुंचे हैं। इसलिए, अगली बार जब आप सुनें कि कोई AI पूरी तरह से मानव का स्थान ले सकता है, तो आप बस मुस्कुरा सकते हैं।

पेपर का पता: https://arxiv.org/pdf/2407.06581

प्रोजेक्ट पृष्ठ: https://vlmsareblind.github.io/