जर्मनी के डार्मस्टाड तकनीकी विश्वविद्यालय से नवीनतम शोध ने एक विचारणीय घटना का खुलासा किया है: वर्तमान में सबसे उन्नत एआई छवि मॉडल भी सरल दृश्य तर्क कार्यों का सामना करते समय स्पष्ट गलतियाँ कर सकते हैं। यह शोध परिणाम एआई दृश्य क्षमताओं के मूल्यांकन मानकों पर नए विचार प्रस्तुत करता है।
शोध दल ने परीक्षण उपकरण के रूप में रूसी वैज्ञानिक मिखाइल बोंगार्ड द्वारा डिज़ाइन किए गए बोंगार्ड प्रश्नों का उपयोग किया। इस प्रकार की दृश्य पहेलियाँ 12 सरल चित्रों से बनी होती हैं, जिन्हें दो समूहों में विभाजित किया जाता है, और इन दोनों समूहों के बीच के नियमों की पहचान करने की आवश्यकता होती है। अधिकांश लोगों के लिए, यह अमूर्त तर्क कार्य कठिन नहीं होता, लेकिन एआई मॉडल का प्रदर्शन आश्चर्यजनक रूप से खराब था।
यहां तक कि वर्तमान में सबसे उन्नत मल्टीमोडल मॉडल GPT-4o ने 100 दृश्य पहेलियों में से केवल 21 को सफलतापूर्वक हल किया। अन्य प्रसिद्ध एआई मॉडल जैसे क्लॉड, जेमिनी और LLaVA का प्रदर्शन और भी निराशाजनक था। ये मॉडल ऊर्ध्वाधर और क्षैतिज रेखाओं की पहचान करने, या螺旋 दिशा का निर्धारण करने जैसे मूल दृश्य अवधारणाओं में स्पष्ट कठिनाई दिखाते हैं।
शोधकर्ताओं ने पाया कि यहां तक कि विकल्प प्रदान करने के मामले में भी, एआई मॉडल का प्रदर्शन केवल मामूली रूप से सुधरा। केवल संभावित उत्तरों की संख्या को कड़ाई से सीमित करने की स्थिति में, GPT-4 और क्लॉड की सफलता दर क्रमशः 68 और 69 पहेलियों तक बढ़ गई। चार विशिष्ट मामलों का गहन विश्लेषण करने के बाद, शोध दल ने पाया कि एआई प्रणाली कभी-कभी "सोचने" और "तर्क करने" के चरण तक पहुँचने से पहले ही मूल दृश्य धारणा स्तर पर समस्याओं का सामना कर रही थी, लेकिन इसके पीछे के कारणों को निर्धारित करना अभी भी कठिन है।
यह शोध एआई सिस्टम के मूल्यांकन मानकों पर पुनर्विचार को भी प्रेरित करता है। शोध दल ने कहा: "क्यों दृश्य भाषा मॉडल स्थापित मानक परीक्षणों में उत्कृष्ट प्रदर्शन करते हैं, जबकि सरल बोंगार्ड प्रश्नों में कठिनाइयों का सामना करते हैं? ये मानक परीक्षण वास्तविक तर्क क्षमताओं के मूल्यांकन में कितने महत्वपूर्ण हैं?" इन सवालों के उठने से यह संकेत मिलता है कि वर्तमान एआई मूल्यांकन प्रणाली को फिर से डिज़ाइन करने की आवश्यकता हो सकती है, ताकि एआई की दृश्य तर्क क्षमताओं को अधिक सटीकता से मापा जा सके।
यह शोध न केवल वर्तमान एआई तकनीक की सीमाओं को दर्शाता है, बल्कि भविष्य में एआई दृश्य क्षमताओं के विकास के लिए दिशा भी प्रदान करता है। यह हमें याद दिलाता है कि एआई की तेज प्रगति पर खुशी मनाने के साथ-साथ, यह भी समझना आवश्यक है कि एआई की मूल संज्ञानात्मक क्षमताओं में अभी भी सुधार की आवश्यकता है।