बहु-मोडल कार्यों में, दृश्य भाषा मॉडल (VLMs) महत्वपूर्ण भूमिका निभाते हैं, जैसे कि छवि खोज, छवि विवरण और चिकित्सा निदान आदि। इन मॉडलों का लक्ष्य दृश्य डेटा को भाषा डेटा के साथ संरेखित करना है, ताकि जानकारी को अधिक प्रभावी ढंग से संसाधित किया जा सके। हालाँकि, वर्तमान VLMs नकारात्मकता को समझने में अभी भी महत्वपूर्ण चुनौतियों का सामना कर रहे हैं।

image.png

नकारात्मकता कई अनुप्रयोगों में महत्वपूर्ण है, जैसे कि "बिना खिड़की वाले कमरे" और "खिड़की वाले कमरे" के बीच अंतर करना। हालांकि VLMs ने महत्वपूर्ण प्रगति की है, लेकिन नकारात्मक कथनों को संभालने में मौजूदा मॉडलों का प्रदर्शन काफी गिर गया है। यह सीमा विशेष रूप से सुरक्षा निगरानी और स्वास्थ्य देखभाल जैसे उच्च जोखिम वाले क्षेत्रों में महत्वपूर्ण है।

मौजूदा VLMs, जैसे कि CLIP, दृश्य और पाठ प्रतिनिधित्व को संरेखित करने के लिए साझा एम्बेडिंग स्पेस का उपयोग करते हैं। जबकि ये मॉडल क्रॉस-मोडल खोज और छवि विवरण जैसे कार्यों में उत्कृष्ट प्रदर्शन करते हैं, नकारात्मक वाक्यांशों को संभालने में ये असमर्थ दिखते हैं। इस समस्या की जड़ पूर्व-प्रशिक्षण डेटा के पूर्वाग्रह में है, जहां प्रशिक्षण डेटा मुख्य रूप से सकारात्मक उदाहरणों से बना होता है, जिसके परिणामस्वरूप मॉडल नकारात्मकता को सकारात्मकता के समान मानता है। इसलिए, मौजूदा बेंचमार्क, जैसे CREPE और CC-Neg, सरल टेम्पलेट उदाहरणों का उपयोग करते हैं, जो प्राकृतिक भाषा में नकारात्मकता की समृद्धि और गहराई को सही ढंग से नहीं दर्शाते। यह VLMs को जटिल परिस्थितियों में चिकित्सा छवि डेटाबेस में सटीक भाषा समझने के अनुप्रयोगों में बड़ी चुनौतियों का सामना करने के लिए मजबूर करता है।

इन समस्याओं को हल करने के लिए, MIT, Google DeepMind और ऑक्सफोर्ड विश्वविद्यालय के शोधकर्ताओं ने NegBench ढांचे का प्रस्ताव दिया है, जिसका उद्देश्य VLMs की नकारात्मकता को समझने की क्षमता का मूल्यांकन और सुधार करना है। यह ढांचा दो मूलभूत कार्यों का मूल्यांकन करता है: नकारात्मकता के साथ खोज (Retrieval-Neg), जो मॉडल की छवियों को सकारात्मक और नकारात्मक विवरण के आधार पर खोजने की क्षमता का परीक्षण करता है; और बहुविकल्पीय प्रश्न और नकारात्मकता (MCQ-Neg), जो मॉडल के सूक्ष्म समझ में प्रदर्शन का मूल्यांकन करता है। NegBench बड़े पैमाने पर सिंथेटिक डेटा सेट का उपयोग करता है, जैसे CC12M-NegCap और CC12M-NegMCQ, जिसमें लाखों शीर्षक शामिल हैं जो समृद्ध नकारात्मक दृश्यों को कवर करते हैं, ताकि मॉडल के प्रशिक्षण और मूल्यांकन के प्रभाव को बढ़ाया जा सके।

image.png

वास्तविक और सिंथेटिक डेटा सेट को संयोजित करके, NegBench मौजूदा मॉडलों की सीमाओं को प्रभावी ढंग से पार करता है, और मॉडल की प्रदर्शन और सामान्यीकरण क्षमता में महत्वपूर्ण सुधार करता है। सूक्ष्म ट्यूनिंग के बाद, मॉडल ने खोज और समझने के कार्यों में महत्वपूर्ण सुधार दिखाया, विशेष रूप से नकारात्मक प्रश्नों को संभालने में, मॉडल की पुनः कॉल दर में 10% की वृद्धि हुई। बहुविकल्पीय कार्यों में, सटीकता में 40% तक की वृद्धि हुई, जो सूक्ष्म सकारात्मक और नकारात्मक शीर्षकों के बीच भेद करने की क्षमता में महत्वपूर्ण वृद्धि को दर्शाता है।

NegBench का प्रस्ताव, VLMs में नकारात्मकता को समझने के लिए एक महत्वपूर्ण अंतर को भरता है, और अधिक शक्तिशाली कृत्रिम बुद्धिमत्ता प्रणालियों के निर्माण के लिए मार्ग प्रशस्त करता है, विशेष रूप से चिकित्सा निदान और अर्थपूर्ण सामग्री खोज जैसे महत्वपूर्ण क्षेत्रों में इसका महत्वपूर्ण महत्व है।

पत्र: https://arxiv.org/abs/2501.09425

कोड: https://github.com/m1k2zoo/negbench

मुख्य बिंदु:  

🌟 शोधकर्ताओं ने नकारात्मकता को समझने में दृश्य भाषा मॉडलों की कमियों को उजागर किया, जो मुख्य रूप से प्रशिक्षण डेटा के पूर्वाग्रह से उत्पन्न होती हैं।  

📈 NegBench ढांचा समृद्ध नकारात्मक उदाहरणों को पेश करके, खोज और समझने के कार्यों में मॉडल के प्रदर्शन को महत्वपूर्ण रूप से बढ़ाता है।  

🔍 सूक्ष्म ट्यूनिंग के बाद मॉडल नकारात्मक प्रश्नों को संभालने में सटीकता और पुनः कॉल दर में महत्वपूर्ण सुधार दिखाते हैं, जो कृत्रिम बुद्धिमत्ता प्रणालियों की प्रगति को बढ़ावा देता है।