नानजिंग विश्वविद्यालय और क्वांगशी अनुसंधान संस्थान के शोधकर्ताओं ने मिलकर दृश्य बड़े मॉडल के लिए एक क्रांति लाई है। उन्होंने जो बिना पर्यवेक्षण वाला पैटर्न - SeVa पेश किया, उसने दृश्य भाषा मॉडल की प्राथमिकता संरेखण समस्या को सफलतापूर्वक हल किया, और पूरे प्रक्रिया में मानव या GPT-4 की भागीदारी की आवश्यकता नहीं थी, जिससे संरेखण की लागत में काफी कमी आई।

इस तकनीक का मुख्य आधार प्राथमिकता डेटा के निर्माण के लिए स्वचालित पाइपलाइन है, जो प्राथमिकता संरेखण से पहले और बाद के मॉडल आउटपुट की तुलना करके स्पष्ट रूप से परिवर्तन दिखा सकता है। शोधकर्ताओं ने पाया कि यहां तक कि छोटे छवि वृद्धि भी VLM को एक ही प्रश्न पर विभिन्न उत्तर उत्पन्न करने के लिए प्रेरित कर सकते हैं। इसलिए, उन्होंने मूल छवि के उत्तर को सकारात्मक नमूना और वृद्धि किए गए छवि के उत्तर को नकारात्मक नमूना के रूप में उपयोग किया, ताकि प्रशिक्षण किया जा सके।

image.png

SeVa के प्रयोगात्मक परिणाम ध्यान आकर्षित करने वाले हैं। केवल 8k निर्मित बिना पर्यवेक्षण डेटा का उपयोग करके, VLM की निर्देश पालन क्षमता में उल्लेखनीय सुधार हुआ है, भ्रांतियों में कमी आई है, और मल्टीमॉडल जैसे बेंचमार्क पर स्पष्ट प्रगति हुई है। इससे भी महत्वपूर्ण बात यह है कि यह विधि सरल और सस्ती है, और किसी भी मानव या GPT-4 की लेबलिंग की आवश्यकता नहीं है।

कई बेंचमार्क पर परीक्षण परिणाम दर्शाते हैं कि SeVa दृश्य मॉडल के मानव प्राथमिकता संरेखण में महत्वपूर्ण लाभ प्रदान करता है। विशेष रूप से GPT-4 द्वारा मूल्यांकन किए गए MMVet और LLaVA-बेंच पर, SeVa का प्रदर्शन विशेष रूप से उत्कृष्ट रहा है। इसके अलावा, SeVa लंबे और अधिक विस्तृत उत्तर उत्पन्न कर सकता है, और प्रत्येक उत्तर की स्थिरता अधिक होती है, विभिन्न तापमान के विकारों के प्रति अधिक मजबूत होती है।

यह अध्ययन न केवल दृश्य बड़े मॉडल के संरेखण समस्या के लिए एक प्रभावी समाधान प्रदान करता है, बल्कि AI क्षेत्र के विकास के लिए नई संभावनाएं भी खोलता है। SeVa के ओपन-सोर्स होने के साथ, हम उम्मीद कर सकते हैं कि भविष्य में अधिक शोधकर्ता और डेवलपर्स इस पैटर्न का उपयोग करेंगे, AI तकनीक के आगे के विकास को आगे बढ़ाने के लिए। इस अनंत संभावनाओं के युग में, चलिए हम सभी AI तकनीक से और अधिक आश्चर्य की उम्मीद करते हैं।

प्रोजेक्ट का पता: https://github.com/Kevinz-code/SeVa