नानजिंग विश्वविद्यालय और क्वांगशी अनुसंधान संस्थान के शोधकर्ताओं ने मिलकर दृश्य बड़े मॉडल के लिए एक क्रांति लाई है। उन्होंने जो बिना पर्यवेक्षण वाला पैटर्न - SeVa पेश किया, उसने दृश्य भाषा मॉडल की प्राथमिकता संरेखण समस्या को सफलतापूर्वक हल किया, और पूरे प्रक्रिया में मानव या GPT-4 की भागीदारी की आवश्यकता नहीं थी, जिससे संरेखण की लागत में काफी कमी आई।
इस तकनीक का मुख्य आधार प्राथमिकता डेटा के निर्माण के लिए स्वचालित पाइपलाइन है, जो प्राथमिकता संरेखण से पहले और बाद के मॉडल आउटपुट की तुलना करके स्पष्ट रूप से परिवर्तन दिखा सकता है। शोधकर्ताओं ने पाया कि यहां तक कि छोटे छवि वृद्धि भी VLM को एक ही प्रश्न पर विभिन्न उत्तर उत्पन्न करने के लिए प्रेरित कर सकते हैं। इसलिए, उन्होंने मूल छवि के उत्तर को सकारात्मक नमूना और वृद्धि किए गए छवि के उत्तर को नकारात्मक नमूना के रूप में उपयोग किया, ताकि प्रशिक्षण किया जा सके।
SeVa के प्रयोगात्मक परिणाम ध्यान आकर्षित करने वाले हैं। केवल 8k निर्मित बिना पर्यवेक्षण डेटा का उपयोग करके, VLM की निर्देश पालन क्षमता में उल्लेखनीय सुधार हुआ है, भ्रांतियों में कमी आई है, और मल्टीमॉडल जैसे बेंचमार्क पर स्पष्ट प्रगति हुई है। इससे भी महत्वपूर्ण बात यह है कि यह विधि सरल और सस्ती है, और किसी भी मानव या GPT-4 की लेबलिंग की आवश्यकता नहीं है।
कई बेंचमार्क पर परीक्षण परिणाम दर्शाते हैं कि SeVa दृश्य मॉडल के मानव प्राथमिकता संरेखण में महत्वपूर्ण लाभ प्रदान करता है। विशेष रूप से GPT-4 द्वारा मूल्यांकन किए गए MMVet और LLaVA-बेंच पर, SeVa का प्रदर्शन विशेष रूप से उत्कृष्ट रहा है। इसके अलावा, SeVa लंबे और अधिक विस्तृत उत्तर उत्पन्न कर सकता है, और प्रत्येक उत्तर की स्थिरता अधिक होती है, विभिन्न तापमान के विकारों के प्रति अधिक मजबूत होती है।
यह अध्ययन न केवल दृश्य बड़े मॉडल के संरेखण समस्या के लिए एक प्रभावी समाधान प्रदान करता है, बल्कि AI क्षेत्र के विकास के लिए नई संभावनाएं भी खोलता है। SeVa के ओपन-सोर्स होने के साथ, हम उम्मीद कर सकते हैं कि भविष्य में अधिक शोधकर्ता और डेवलपर्स इस पैटर्न का उपयोग करेंगे, AI तकनीक के आगे के विकास को आगे बढ़ाने के लिए। इस अनंत संभावनाओं के युग में, चलिए हम सभी AI तकनीक से और अधिक आश्चर्य की उम्मीद करते हैं।
प्रोजेक्ट का पता: https://github.com/Kevinz-code/SeVa