ग्लिंट डीप ने RWKV-CLIP मॉडल को ओपन-सोर्स किया है, जो ट्रांसफार्मर और आरएनएन के फायदों को मिलाकर एक दृश्य भाषा प्रतिनिधित्व सीखने वाला है। यह मॉडल चित्र-शब्द जोड़ी से विस्तारित डेटा सेट का उपयोग करते हुए चित्र और भाषा कार्यों के प्रदर्शन में महत्वपूर्ण सुधार लाता है।
शोर डेटा की समस्या को हल करने और डेटा गुणवत्ता को बढ़ाने के लिए, शोध टीम ने एक विविधता से भरा वर्णन जनरेशन ढांचा पेश किया है, जो बड़े भाषा मॉडल (LLM) का उपयोग करके नेटवर्क आधारित पाठ, सिंथेटिक सबटाइटल और डिटेक्शन लेबल से सामग्री का संश्लेषण और परिष्कृत करता है।
RWKV-CLIP मॉडल एक डुअल-टॉवर आर्किटेक्चर अपनाता है, जो ट्रांसफार्मर की प्रभावी समानांतर प्रशिक्षण और आरएनएन की कुशल निष्पादन को मिलाता है। मॉडल को कई स्पैटियल मिक्सिंग और चैनल मिक्सिंग मॉड्यूल के साथ स्टैक किया गया है, जो इन मॉड्यूल के माध्यम से इनपुट चित्र और पाठ की गहन प्रोसेसिंग को सक्षम बनाता है। स्पैटियल मिक्सिंग चरण में, मॉडल ध्यान तंत्र का उपयोग करके वैश्विक रैखिक जटिलता गणना करता है, जो चैनल स्तर पर विशेषताओं के इंटरएक्शन को सुदृढ़ करता है। चैनल मिक्सिंग चरण आगे विशेषता प्रतिनिधित्व को परिष्कृत करता है। RWKV-CLIP मॉडल इनपुट संवर्धन के संदर्भ में, मूल पाठ, सिंथेटिक सबटाइटल या जनरेटेड विवरण को टेक्स्ट इनपुट के रूप में यादृच्छिक रूप से चुनकर मॉडल की स्थिरता को बढ़ाता है।
प्रायोगिक परिणामों से पता चलता है कि RWKV-CLIP ने कई डाउनस्ट्रीम कार्यों में अत्याधुनिक प्रदर्शन प्राप्त किया है, जिसमें रैखिक पता लगाने, जीरो-शॉट वर्गीकरण और जीरो-शॉट चित्र पाठ खोज शामिल हैं। बेसलाइन मॉडल की तुलना में, RWKV-CLIP ने प्रदर्शन में महत्वपूर्ण सुधार किया है।
RWKV-CLIP मॉडल का क्रॉस-मोडल विश्लेषण दिखाता है कि इसके द्वारा सीखे गए प्रतिनिधित्व एक ही मोड में अधिक स्पष्ट पहचान क्षमता दिखाते हैं, और चित्र-शब्द मोड स्पेस में निकटता दर्शाते हैं, जो क्रॉस-मोडल संरेखण प्रदर्शन को अधिक उत्कृष्ट बनाता है।
मॉडल पता: https://wisemodel.cn/models/deepglint/RWKV-CLIP