आज के तकनीकी क्षेत्र में, CLIP (Contrastive Language-Image Pre-training) एक महत्वपूर्ण बहु-आधार मॉडल है। यह बड़े पैमाने पर चित्र - पाठ जोड़ों पर विपरीत अध्ययन हानि का उपयोग करके दृश्य संकेतों और पाठ संकेतों को एक साझा विशेषता स्थान में संयोजित करता है।
CLIP एक खोजकर्ता के रूप में, शून्य-शॉट वर्गीकरण, पहचान, विभाजन और चित्र - पाठ खोज जैसे कई कार्यों का समर्थन कर सकता है। साथ ही, एक विशेषता निकालने वाले के रूप में, यह लगभग सभी क्रॉस-मोडल प्रतिनिधित्व कार्यों में प्रमुखता रखता है, जैसे चित्र समझना, वीडियो समझना और पाठ से चित्र या वीडियो उत्पन्न करना। CLIP की ताकत यह है कि यह चित्रों को प्राकृतिक भाषा के साथ जोड़ सकता है और मानव ज्ञान को पकड़ सकता है, जो इसके बड़े पैमाने पर नेटवर्क डेटा पर प्रशिक्षण के कारण है, जिसमें विस्तृत पाठ वर्णन शामिल हैं।
हालांकि, CLIP लंबे और जटिल पाठ विवरणों को संभालने में कुछ सीमाएँ हैं। इस समस्या को हल करने के लिए, माइक्रोसॉफ्ट और तोंजि विश्वविद्यालय के शोधकर्ताओं ने LLM2CLIP विधि पेश की है, जिसका उद्देश्य बड़े भाषा मॉडल (LLMs) को एकीकृत करके दृश्य प्रतिनिधित्व अध्ययन को बढ़ाना है। यह विधि साहसिकता से मौजूदा CLIP पाठ एन्कोडर को बदलती है, LLMs के समृद्ध ज्ञान का उपयोग करके CLIP के दृश्य एन्कोडर की प्रदर्शन को बढ़ाने के लिए। शोध से पता चला है कि CLIP में सीधे LLMs को एकीकृत करने से प्रदर्शन में कमी आती है, इसलिए इस चुनौती का समाधान आवश्यक है।
LLM2CLIP विधि "शीर्षक विपरीत सूक्ष्म समायोजन" तकनीक को पेश करके, LLM की छवि शीर्षकों को अलग करने की क्षमता को काफी बढ़ाती है, जिससे प्रदर्शन में महत्वपूर्ण सुधार होता है।
शोधकर्ताओं ने छोटे CC-3M, मध्यम CC-3M और CC-12M, और बड़े CC-3M, CC-12M, YFCC-15M और Recaption-1B सहित विभिन्न आकार के डेटा सेट का उपयोग करके सूक्ष्म समायोजन प्रयोग किए। परिणाम बताते हैं कि LLM2CLIP द्वारा प्रशिक्षित मॉडल चित्र से पाठ और पाठ से चित्र खोज कार्यों में पारंपरिक CLIP और EVA मॉडल से बेहतर प्रदर्शन करते हैं।
Llava1.5 जैसे मॉडलों के साथ मिलकर बहु-आधार प्रशिक्षण के माध्यम से, LLM2CLIP लगभग सभी बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन दिखाता है, विशेष रूप से लंबे और छोटे पाठ खोज कार्यों को संभालते समय, पिछले EVA02 मॉडल के प्रदर्शन को 16.5% बढ़ा देता है। यह अभिनव विधि न केवल CLIP को केवल अंग्रेजी डेटा संभालने से एक शक्तिशाली क्रॉस-भाषा मॉडल में बदलती है, बल्कि CLIP प्रशिक्षण के भविष्य के अनुसंधान के लिए आधार भी तैयार करती है।
मॉडल: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
कोड: https://github.com/microsoft/LLM2CLIP/
पेपर: https://arxiv.org/abs/2411.04997
मुख्य बिंदु:
🌟 LLM2CLIP माइक्रोसॉफ्ट और तोंजि विश्वविद्यालय के सहयोग से प्रस्तुत की गई एक अभिनव विधि है, जिसका उद्देश्य CLIP के पाठ एन्कोडर को बदलकर इसके दृश्य एन्कोडर के प्रदर्शन को बढ़ाना है।
📈 यह विधि "शीर्षक विपरीत सूक्ष्म समायोजन" तकनीक के माध्यम से मॉडल की चित्र और पाठ मिलान क्षमता को महत्वपूर्ण रूप से बढ़ाती है, जो मौजूदा अत्याधुनिक मॉडलों को पार करती है।
🌐 LLM2CLIP के विभिन्न डेटा सेट पर प्रयोगों से पता चलता है कि यह लंबे और छोटे पाठ खोज कार्यों में पारंपरिक मॉडलों की तुलना में बेहतर प्रदर्शन करता है, जिससे क्रॉस-भाषा मॉडल के विकास को बढ़ावा मिलता है।