हाल ही में, माइक्रोसॉफ्ट रिसर्च और बीजिंग एरोस्पेस यूनिवर्सिटी की शोध टीम ने E5-V नामक एक नया ढांचा पेश किया है, जिसका उद्देश्य मल्टी-मोडल एम्बेडिंग के लिए एक अधिक कुशल समाधान प्रदान करना है। आर्टिफिशियल इंटेलिजेंस की निरंतर प्रगति के साथ, मल्टी-मोडल बड़े भाषा मॉडल (MLLMs) अनुसंधान का एक प्रमुख विषय बन गए हैं, जो एक साथ टेक्स्ट और विजुअल जानकारी को समझने में सक्षम हैं, जिससे वे जटिल डेटा संबंधों को बेहतर तरीके से संभाल सकते हैं। लेकिन मल्टी-मोडल लर्निंग में, विभिन्न सूचनाओं का प्रभावी प्रतिनिधित्व अभी भी एक बड़ा चुनौती है।

image.png

प्रोजेक्ट लिंक: https://github.com/kongds/E5-V/

पूर्व के मॉडलों जैसे CLIP ने भले ही विज़ुअल और लैंग्वेज रिप्रेजेंटेशन को संरेखित करने के लिए तुलना अध्ययन का उपयोग किया हो, लेकिन अधिकांश मॉडल अभी भी चित्र और टेक्स्ट जोड़ों के स्वतंत्र एन्कोडर पर निर्भर करते हैं, जिससे इनपुट एकत्र करने का परिणाम संतोषजनक नहीं होता। इसके अलावा, इन मॉडलों को आमतौर पर बहुत बड़े मल्टी-मोडल प्रशिक्षण डेटा की आवश्यकता होती है, जो महंगा है, और जटिल भाषा समझ और विजुअल-लैंग्वेज कार्यों में प्रदर्शन में कमी आती है।

E5-V ढांचे की नवीनता यह है कि यह एकल-मोडल प्रशिक्षण के तरीके का उपयोग करता है, केवल टेक्स्ट जोड़ों का उपयोग करके प्रशिक्षण करता है, जिससे न केवल प्रशिक्षण लागत में भारी कमी आती है, बल्कि मल्टी-मोडल डेटा एकत्र करने की परेशानी से भी बचा जाता है। प्रशिक्षण प्रक्रिया के दौरान, E5-V ढांचा मल्टी-मोडल इनपुट को शब्दों में बदलकर मोड के बीच के अंतर को समाप्त करता है। यह विधि मॉडल को जटिल कार्यों जैसे कि समग्र चित्र खोजने को अधिक सटीकता से निष्पादित करने में सक्षम बनाती है।

शोध टीम के प्रयोगात्मक परिणामों के अनुसार, E5-V कई कार्यों में उत्कृष्ट प्रदर्शन करता है, जैसे कि टेक्स्ट-इमेज खोज, समग्र चित्र खोज आदि। यह शून्य-नमूना चित्र खोज कार्य में उत्कृष्ट प्रदर्शन करता है, मौजूदा शीर्ष मॉडल CLIP ViT-L को पार करते हुए, Flickr30K और COCO डेटासेट पर Recall@1 में क्रमशः 12.2% और 15.0% की वृद्धि की।

इसके अलावा, समग्र चित्र खोज कार्य में, E5-V वर्तमान में सबसे उन्नत विधि iSEARLE-XL को भी पार करता है, CIRR डेटासेट पर 8.50% और 10.07% की वृद्धि करता है।

image.png

E5-V ढांचा मल्टी-मोडल लर्निंग में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है। एकल-मोडल प्रशिक्षण और संकेत-आधारित प्रतिनिधित्व विधियों का उपयोग करके, E5-V पारंपरिक विधियों की सीमाओं को हल करता है और मल्टी-मोडल एम्बेडिंग के लिए एक अधिक कुशल और प्रभावी समाधान प्रदान करता है।

मुख्य बिंदु:

🌟 E5-V ढांचा एकल-मोडल प्रशिक्षण के माध्यम से मल्टी-मोडल लर्निंग को सरल बनाता है, लागत को कम करता है।  

📈 कई कार्यों में, E5-V मौजूदा शीर्ष मॉडलों से बेहतर प्रदर्शन प्रदर्शित करता है।  

🔑 यह ढांचा भविष्य के मल्टी-मोडल मॉडलों के विकास के लिए नए मानक स्थापित करता है, जिसमें व्यापक अनुप्रयोग क्षमता है।