बहुविधा कृत्रिम बुद्धिमत्ता के क्षेत्र में, झीयुआन अनुसंधान संस्थान ने कई विश्वविद्यालयों के साथ मिलकर एक नया बहुविधा वेक्टर मॉडल BGE-VL लॉन्च किया है, जो बहुविधा पुनर्प्राप्ति तकनीक में एक बड़ी सफलता का प्रतीक है। लॉन्च होने के बाद से, BGE श्रृंखला के मॉडल को व्यापक प्रशंसा मिली है, और BGE-VL के लॉन्च ने इस पारिस्थितिकी तंत्र को और समृद्ध किया है। यह मॉडल चित्र-पाठ पुनर्प्राप्ति, संयोजन छवि पुनर्प्राप्ति और अन्य कई महत्वपूर्ण कार्यों में उत्कृष्ट प्रदर्शन करता है, जो इसके उत्कृष्ट प्रदर्शन को दर्शाता है।

BGE-VL की सफलता इसके पीछे के MegaPairs डेटा संश्लेषण तकनीक के कारण है। यह नवीन विधि मौजूदा बड़े पैमाने पर चित्र-पाठ डेटा का उपयोग करके उच्च-गुणवत्ता वाले बहुविधा त्रिगुण डेटा को स्वचालित रूप से उत्पन्न करती है, जिससे डेटा की स्केलेबिलिटी और गुणवत्ता में उल्लेखनीय वृद्धि होती है। MegaPairs बहुत कम लागत पर विविध डेटासेट उत्पन्न कर सकता है, जिसमें 26 मिलियन से अधिक नमूने शामिल हैं, जो बहुविधा पुनर्प्राप्ति मॉडल के प्रशिक्षण के लिए एक मजबूत आधार प्रदान करते हैं। इस तकनीक ने BGE-VL को कई प्रमुख बहुविधा पुनर्प्राप्ति बेंचमार्क में अग्रणी प्रदर्शन प्राप्त करने में मदद की है।

image.png

आजकल बहुविधा पुनर्प्राप्ति का महत्व बढ़ता जा रहा है, और उपयोगकर्ताओं की सूचना प्राप्ति की आवश्यकताएँ अधिक विविध होती जा रही हैं। पिछले पुनर्प्राप्ति मॉडल ज्यादातर एकल चित्र-पाठ जोड़ियों पर प्रशिक्षित होते थे, और जटिल संयोजन इनपुट को प्रभावी ढंग से संभाल नहीं सकते थे। लेकिन BGE-VL ने MegaPairs डेटा को शामिल करके इस सीमा को पार कर लिया है, जिससे मॉडल बहुविधा क्वेरी को अधिक व्यापक रूप से समझ और संसाधित कर सकता है।

झीयुआन टीम ने कई कार्यों के प्रदर्शन मूल्यांकन में पाया कि BGE-VL मॉडल का Massive Multimodal Embedding Benchmark (MMEB) पर शून्य-शॉट प्रदर्शन उत्कृष्ट है। हालाँकि MegaPairs में MMEB के अधिकांश कार्य शामिल नहीं हैं, फिर भी इसकी कार्य सामान्यीकरण क्षमता उत्साहजनक है। इसके अलावा, संयोजन छवि पुनर्प्राप्ति के मूल्यांकन में, BGE-VL ने भी उत्कृष्ट प्रदर्शन किया है, और Google के MagicLens और NVIDIA के MM-Embed जैसे कई प्रसिद्ध मॉडलों को काफी पीछे छोड़ दिया है।

image.png

भविष्य में, झीयुआन अनुसंधान संस्थान MegaPairs तकनीक को गहराई से विकसित करने, अधिक समृद्ध बहुविधा पुनर्प्राप्ति परिदृश्यों को जोड़ने और उपयोगकर्ताओं को अधिक सटीक सूचना सेवाएँ प्रदान करने के लिए अधिक व्यापक और कुशल बहुविधा पुनर्प्राप्ति उपकरण बनाने पर ध्यान केंद्रित करने की योजना बना रहा है। बहुविधा तकनीक के विकास के साथ, BGE-VL के लॉन्च से संबंधित क्षेत्रों में आगे की खोज और नवाचार को निस्संदेह बढ़ावा मिलेगा।

शोध पत्र का पता:https://arxiv.org/abs/2412.14475

परियोजना का मुख्य पृष्ठ:https://github.com/VectorSpaceLab/MegaPairs

मॉडल का पता:https://huggingface.co/BAAI/BGE-VL-MLLM-S1