2025 के 21 फरवरी को, अलीबाबा की अंतरराष्ट्रीय टीम ने अपने नए बहु-मोडल बड़े भाषा मॉडल Ovis2 श्रृंखला के आधिकारिक ओपन-सोर्स होने की घोषणा की।

Ovis2 अलीबाबा की अंतरराष्ट्रीय टीम द्वारा प्रस्तुत Ovis श्रृंखला मॉडल का नवीनतम संस्करण है। पिछले 1.6 संस्करण की तुलना में, Ovis2 में डेटा निर्माण और प्रशिक्षण विधियों में महत्वपूर्ण सुधार किए गए हैं। यह न केवल छोटे मॉडल की क्षमता घनत्व को मजबूत करता है, बल्कि निर्देश सूक्ष्म-समायोजन और प्राथमिकता अध्ययन के माध्यम से सोचने की श्रृंखला (CoT) तर्क क्षमता में भी काफी वृद्धि करता है। इसके अलावा, Ovis2 ने वीडियो और बहु-छवि प्रसंस्करण क्षमताओं को पेश किया है और बहु-भाषा क्षमताओं और जटिल परिदृश्यों में OCR क्षमताओं को बढ़ाया है, जिससे मॉडल की व्यावहारिकता में काफी सुधार हुआ है।

इस ओपन-सोर्स Ovis2 श्रृंखला में 1B, 2B, 4B, 8B, 16B और 34B छह संस्करण शामिल हैं, प्रत्येक पैरामीटर संस्करण ने समान आकार के SOTA (State of the Art) स्तर को प्राप्त किया है। इनमें, Ovis2-34B ने प्रतिष्ठित परीक्षण सूची OpenCompass पर उत्कृष्ट प्रदर्शन दिखाया है। बहु-मोडल सामान्य क्षमता सूची में, Ovis2-34B सभी ओपन-सोर्स मॉडलों में दूसरे स्थान पर है, जिसने आधे से कम पैरामीटर आकार में कई 70B ओपन-सोर्स फ्लैगशिप मॉडलों को पार किया है। बहु-मोडल गणितीय तर्क सूची में, Ovis2-34B ने सभी ओपन-सोर्स मॉडलों में पहले स्थान पर है, जबकि अन्य आकार के संस्करणों ने भी उत्कृष्ट तर्क क्षमता का प्रदर्शन किया है। ये उपलब्धियाँ न केवल Ovis आर्किटेक्चर की प्रभावशीलता को साबित करती हैं, बल्कि बहु-मोडल बड़े मॉडल के विकास को आगे बढ़ाने में ओपन-सोर्स समुदाय की विशाल क्षमता को भी प्रदर्शित करती हैं।

微信截图_20250221172215.png

Ovis2 की आर्किटेक्चर डिजाइन ने मोड के बीच एम्बेडिंग रणनीति के अंतर को कुशलता से हल किया है। इसमें दृश्य टोकनाइज़र, दृश्य एम्बेडिंग तालिका और LLM के तीन प्रमुख घटक शामिल हैं। दृश्य टोकनाइज़र इनपुट छवि को कई छवि खंडों में विभाजित करता है, दृश्य ट्रांसफार्मर का उपयोग करके विशेषताएँ निकालता है, और दृश्य शब्दों पर विशेषताओं को मेल करने के लिए दृश्य सिर का उपयोग करता है, जिससे संभाव्य दृश्य टोकन प्राप्त होता है। दृश्य एम्बेडिंग तालिका प्रत्येक दृश्य शब्द के लिए संबंधित एम्बेडिंग वेक्टर को संग्रहीत करती है, जबकि LLM दृश्य एम्बेडिंग वेक्टर और पाठ एम्बेडिंग वेक्टर को संयोजित करके प्रक्रिया करता है, पाठ आउटपुट उत्पन्न करता है, और बहु-मोडल कार्यों को पूरा करता है।

प्रशिक्षण रणनीति के तहत, Ovis2 ने अपनी बहु-मोडल समझ क्षमता को पूरी तरह से सक्रिय करने के लिए चार-चरणीय प्रशिक्षण विधि अपनाई है। पहले चरण में अधिकांश LLM और ViT पैरामीटर को फ्रीज़ किया जाता है, दृश्य मॉड्यूल को प्रशिक्षित किया जाता है, और दृश्य विशेषताओं को एम्बेडिंग में रूपांतरित करना सीखा जाता है। दूसरे चरण में दृश्य मॉड्यूल की विशेषता निकालने की क्षमता को और बढ़ाया जाता है, उच्च-रिज़ॉल्यूशन छवि समझने, बहु-भाषा और OCR क्षमताओं को बढ़ाया जाता है। तीसरे चरण में संवाद स्वरूप में दृश्य कैप्शन डेटा को LLM के संवाद प्रारूप के साथ संरेखित किया जाता है। चौथे चरण में बहु-मोडल निर्देश प्रशिक्षण और प्राथमिकता अध्ययन होता है, जो विभिन्न मोड में उपयोगकर्ता निर्देशों के पालन की क्षमता और आउटपुट गुणवत्ता को और बढ़ाता है।

वीडियो समझने की क्षमता को बढ़ाने के लिए, Ovis2 ने एक अभिनव कुंजी फ्रेम चयन एल्गोरिदम विकसित किया है। यह एल्गोरिदम फ्रेम और पाठ के बीच संबंध, फ्रेम के बीच संयोजन विविधता और फ्रेम की अनुक्रमिकता के आधार पर सबसे उपयोगी वीडियो फ्रेम का चयन करता है। उच्च-आयामी शर्त समानता गणना, डिटरमिनेंट पॉइंट प्रक्रिया (DPP) और मार्कोव निर्णय प्रक्रिया (MDP) के माध्यम से, यह एल्गोरिदम सीमित दृश्य संदर्भ में कुशलता से कुंजी फ्रेम का चयन कर सकता है, जिससे वीडियो समझने की क्षमता में सुधार होता है।

Ovis2 श्रृंखला मॉडल OpenCompass बहु-मोडल परीक्षण सूची में विशेष रूप से उज्ज्वल प्रदर्शन करते हैं। विभिन्न आकार के मॉडल कई बेंचमार्क पर SOTA परिणाम प्राप्त करते हैं। उदाहरण के लिए, Ovis2-34B बहु-मोडल सामान्य क्षमता और गणितीय तर्क सूची में क्रमशः दूसरे और पहले स्थान पर है, जो इसकी मजबूत प्रदर्शन को दर्शाता है। इसके अलावा, Ovis2 ने वीडियो समझने की सूची में भी अग्रणी प्रदर्शन किया है, जो इसके बहु-मोडल कार्यों में फायदे को और साबित करता है।

अलीबाबा की अंतरराष्ट्रीय टीम का कहना है कि ओपन-सोर्स AI तकनीक की प्रगति को बढ़ावा देने की एक महत्वपूर्ण शक्ति है। Ovis2 के शोध परिणामों को सार्वजनिक रूप से साझा करके, टीम वैश्विक डेवलपर्स के साथ मिलकर बहु-मोडल बड़े मॉडल की सीमाओं का अन्वेषण करने की उम्मीद करती है और अधिक नवोन्मेषी अनुप्रयोगों को प्रेरित करती है। वर्तमान में, Ovis2 का कोड GitHub पर ओपन-सोर्स किया गया है, मॉडल Hugging Face और Modelscope प्लेटफार्मों पर उपलब्ध है, और उपयोगकर्ताओं के अनुभव के लिए ऑनलाइन डेमो भी प्रदान किया गया है। संबंधित शोध पत्र भी arXiv पर प्रकाशित किया गया है, ताकि डेवलपर्स और शोधकर्ताओं को संदर्भ के लिए उपलब्ध हो।

कोड: https://github.com/AIDC-AI/Ovis

मॉडल (Huggingface): https://huggingface.co/AIDC-AI/Ovis2-34B

मॉडल (Modelscope): https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45

डेमो: https://huggingface.co/spaces/AIDC-AI/Ovis2-16B

arXiv: https://arxiv.org/abs/2405.20797