कृत्रिम बुद्धिमत्ता के तेजी से विकास के साथ, दृश्य और भाषा क्षमताओं का एकीकरण दृश्य भाषा मॉडलों (VLMs) में महत्वपूर्ण प्रगति को जन्म देता है। ये मॉडल दृश्य और पाठ डेटा को एक साथ संसाधित और समझने के लिए डिज़ाइन किए गए हैं, जो छवि वर्णन, दृश्य प्रश्न-उत्तर, ऑप्टिकल कैरेक्टर रिकग्निशन और मल्टी-मोडल सामग्री विश्लेषण जैसे विभिन्न परिदृश्यों में व्यापक रूप से उपयोग किए जाते हैं।

VLMs ने स्वायत्त प्रणालियों के विकास, मानव-मशीन इंटरैक्शन को बढ़ाने और कुशल दस्तावेज़ प्रसंस्करण उपकरणों में महत्वपूर्ण भूमिका निभाई है, सफलतापूर्वक इन दोनों डेटा मोड के बीच की खाई को पाट दिया है। हालाँकि, उच्च रिज़ॉल्यूशन दृश्य डेटा और विविध पाठ इनपुट के प्रसंस्करण में कई चुनौतियाँ अभी भी बनी हुई हैं।

वर्तमान शोध ने इन सीमाओं को आंशिक रूप से हल किया है, लेकिन अधिकांश मॉडलों द्वारा उपयोग किए जाने वाले स्थिर दृश्य एनकोडर उच्च रिज़ॉल्यूशन और परिवर्तनीय इनपुट आकारों पर अनुकूलन की कमी दिखाते हैं। साथ ही, पूर्व-प्रशिक्षित भाषा मॉडलों और दृश्य एनकोडरों का संयोजन अक्सर प्रभावशीलता में कमी लाता है, क्योंकि इन्हें मल्टी-मोडल कार्यों के लिए अनुकूलित नहीं किया गया है। कुछ मॉडलों ने जटिलता को प्रबंधित करने के लिए स्पर्शनीय गणना तकनीकों को शामिल किया है, लेकिन विभिन्न डेटा सेटों पर सटीकता अभी भी अपर्याप्त है। इसके अलावा, मौजूदा मॉडलों के प्रशिक्षण डेटा सेट आमतौर पर विविधता और कार्य विशिष्टता की कमी दिखाते हैं, जो उनके प्रदर्शन को और सीमित करता है। उदाहरण के लिए, कई मॉडल चार्ट की व्याख्या या घनत्व दस्तावेज़ विश्लेषण जैसे पेशेवर कार्यों में अच्छी तरह से प्रदर्शन नहीं करते हैं।

हाल ही में, DeepSeek-AI ने पूरी तरह से नए DeepSeek-VL2 श्रृंखला के ओपन-सोर्स हाइब्रिड एक्सपर्ट (MoE) दृश्य भाषा मॉडल पेश किए हैं। यह श्रृंखला दृश्य एनकोडिंग के गतिशील स्लाइसिंग, मल्टी-हेड संभावित ध्यान तंत्र और DeepSeek-MoE ढांचे सहित अत्याधुनिक नवाचार तकनीकों को जोड़ती है।

image.png

DeepSeek-VL2 श्रृंखला तीन विभिन्न पैरामीटर कॉन्फ़िगरेशन प्रदान करती है:

- DeepSeek-VL2-Tiny: 3.37 बिलियन पैरामीटर (1 बिलियन सक्रिय पैरामीटर)

- DeepSeek-VL2-Small: 16.1 बिलियन पैरामीटर (2.8 बिलियन सक्रिय पैरामीटर)

- DeepSeek-VL2: 27.5 बिलियन पैरामीटर (4.5 बिलियन सक्रिय पैरामीटर)

यह स्केलेबिलिटी विभिन्न अनुप्रयोग आवश्यकताओं और गणना बजट की आवश्यकताओं के अनुकूलन की क्षमता सुनिश्चित करती है।

DeepSeek-VL2 की आर्किटेक्चर प्रदर्शन को अनुकूलित करने के लिए डिज़ाइन की गई है, जबकि गणना की आवश्यकताओं को कम करती है। गतिशील स्लाइसिंग विधि उच्च रिज़ॉल्यूशन छवियों की प्रसंस्करण को महत्वपूर्ण विवरण खोए बिना सुनिश्चित करती है, जो दस्तावेज़ विश्लेषण और दृश्य स्थान निर्धारण कार्यों के लिए बहुत उपयुक्त है। इसके अलावा, मल्टी-हेड संभावित ध्यान तंत्र मॉडल को बड़ी मात्रा में पाठ डेटा को कुशलतापूर्वक संसाधित करने में सक्षम बनाता है, जो आमतौर पर घने भाषा इनपुट के प्रसंस्करण से संबंधित गणना के बोझ को कम करता है। DeepSeek-VL2 का प्रशिक्षण विविध मल्टी-मोडल डेटा सेटों को कवर करता है, जिससे यह ऑप्टिकल कैरेक्टर रिकग्निशन, दृश्य प्रश्न-उत्तर और चार्ट व्याख्या जैसे विभिन्न कार्यों में उत्कृष्ट प्रदर्शन करता है।

image.png

प्रदर्शन परीक्षण के अनुसार, Small कॉन्फ़िगरेशन ऑप्टिकल कैरेक्टर रिकग्निशन कार्य में 92.3% सटीकता प्राप्त करता है, जो मौजूदा मॉडलों को महत्वपूर्ण रूप से पार करता है। दृश्य स्थान निर्धारण बेंचमार्क परीक्षण में, इस मॉडल ने पूर्ववर्ती उत्पाद की तुलना में 15% सटीकता में सुधार किया है।

साथ ही, DeepSeek-VL2 ने अत्याधुनिक सटीकता को बनाए रखते हुए, गणना संसाधनों की आवश्यकता को 30% कम कर दिया है। ये परिणाम इस मॉडल की उच्च रिज़ॉल्यूशन छवियों और पाठ प्रसंस्करण में श्रेष्ठता को प्रदर्शित करते हैं।

परियोजना का प्रवेश द्वार: https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab

महत्वपूर्ण बिंदु:

🌟 DeepSeek-VL2 श्रृंखला विभिन्न अनुप्रयोग आवश्यकताओं के अनुकूल विभिन्न पैरामीटर कॉन्फ़िगरेशन प्रदान करती है।  

💡 गतिशील स्लाइसिंग तकनीक उच्च रिज़ॉल्यूशन छवियों के प्रसंस्करण की दक्षता को बढ़ाती है, जो जटिल दस्तावेज़ विश्लेषण के लिए उपयुक्त है।  

🔍 मॉडल ऑप्टिकल कैरेक्टर रिकग्निशन और दृश्य स्थान निर्धारण कार्यों में उत्कृष्ट प्रदर्शन करता है, सटीकता में महत्वपूर्ण वृद्धि करता है।