2 सितंबर को, Tongyi Qianwen ने अपने दूसरे पीढ़ी के विज़ुअल लैंग्वेज मॉडल Qwen2-VL को ओपन-सोर्स करने की घोषणा की, और Alibaba Cloud Bailing प्लेटफॉर्म पर 2B, 7B के दो आकारों और उनके क्वांटाइज्ड संस्करण मॉडल के API को लॉन्च किया, ताकि उपयोगकर्ता सीधे इसका उपयोग कर सकें।

Qwen2-VL मॉडल ने कई क्षेत्रों में प्रदर्शन में व्यापक सुधार किया है। यह विभिन्न रिज़ॉल्यूशनों और विभिन्न अनुपात वाली छवियों को समझ सकता है, और DocVQA, RealWorldQA, MTVQA जैसे बेंचमार्क परीक्षणों में वैश्विक स्तर पर अग्रणी प्रदर्शन स्थापित किया है। इसके अलावा, यह मॉडल 20 मिनट से अधिक लंबे वीडियो को भी समझ सकता है, और वीडियो आधारित प्रश्न-उत्तर, संवाद और सामग्री निर्माण जैसे अनुप्रयोगों का समर्थन करता है। Qwen2-VL में शक्तिशाली विज़ुअल इंटेलिजेंस क्षमताएँ भी हैं, जो इसे मोबाइल फोन और रोबोट को स्वायत्त रूप से संचालित करने, जटिल तर्क और निर्णय लेने में सक्षम बनाती हैं।

यह मॉडल छवि वीडियो में बहु-भाषाई पाठ को समझ सकता है, जिसमें चीनी, अंग्रेजी, अधिकांश यूरोपीय भाषाएँ, जापानी, कोरियाई, अरबी, वियतनामी आदि शामिल हैं। Tongyi Qianwen टीम ने मॉडल की क्षमताओं का मूल्यांकन छह पहलुओं से किया, जिसमें समग्र विश्वविद्यालय प्रश्न, गणितीय क्षमता, दस्तावेज़ तालिका बहु-भाषाई पाठ छवि की समझ, सामान्य दृश्य प्रश्न-उत्तर, वीडियो समझ, और एजेंट की क्षमता शामिल है।

微信截图_20240902141930.png

Qwen2-VL-72B को फ्लैगशिप मॉडल के रूप में पेश किया गया है, जिसने अधिकांश मापदंडों पर सर्वोत्तम परिणाम प्राप्त किए हैं। Qwen2-VL-7B ने अपने आर्थिक पैरामीटर आकार के साथ अत्यधिक प्रतिस्पर्धी प्रदर्शन हासिल किया है, जबकि Qwen2-VL-2B मोबाइल प्लेटफार्मों के लिए समृद्ध अनुप्रयोगों का समर्थन करता है, जिसमें पूर्ण छवि वीडियो बहु-भाषाई समझने की क्षमता है।

मॉडल आर्किटेक्चर के संदर्भ में, Qwen2-VL ने ViT और Qwen2 की श्रृंखला संरचना को जारी रखा है, तीन आकारों के मॉडल में 600M आकार का ViT शामिल है, जो छवि और वीडियो के लिए एकीकृत इनपुट का समर्थन करता है। दृश्य जानकारी की संवेदनशीलता और वीडियो समझने की क्षमता को बढ़ाने के लिए, टीम ने आर्किटेक्चर में अपग्रेड किया है, जिसमें मूल गतिशील रिज़ॉल्यूशन का व्यापक समर्थन और मल्टी-मोडल रोटेशनल पोजिशन एम्बेडिंग (M-ROPE) विधि का उपयोग शामिल है।

Alibaba Cloud Bailing प्लेटफॉर्म Qwen2-VL-72B का API प्रदान करता है, जिसका उपयोग उपयोगकर्ता सीधे कर सकते हैं। साथ ही, Qwen2-VL-2B और Qwen2-VL-7B का ओपन-सोर्स कोड Hugging Face Transformers, vLLM और अन्य तृतीय-पक्ष ढांचों में एकीकृत किया गया है, जिससे डेवलपर्स इन प्लेटफार्मों के माध्यम से मॉडल को डाउनलोड और उपयोग कर सकते हैं।

Alibaba Cloud Bailing प्लेटफॉर्म:

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api 

GitHub:

https://github.com/QwenLM/Qwen2-VL

HuggingFace:

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

मोडा ModelScope:

https://modelscope.cn/organization/qwen?tab=model

मॉडल अनुभव:

https://huggingface.co/spaces/Qwen/Qwen2-VL