अलीबाबा के क्लाउड कंप्यूटिंग विभाग ने हाल ही में एक नई AI मॉडल - Qwen2-VL लॉन्च किया है। इस मॉडल की ताकत इसकी दृश्य सामग्री को समझने की क्षमता में है, जिसमें चित्र और वीडियो शामिल हैं, और यह 20 मिनट तक के वीडियो का वास्तविक समय में विश्लेषण कर सकता है, इसे काफी प्रभावशाली कहा जा सकता है।
उत्पाद का लिंक: https://qwenlm.github.io/blog/qwen2-vl/
अन्य प्रमुख उन्नत मॉडलों (जैसे मेटा का Llama3.1, OpenAI का GPT-4o, एंथ्रोपिक का Claude3Haiku और गूगल का Gemini-1.5Flash) की तुलना में, यह तृतीय पक्ष बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन करता है।
अली ने मॉडल की दृश्य क्षमताओं का मूल्यांकन छह प्रमुख आयामों में किया: जटिल कॉलेज स्तर की समस्या समाधान, गणितीय क्षमता, दस्तावेज़ और तालिका समझ, बहुभाषी पाठ छवि समझ, सामान्य दृश्य प्रश्न-उत्तर, वीडियो समझ और एजेंट आधारित इंटरैक्शन। इसका 72B मॉडल अधिकांश मापदंडों पर शीर्ष प्रदर्शन दिखाता है, यहां तक कि GPT-4o और Claude 3.5-Sonnet जैसे बंद स्रोत मॉडलों से भी बेहतर। विशेष रूप से, यह दस्तावेज़ समझ में महत्वपूर्ण लाभ दिखाता है।
विशिष्ट विवरण नीचे चित्र में दिखाया गया है:
शक्तिशाली चित्र और वीडियो विश्लेषण क्षमता
Qwen2-VL को हमारे दृश्य डेटा की समझ और प्रक्रिया क्षमताओं को बढ़ाने के लिए डिज़ाइन किया गया है। यह न केवल स्थिर चित्रों का विश्लेषण कर सकता है बल्कि वीडियो सामग्री का सारांश भी बना सकता है, संबंधित प्रश्नों का उत्तर दे सकता है, और यहां तक कि वास्तविक समय में ऑनलाइन चैट समर्थन प्रदान कर सकता है।
जैसा कि Qwen अनुसंधान टीम ने GitHub पर नए Qwen2-VL श्रृंखला मॉडल के ब्लॉग लेख में लिखा है: "स्थिर छवियों के अलावा, Qwen2-VL ने अपने क्षमताओं को वीडियो सामग्री विश्लेषण में विस्तारित किया है। यह वीडियो सामग्री का सारांश बना सकता है, संबंधित प्रश्नों का उत्तर दे सकता है, और वास्तविक समय में लगातार संवाद प्रवाह बनाए रख सकता है, वास्तविक समय में चैट समर्थन प्रदान कर सकता है। यह सुविधा इसे व्यक्तिगत सहायक के रूप में कार्य करने की अनुमति देती है, सीधे वीडियो सामग्री से निकाली गई अंतर्दृष्टि और जानकारी प्रदान करके उपयोगकर्ताओं की सहायता करती है।
और महत्वपूर्ण बात यह है कि, आधिकारिक तौर पर कहा गया है कि यह 20 मिनट से अधिक वीडियो का विश्लेषण कर सकता है और सामग्री से संबंधित प्रश्नों का उत्तर दे सकता है। इसका मतलब है कि, चाहे वह ऑनलाइन अध्ययन हो, तकनीकी समर्थन हो, या कोई भी ऐसा अवसर जहां वीडियो सामग्री की समझ की आवश्यकता हो, Qwen2-VL एक सहायक के रूप में काम कर सकता है। आधिकारिक तौर पर एक नए मॉडल का उदाहरण भी दिखाया गया है, जिसने निम्नलिखित वीडियो का सही विश्लेषण और विवरण किया है:
इसके अलावा, Qwen2-VL की भाषा क्षमता भी काफी मजबूत है, जो अंग्रेजी, चीनी और कई यूरोपीय भाषाओं, जापानी, कोरियाई, अरबी और वियतनामी जैसी कई भाषाओं का समर्थन करता है, जिससे वैश्विक उपयोगकर्ताओं को आसानी से उपयोग करने में मदद मिलती है। इसके क्षमताओं को बेहतर ढंग से समझने के लिए, अलीबाबा ने अपने GitHub पर संबंधित अनुप्रयोग उदाहरण भी साझा किए हैं।
तीन संस्करण
इस नए मॉडल के तीन विभिन्न पैरामीटर संस्करण हैं, जो हैं Qwen2-VL-72B (720 अरब पैरामीटर), Qwen2-VL-7B और Qwen2-VL-2B। इनमें, 7B और 2B संस्करण ओपन-सोर्स लाइसेंस के तहत उपलब्ध हैं, जो कंपनियों को इन्हें व्यावसायिक उद्देश्यों के लिए स्वतंत्र रूप से उपयोग करने की अनुमति देते हैं।
हालांकि, सबसे बड़ा 72B संस्करण वर्तमान में सार्वजनिक नहीं है, इसे विशेष लाइसेंस और API के माध्यम से प्राप्त किया जा सकता है।
इसके अलावा, Qwen2-VL ने कुछ नई तकनीकी विशेषताएँ पेश की हैं, जैसे Naive Dynamic Resolution समर्थन, जो विभिन्न संकल्प के चित्रों को संभालने की क्षमता रखता है, दृश्य व्याख्या की स्थिरता और सटीकता सुनिश्चित करता है। इसके साथ ही Multimodal Rotary Position Embedding (M-ROPE) प्रणाली, जो पाठ, चित्र और वीडियो के बीच स्थान जानकारी को समकालिक रूप से कैप्चर और एकीकृत करने में सक्षम है।
Qwen2-VL का लॉन्च दृश्य भाषा मॉडल तकनीक में एक और ब्रेकथ्रू का प्रतीक है, अलीबाबा की Qwen टीम ने कहा कि वे इन मॉडलों की क्षमताओं को बढ़ाने और अधिक अनुप्रयोग परिदृश्यों की खोज करने के लिए प्रतिबद्ध रहेंगे।
मुख्य बिंदु:
🌟 ** शक्तिशाली वीडियो विश्लेषण क्षमता **: 20 मिनट से अधिक वीडियो सामग्री का वास्तविक समय में विश्लेषण कर सकता है, संबंधित प्रश्नों का उत्तर दे सकता है!
✅ 🌍 ** बहुभाषी समर्थन **: विभिन्न भाषाओं का समर्थन करता है, जिससे वैश्विक उपयोगकर्ताओं को आसानी से उपयोग करने में मदद मिलती है!
✅ 📦 ** ओपन-सोर्स संस्करण उपलब्ध **: 7B और 2B संस्करण ओपन-सोर्स हैं, कंपनियाँ इन्हें स्वतंत्र रूप से उपयोग कर सकती हैं, नवाचार टीमों के लिए उपयुक्त!