अली क्लाउड ने एक नया विज़ुअल मॉडल Qwen2.5-VL ओपन-सोर्स किया है, जिसमें 3B, 7B और 72B के तीन आकार के संस्करण पेश किए गए हैं।
जिसमें, फ्लैगशिप संस्करण Qwen2.5-VL-72B ने 13 प्रमुख परीक्षणों में विज़ुअल समझ में चैंपियन का खिताब जीता, जो GPT-4o और Claude3.5 से आगे निकल गया। अली क्लाउड का आधिकारिक परिचय है कि नया Qwen2.5-VL छवि सामग्री को अधिक सटीकता से解析 कर सकता है और एक घंटे से अधिक वीडियो समझने का समर्थन करता है। यह मॉडल वीडियो में विशिष्ट घटनाओं की खोज कर सकता है और वीडियो के विभिन्न समय अवधि के मुख्य बिंदुओं का सारांश प्रदान कर सकता है, जिससे उपयोगकर्ताओं को वीडियो में महत्वपूर्ण जानकारी जल्दी और कुशलता से निकालने में मदद मिलती है।
इसके अलावा, Qwen2.5-VL को बिना किसी ट्यूनिंग के एक एआई विज़ुअल एजेंट (Visual Agents) में बदलने की क्षमता है, जो मोबाइल और कंप्यूटर को नियंत्रित कर सकता है, जैसे कि निर्दिष्ट मित्र को शुभकामनाएं भेजना, कंप्यूटर पर फोटो संपादित करना, मोबाइल पर टिकट बुक करना आदि। Qwen2.5-VL केवल सामान्य वस्तुओं जैसे फूल, पक्षी, मछली और कीड़े को पहचानने में ही नहीं, बल्कि छवि में पाठ, चार्ट, आइकन, ग्राफिक्स और लेआउट का विश्लेषण करने में भी सक्षम है। अली क्लाउड ने Qwen2.5-VL की OCR पहचान क्षमता को बढ़ाया है, जिससे विभिन्न परिदृश्यों, भाषाओं और दिशाओं में पाठ पहचान और पाठ स्थानांतरण क्षमता को सशक्त किया गया है।
साथ ही, सूचना निष्कर्षण क्षमता में भी बड़े पैमाने पर वृद्धि की गई है, ताकि बढ़ती हुई योग्यता समीक्षा, वित्तीय व्यवसाय आदि के डिजिटल और बुद्धिमान आवश्यकताओं को पूरा किया जा सके।
मुख्य बिंदु:
🌟 अली क्लाउड ने Qwen2.5-VL को ओपन-सोर्स किया, 3B, 7B और 72B के तीन संस्करण पेश किए।
📈 Qwen2.5-VL-72B ने विज़ुअल समझ परीक्षण में GPT-4o और Claude3.5 को पार किया।
👀 Qwen2.5-VL 1 घंटे से अधिक वीडियो समझने का समर्थन करता है, OCR पहचान क्षमता को बढ़ाता है।