अली क्लाउड ने एक नया विज़ुअल मॉडल Qwen2.5-VL ओपन-सोर्स किया है, जिसमें 3B, 7B और 72B के तीन आकार के संस्करण पेश किए गए हैं।

जिसमें, फ्लैगशिप संस्करण Qwen2.5-VL-72B ने 13 प्रमुख परीक्षणों में विज़ुअल समझ में चैंपियन का खिताब जीता, जो GPT-4o और Claude3.5 से आगे निकल गया। अली क्लाउड का आधिकारिक परिचय है कि नया Qwen2.5-VL छवि सामग्री को अधिक सटीकता से解析 कर सकता है और एक घंटे से अधिक वीडियो समझने का समर्थन करता है। यह मॉडल वीडियो में विशिष्ट घटनाओं की खोज कर सकता है और वीडियो के विभिन्न समय अवधि के मुख्य बिंदुओं का सारांश प्रदान कर सकता है, जिससे उपयोगकर्ताओं को वीडियो में महत्वपूर्ण जानकारी जल्दी और कुशलता से निकालने में मदद मिलती है।

अली क्लाउड Qwen2.5-VL ओपन-सोर्स: सबसे मजबूत विज़ुअल एआई GPT-4o को पार करता है

इसके अलावा, Qwen2.5-VL को बिना किसी ट्यूनिंग के एक एआई विज़ुअल एजेंट (Visual Agents) में बदलने की क्षमता है, जो मोबाइल और कंप्यूटर को नियंत्रित कर सकता है, जैसे कि निर्दिष्ट मित्र को शुभकामनाएं भेजना, कंप्यूटर पर फोटो संपादित करना, मोबाइल पर टिकट बुक करना आदि। Qwen2.5-VL केवल सामान्य वस्तुओं जैसे फूल, पक्षी, मछली और कीड़े को पहचानने में ही नहीं, बल्कि छवि में पाठ, चार्ट, आइकन, ग्राफिक्स और लेआउट का विश्लेषण करने में भी सक्षम है। अली क्लाउड ने Qwen2.5-VL की OCR पहचान क्षमता को बढ़ाया है, जिससे विभिन्न परिदृश्यों, भाषाओं और दिशाओं में पाठ पहचान और पाठ स्थानांतरण क्षमता को सशक्त किया गया है।

अली क्लाउड Qwen2.5-VL ओपन-सोर्स: सबसे मजबूत विज़ुअल एआई GPT-4o को पार करता है

साथ ही, सूचना निष्कर्षण क्षमता में भी बड़े पैमाने पर वृद्धि की गई है, ताकि बढ़ती हुई योग्यता समीक्षा, वित्तीय व्यवसाय आदि के डिजिटल और बुद्धिमान आवश्यकताओं को पूरा किया जा सके।

मुख्य बिंदु:

 🌟 अली क्लाउड ने Qwen2.5-VL को ओपन-सोर्स किया, 3B, 7B और 72B के तीन संस्करण पेश किए। 

📈 Qwen2.5-VL-72B ने विज़ुअल समझ परीक्षण में GPT-4o और Claude3.5 को पार किया। 

👀 Qwen2.5-VL 1 घंटे से अधिक वीडियो समझने का समर्थन करता है, OCR पहचान क्षमता को बढ़ाता है।