Qwen2-VL-72B

नवीनतम दृश्य भाषा मॉडल, जो बहुभाषी और बहु-मोडल समझ का समर्थन करता है

सामान्य उत्पादछविदृश्य समझवीडियो प्रश्नोत्तर
Qwen2-VL-72B, Qwen-VL मॉडल का नवीनतम पुनरावृत्ति है, जो लगभग एक वर्ष के नवाचारों का प्रतिनिधित्व करता है। यह मॉडल MathVista, DocVQA, RealWorldQA, MTVQA आदि सहित दृश्य समझ के मानक परीक्षणों में अत्याधुनिक प्रदर्शन प्राप्त करता है। यह 20 मिनट से अधिक लंबे वीडियो को समझ सकता है और मोबाइल फोन, रोबोट आदि उपकरणों में एकीकृत किया जा सकता है, जो दृश्य वातावरण और पाठ निर्देशों के आधार पर स्वचालित संचालन करता है। अंग्रेजी और चीनी के अलावा, Qwen2-VL अब अधिकांश यूरोपीय भाषाओं, जापानी, कोरियाई, अरबी, वियतनामी आदि सहित छवि में विभिन्न भाषाओं के पाठ की समझ का समर्थन करता है। मॉडल आर्किटेक्चर के अद्यतनों में Naive Dynamic Resolution और Multimodal Rotary Position Embedding (M-ROPE) शामिल हैं, जो इसकी बहु-मोडल प्रसंस्करण क्षमता को बढ़ाते हैं।
वेबसाइट खोलें

Qwen2-VL-72B नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

29742941

बाउंस दर

44.20%

प्रति विज़िट औसत पृष्ठ

5.9

औसत विज़िट अवधि

00:04:44

Qwen2-VL-72B विज़िट प्रवृत्ति

Qwen2-VL-72B विज़िट भौगोलिक वितरण

Qwen2-VL-72B ट्रैफ़िक स्रोत

Qwen2-VL-72B विकल्प