अलीबाबा ने हाल ही में QVQ-72B नामक एक नया मल्टीमॉडल तर्क मॉडल लॉन्च किया है, जो Qwen2-VL-72B पर आधारित है। यह शक्तिशाली भाषा और दृश्य क्षमताओं को एकीकृत करता है, जो अधिक जटिल तर्क और विश्लेषण कार्यों को संभाल सकता है, और यह अलीबाबा की मल्टीमॉडल एआई क्षेत्र में एक नई सफलता को दर्शाता है।

QVQ-72B ने दृश्य तर्क, गणित और विज्ञान के प्रश्नों में उल्लेखनीय सुधार दिखाया है, विशेष रूप से बहु-चरण तर्क कार्यों में। इसका मतलब है कि यह मॉडल न केवल पाठ्य जानकारी को समझ सकता है, बल्कि छवि जानकारी को भी समझ सकता है, और जटिल समस्याओं को हल करने के लिए बहु-चरण तर्क का उपयोग कर सकता है, जो पारंपरिक एआई मॉडल के लिए कठिन है।

image.png

इस मॉडल की एक बड़ी विशेषता यह है कि यह भौतिकी के प्रश्नों में पाठ और दृश्य जानकारी को जोड़कर कारणात्मक संबंधों को खींचने की क्षमता रखता है। उदाहरण के लिए, यह भौतिक दृश्य के चित्र और संबंधित पाठ्य वर्णन के आधार पर घटनाओं के कारणात्मक संबंधों का अनुमान लगा सकता है, जो गहरी समझ की क्षमता को दर्शाता है।

गणितीय तर्क कार्यों (जैसे बीजगणित, कलन) में, QVQ-72B ने चरणबद्ध तर्क के माध्यम से त्रुटियों की दर को उल्लेखनीय रूप से कम किया है। इसका मतलब है कि यह मॉडल न केवल सरल गणनाएँ कर सकता है, बल्कि जटिल गणितीय तर्क भी कर सकता है और स्पष्ट समाधान चरण प्रदान कर सकता है, जो जटिल गणितीय समस्याओं को हल करने के लिए एक नया उपकरण प्रदान करता है।

image.png

इसके अलावा, QVQ-72B तकनीकी रिपोर्ट और जटिल चार्ट विश्लेषण में महत्वपूर्ण जानकारी को निकालने की सटीकता और दक्षता में भी उच्च है। यह जटिल दस्तावेजों और चार्ट से तेजी से और सटीकता से महत्वपूर्ण जानकारी निकाल सकता है, जिससे शोधकर्ताओं, विश्लेषकों और अन्य पेशेवरों को एक मजबूत सहायक उपकरण प्रदान होता है।

छवि पहचान के मामले में, QVQ-72B छवि में विवरणों को सटीक रूप से पहचानने में सक्षम है, जैसे वस्तुओं का स्थान, रंग, स्थानिक संबंध, और जटिल परिदृश्य। इसका मतलब है कि यह मॉडल स्मार्ट निगरानी, स्वचालित ड्राइविंग जैसे व्यापक परिदृश्यों में लागू किया जा सकता है।

संक्षेप में, अलीबाबा द्वारा लॉन्च किया गया QVQ-72B मल्टीमॉडल तर्क मॉडल, अपनी शक्तिशाली दृश्य, भाषा और तर्क क्षमताओं के साथ, जटिल समस्याओं को हल करने के लिए नए विचार और उपकरण प्रदान करता है। इसका आगमन निश्चित रूप से विभिन्न क्षेत्रों में कृत्रिम बुद्धिमत्ता के अनुप्रयोग को बढ़ावा देगा और विभिन्न उद्योगों के स्मार्ट अपग्रेड में नई ऊर्जा का संचार करेगा।

ऑनलाइन डेमो:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

विस्तृत जानकारी:https://qwenlm.github.io/blog/qvq-72b-preview/