यूएई के मोहम्मद बिन जायद आर्टिफिशियल इंटेलिजेंस यूनिवर्सिटी (MBZUAI) ने हाल ही में LlamaV-o1 नामक एक उन्नत आर्टिफिशियल इंटेलिजेंस मॉडल जारी किया है, जो जटिल पाठ और चित्र तर्क कार्यों को कुशलतापूर्वक हल कर सकता है।

image.png

यह मॉडल नवीनतम पाठ्यक्रम सीखने और उन्नत अनुकूलन तकनीकों जैसे कि बीम सर्च (Beam Search) को संयोजित करके बहु-मोडल आर्टिफिशियल इंटेलिजेंस सिस्टम में एक नया मानक स्थापित करता है, विशेष रूप से चरणबद्ध तर्क की पारदर्शिता और दक्षता के मामले में।

LlamaV-o1 की शोध टीम ने कहा कि तर्क करना जटिल बहु-चरणीय समस्याओं को हल करने की एक मूलभूत क्षमता है, विशेष रूप से उन दृश्य स्थितियों में जहां चरणबद्ध समझ की आवश्यकता होती है। विशेष रूप से समायोजित होने के बाद, यह मॉडल कई क्षेत्रों में उत्कृष्टता प्रदर्शित करता है, जैसे वित्तीय चार्ट और चिकित्सा छवियों का विश्लेषण। इस बीच, शोध टीम ने VRC-Bench भी लॉन्च किया है, जो आर्टिफिशियल इंटेलिजेंस मॉडल की चरणबद्ध तर्क क्षमता का मूल्यांकन करने के लिए एक विशेष मानक परीक्षण है, जिसमें 1000 से अधिक नमूने और 4000 से अधिक तर्क चरण शामिल हैं, जो बहु-मोडल आर्टिफिशियल इंटेलिजेंस अनुसंधान के लिए एक महत्वपूर्ण उपकरण बन गया है।

तर्क के मामले में, LlamaV-o1 ने VRC-Bench मानक परीक्षण में प्रतिस्पर्धियों को पीछे छोड़ दिया है, जैसे Claude3.5Sonnet और Gemini1.5Flash। यह मॉडल न केवल चरणबद्ध व्याख्या प्रदान कर सकता है, बल्कि जटिल दृश्य कार्यों में भी उत्कृष्ट प्रदर्शन करता है। प्रशिक्षण प्रक्रिया के दौरान, शोध टीम ने तर्क कार्यों के लिए अनुकूलित डेटा सेट LLaVA-CoT-100k का उपयोग किया, और परीक्षण परिणामों से पता चलता है कि LlamaV-o1 के तर्क चरण स्कोर 68.93 तक पहुँच गए, जो अन्य ओपन-सोर्स मॉडल से स्पष्ट रूप से अधिक है।

image.png

LlamaV-o1 की पारदर्शिता इसे वित्त, स्वास्थ्य और शिक्षा जैसे क्षेत्रों में महत्वपूर्ण अनुप्रयोग मूल्य प्रदान करती है। उदाहरण के लिए, चिकित्सा छवि विश्लेषण में, रेडियोलॉजिस्ट को यह समझने की आवश्यकता होती है कि एआई कैसे निदान परिणाम निकालता है, इस तरह की पारदर्शी तर्क प्रक्रिया विश्वास बढ़ा सकती है और अनुपालन सुनिश्चित कर सकती है। इसके अलावा, LlamaV-o1 जटिल दृश्य डेटा की व्याख्या में भी उत्कृष्टता प्रदर्शित करता है, विशेष रूप से वित्तीय विश्लेषण के अनुप्रयोग में।

VRC-Bench का विमोचन आर्टिफिशियल इंटेलिजेंस मूल्यांकन मानकों में एक महत्वपूर्ण बदलाव का प्रतीक है, जो तर्क प्रक्रिया के प्रत्येक चरण पर ध्यान केंद्रित करता है, और विज्ञान अनुसंधान और शिक्षा के क्षेत्र में विकास को बढ़ावा देता है। LlamaV-o1 का VRC-Bench में प्रदर्शन इसकी क्षमता को साबित करता है, इसके औसत स्कोर कई मानक परीक्षणों में 67.33% तक पहुँच गया, जो ओपन-सोर्स मॉडल में अग्रणी स्थिति में है।

हालांकि LlamaV-o1 ने बहु-मोडल तर्क में महत्वपूर्ण प्रगति की है, शोधकर्ताओं ने चेतावनी दी है कि इस मॉडल की क्षमता प्रशिक्षण डेटा की गुणवत्ता से सीमित है, और अत्यधिक विशेष या प्रतिकूल संकेतों का सामना करते समय यह खराब प्रदर्शन कर सकता है। फिर भी, LlamaV-o1 की सफलता बहु-मोडल आर्टिफिशियल इंटेलिजेंस सिस्टम की क्षमता को दर्शाती है, और भविष्य में व्याख्यात्मक मॉडल की मांग बढ़ती जाएगी।

परियोजना: https://mbzuai-oryx.github.io/LlamaV-o1/

मुख्य बिंदु:

🌟 LlamaV-o1 एक नया जारी किया गया AI मॉडल है, जो जटिल पाठ और चित्र तर्क कार्यों को हल करने में विशेषज्ञता रखता है।

📊 यह मॉडल VRC-Bench मानक परीक्षण में उत्कृष्ट प्रदर्शन करता है, पारदर्शी चरणबद्ध तर्क प्रक्रिया प्रदान करता है।

🏥 LlamaV-o1 स्वास्थ्य और वित्त जैसे उद्योगों में महत्वपूर्ण अनुप्रयोग मूल्य रखता है, जो विश्वास और अनुपालन बढ़ा सकता है।