हाल ही में, पेकिंग विश्वविद्यालय और अन्य शोध टीमों ने एक बहु-मोडल ओपन-सोर्स मॉडल, LLaVA-o1, जारी करने की घोषणा की है, जिसे कहा जा रहा है कि यह पहला ऐसा दृश्य भाषा मॉडल है जो स्वायत्त, प्रणालीगत तर्क करने में सक्षम है, जो GPT-o1 के बराबर है।
इस मॉडल ने छह चुनौतीपूर्ण बहु-मोडल मानक परीक्षणों में उत्कृष्ट प्रदर्शन किया है, और इसके 11B पैरामीटर संस्करण ने अन्य प्रतिस्पर्धियों जैसे Gemini-1.5-pro, GPT-4o-mini और Llama-3.2-90B-Vision-Instruct को पार कर लिया है।
LLaVA-o1 Llama-3.2-Vision मॉडल पर आधारित है, और "धीमी सोच" तर्क तंत्र का उपयोग करता है, जो अधिक जटिल तर्क प्रक्रियाओं को स्वायत्त रूप से करने में सक्षम है, पारंपरिक विचार श्रृंखला संकेत विधियों से परे।
बहु-मोडल तर्क मानक परीक्षणों में, LLaVA-o1 का प्रदर्शन इसके आधार मॉडल से 8.9% बेहतर रहा है। इस मॉडल की विशिष्टता यह है कि इसका तर्क प्रक्रिया चार चरणों में विभाजित है: संक्षेप, दृश्य व्याख्या, तार्किक तर्क और निष्कर्ष उत्पन्न करना। पारंपरिक मॉडलों में, तर्क प्रक्रिया अक्सर सरल होती है, जो गलत उत्तरों का कारण बन सकती है, जबकि LLaVA-o1 संरचित बहु-चरणीय तर्क के माध्यम से अधिक सटीक आउटपुट सुनिश्चित करता है।
उदाहरण के लिए, "सभी छोटे चमकीले गेंदों और बैंगनी वस्तुओं को घटाने पर, कितनी वस्तुएं बचती हैं?" इस प्रश्न को हल करते समय, LLaVA-o1 पहले प्रश्न का संक्षेप करता है, फिर छवि से जानकारी निकालता है, और अंततः उत्तर देने के लिए चरणबद्ध तर्क करता है। यह चरणबद्ध दृष्टिकोण मॉडल की प्रणालीगत तर्क क्षमता को बढ़ाता है, जिससे यह जटिल समस्याओं को हल करते समय अधिक प्रभावी होता है।
यह उल्लेखनीय है कि LLaVA-o1 ने तर्क प्रक्रिया में चरण-वार बीम खोज विधि को शामिल किया है। यह विधि मॉडल को प्रत्येक तर्क चरण में कई संभावित उत्तर उत्पन्न करने की अनुमति देती है, और सर्वोत्तम उत्तर का चयन करके अगले चरण के तर्क को जारी रखती है, जिससे समग्र तर्क गुणवत्ता में महत्वपूर्ण सुधार होता है। सुपरवाइज्ड फाइन-ट्यूनिंग और उचित प्रशिक्षण डेटा के माध्यम से, LLaVA-o1 ने बड़े या बंद स्रोत मॉडल की तुलना में उत्कृष्ट प्रदर्शन किया है।
पेकिंग विश्वविद्यालय की टीम के शोध परिणाम न केवल बहु-मोडल एआई के विकास को बढ़ावा देते हैं, बल्कि भविष्य के दृश्य भाषा समझ मॉडल के लिए नए विचार और तरीके भी प्रदान करते हैं। टीम ने बताया कि LLaVA-o1 का कोड, पूर्व-प्रशिक्षित वेट्स और डेटा सेट पूरी तरह से ओपन-सोर्स किया जाएगा, और वे उम्मीद करते हैं कि अधिक शोधकर्ता और डेवलपर्स इस नवाचार मॉडल का सामूहिक रूप से अन्वेषण और उपयोग कर सकेंगे।
पेपर: https://arxiv.org/abs/2411.10440
GitHub: https://github.com/PKU-YuanGroup/LLaVA-o1
मुख्य बिंदु:
🌟 LLaVA-o1 पेकिंग विश्वविद्यालय और अन्य टीमों द्वारा जारी किया गया एक नया बहु-मोडल तर्क मॉडल है, जिसमें "धीमी सोच" तर्क क्षमता है।
📈 इस मॉडल ने बहु-मोडल तर्क मानक परीक्षणों में आधार मॉडल से 8.9% बेहतर प्रदर्शन किया है।
🔍 LLaVA-o1 संरचित बहु-चरणीय तर्क के माध्यम से सटीकता सुनिश्चित करता है और इसे निकट भविष्य में ओपन-सोर्स किया जाएगा।