हाल ही में, NVIDIA ने Georgia Tech, UMD और HKPU के शोध टीम के साथ मिलकर एक नया दृष्टि भाषा मॉडल - NVEagle लॉन्च किया है। यह तस्वीरों को समझ सकता है और आपके साथ बातचीत कर सकता है, जो कि एक देखने और बोलने वाले सुपर सहायक के बराबर है।

उदाहरण के लिए, नीचे दिए गए उदाहरण में, जब NVEagle मॉडल से पूछा जाता है कि तस्वीर में व्यक्ति कौन है? मॉडल तस्वीर का विश्लेषण करके जवाब देता है: ह्वांग रेनक्सुन। यह काफी सटीक है।

image.png

यह मल्टीमॉडल बड़े भाषा मॉडल (MLLM) दृष्टि और भाषा जानकारी के संयोजन में एक महत्वपूर्ण कदम है। NVEagle जटिल वास्तविक परिदृश्यों को समझ सकता है और दृश्य इनपुट के माध्यम से बेहतर विश्लेषण और प्रतिक्रिया कर सकता है। इसका डिज़ाइन मुख्य रूप से चित्रों को दृश्य मार्करों में परिवर्तित करने और फिर टेक्स्ट एम्बेडिंग के साथ संयोजन करने पर आधारित है, जिससे दृश्य जानकारी की समझ में सुधार होता है।

हालांकि, एक ऐसा शक्तिशाली मॉडल बनाने में कई चुनौतियों का सामना करना पड़ता है, विशेषकर दृश्य धारणा क्षमता को बढ़ाने के मामले में। शोध से पता चला है कि कई मौजूदा मॉडल उच्च रिज़ॉल्यूशन छवियों को संभालते समय "भ्रम" की स्थिति का सामना करते हैं, यानी वे असत्यापित या अर्थहीन आउटपुट उत्पन्न करते हैं। यह उन कार्यों में विशेष रूप से स्पष्ट होता है जिन्हें बारीकी से विश्लेषण करने की आवश्यकता होती है, जैसे कि ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) और दस्तावेज़ समझना। इन कठिनाइयों को दूर करने के लिए, शोध टीम ने विभिन्न दृष्टि एन्कोडर और फ्यूजन रणनीतियों का परीक्षण करने सहित कई तरीकों का अन्वेषण किया।

NVEagle का लॉन्च इस शोध का परिणाम है, जिसमें तीन संस्करण शामिल हैं: Eagle-X5-7B, Eagle-X5-13B और Eagle-X5-13B-Chat। इनमें से 7B और 13B संस्करण मुख्य रूप से सामान्य दृश्य भाषा कार्यों के लिए हैं, जबकि 13B-Chat संस्करण विशेष रूप से संवादात्मक एआई के लिए ट्यून किया गया है, जो दृश्य इनपुट आधारित बातचीत को बेहतर तरीके से कर सकता है।

image.png

NVEagle का एक मुख्य आकर्षण यह है कि यह मिश्रित विशेषज्ञ (MoE) तंत्र का उपयोग करता है, जो विभिन्न कार्यों के आधार पर सबसे उपयुक्त दृश्य एन्कोडर का चयन करने में सक्षम है, जिससे जटिल दृश्य जानकारी को संभालने की क्षमता में काफी सुधार होता है। इस मॉडल को Hugging Face पर जारी किया गया है, जिससे शोधकर्ताओं और डेवलपर्स के लिए उपयोग करना आसान हो गया है।

image.png

विभिन्न बेंचमार्क परीक्षणों में, Eagle मॉडल का प्रदर्शन काफी उत्कृष्ट रहा है। उदाहरण के लिए, OCR कार्य में, Eagle मॉडल ने OCRBench पर 85.9 का औसत स्कोर प्राप्त किया, जो InternVL और LLaVA-HR जैसे अन्य प्रमुख मॉडलों से बेहतर है। और TextVQA परीक्षण में, इसका स्कोर 88.8 रहा, जो जटिल दृश्य प्रश्न-उत्तर कार्य में भी अच्छा प्रदर्शन करता है, GQA परीक्षण का स्कोर 65.7 है। इसके अलावा, अतिरिक्त दृश्य विशेषज्ञों को जोड़ने पर भी मॉडल का प्रदर्शन लगातार बढ़ता है।

NVEagle श्रृंखला मॉडल ने प्रणालीबद्ध डिज़ाइन अन्वेषण और अनुकूलन के माध्यम से दृश्य धारणा में कई प्रमुख चुनौतियों को सफलतापूर्वक हल किया है, जो दृश्य भाषा मॉडल के विकास के लिए नए अवसर खोलता है।

प्रोजेक्ट लिंक: https://top.aibase.com/tool/eagle

डेमो: https://huggingface.co/spaces/NVEagle/Eagle-X5-13B-Chat

मुख्य बिंदु:

🌟 NVEagle NVIDIA द्वारा पेश किया गया एक नई पीढ़ी का दृश्य भाषा मॉडल है, जिसका उद्देश्य जटिल दृश्य जानकारी की समझ में सुधार करना है।  

📈 मॉडल में तीन संस्करण शामिल हैं, जो विभिन्न कार्यों के लिए उपयुक्त हैं, जिसमें 13B-Chat संस्करण संवादात्मक एआई पर केंद्रित है।  

🏆 कई बेंचमार्क परीक्षणों में, Eagle मॉडल का प्रदर्शन कई मौजूदा प्रमुख मॉडलों से बेहतर है, जो इसकी उत्कृष्टता को दर्शाता है।