हाल ही में, शंघाई एआई प्रयोगशाला ने शुशेन्ग·वानशियांगInternVL2.5 मॉडल की घोषणा की। यह ओपन-सोर्स मल्टी-मोडल बड़े भाषा मॉडल अपनी उत्कृष्ट प्रदर्शन के साथ, मल्टी-मोडल समझ मानक (MMMU) पर 70% से अधिक सटीकता हासिल करने वाला पहला ओपन-सोर्स मॉडल बन गया है, जो व्यावसायिक मॉडलों जैसे GPT-4o और Claude-3.5-Sonnet के प्रदर्शन के बराबर है।

InternVL2.5 मॉडल ने श्रृंखलाबद्ध सोच (CoT) अनुमान तकनीक के माध्यम से 3.7 प्रतिशत की वृद्धि हासिल की है, जो परीक्षण समय के लिए विस्तारीकरण की मजबूत क्षमता का प्रदर्शन करता है। यह मॉडल InternVL2.0 के आधार पर आगे विकसित किया गया है, प्रदर्शन को बढ़ाने के लिए प्रशिक्षण और परीक्षण रणनीतियों को मजबूत करने और डेटा की गुणवत्ता को सुधारने के माध्यम से। इसने दृश्य एन्कोडर, भाषा मॉडल, डेटा सेट का आकार और परीक्षण समय कॉन्फ़िगरेशन जैसे पहलुओं पर गहन अध्ययन किया है, ताकि मॉडल के आकार और प्रदर्शन के बीच संबंध का पता लगाया जा सके।

微信截图_20241210081428.png

InternVL2.5 ने कई मानक परीक्षणों में प्रतिस्पर्धात्मक प्रदर्शन दिखाया है, विशेष रूप से बहुविषयक तर्क, दस्तावेज़ समझ, कई छवि/वीडियो समझ, वास्तविक दुनिया की समझ, मल्टी-मोडल भ्रम पहचान, दृश्य ग्राउंडिंग, बहु-भाषा क्षमता और शुद्ध भाषा प्रसंस्करण जैसे क्षेत्रों में। यह उपलब्धि ओपन-सोर्स समुदाय के लिए एक नया मानक प्रदान करती है, ताकि मल्टी-मोडल एआई सिस्टम के विकास और अनुप्रयोग के लिए, और आर्टिफिशियल इंटेलिजेंस के क्षेत्र में अनुसंधान और अनुप्रयोग के लिए नए संभावनाओं के द्वार खोलती है।

InternVL2.5 ने अपने पूर्ववर्ती InternVL1.5 और InternVL2.0 की समान मॉडल संरचना को बनाए रखा है, “ViT-MLP-LLM” पैटर्न का पालन करते हुए, और नए वृद्धि पूर्व-प्रशिक्षित InternViT-6B या InternViT-300M को विभिन्न आकारों और प्रकारों के पूर्व-प्रशिक्षित LLMs के साथ एकीकृत किया है, जिसमें यादृच्छिक प्रारंभिककरण के साथ दो-स्तरीय MLP प्रक्षिप्तक का उपयोग किया गया है। उच्च रिज़ॉल्यूशन प्रसंस्करण की विस्तारशीलता को बढ़ाने के लिए, शोध टीम ने एक पिक्सेल असंगठित ऑपरेशन लागू किया, जिससे दृश्य टोकनों की संख्या को मूल संख्या के आधे तक कम कर दिया गया।

मॉडल की ओपन-सोर्स प्रकृति का अर्थ है कि शोधकर्ता और डेवलपर्स स्वतंत्र रूप से InternVL2.5 तक पहुंच और उपयोग कर सकते हैं, जो मल्टी-मोडल एआई प्रौद्योगिकी के विकास और नवाचार को बहुत बढ़ावा देगा।

मॉडल लिंक:

https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942