हाल ही में, शंघाई एआई प्रयोगशाला ने शुशेन्ग·वानशियांगInternVL2.5 मॉडल की घोषणा की। यह ओपन-सोर्स मल्टी-मोडल बड़े भाषा मॉडल अपनी उत्कृष्ट प्रदर्शन के साथ, मल्टी-मोडल समझ मानक (MMMU) पर 70% से अधिक सटीकता हासिल करने वाला पहला ओपन-सोर्स मॉडल बन गया है, जो व्यावसायिक मॉडलों जैसे GPT-4o और Claude-3.5-Sonnet के प्रदर्शन के बराबर है।
InternVL2.5 मॉडल ने श्रृंखलाबद्ध सोच (CoT) अनुमान तकनीक के माध्यम से 3.7 प्रतिशत की वृद्धि हासिल की है, जो परीक्षण समय के लिए विस्तारीकरण की मजबूत क्षमता का प्रदर्शन करता है। यह मॉडल InternVL2.0 के आधार पर आगे विकसित किया गया है, प्रदर्शन को बढ़ाने के लिए प्रशिक्षण और परीक्षण रणनीतियों को मजबूत करने और डेटा की गुणवत्ता को सुधारने के माध्यम से। इसने दृश्य एन्कोडर, भाषा मॉडल, डेटा सेट का आकार और परीक्षण समय कॉन्फ़िगरेशन जैसे पहलुओं पर गहन अध्ययन किया है, ताकि मॉडल के आकार और प्रदर्शन के बीच संबंध का पता लगाया जा सके।
InternVL2.5 ने कई मानक परीक्षणों में प्रतिस्पर्धात्मक प्रदर्शन दिखाया है, विशेष रूप से बहुविषयक तर्क, दस्तावेज़ समझ, कई छवि/वीडियो समझ, वास्तविक दुनिया की समझ, मल्टी-मोडल भ्रम पहचान, दृश्य ग्राउंडिंग, बहु-भाषा क्षमता और शुद्ध भाषा प्रसंस्करण जैसे क्षेत्रों में। यह उपलब्धि ओपन-सोर्स समुदाय के लिए एक नया मानक प्रदान करती है, ताकि मल्टी-मोडल एआई सिस्टम के विकास और अनुप्रयोग के लिए, और आर्टिफिशियल इंटेलिजेंस के क्षेत्र में अनुसंधान और अनुप्रयोग के लिए नए संभावनाओं के द्वार खोलती है।
InternVL2.5 ने अपने पूर्ववर्ती InternVL1.5 और InternVL2.0 की समान मॉडल संरचना को बनाए रखा है, “ViT-MLP-LLM” पैटर्न का पालन करते हुए, और नए वृद्धि पूर्व-प्रशिक्षित InternViT-6B या InternViT-300M को विभिन्न आकारों और प्रकारों के पूर्व-प्रशिक्षित LLMs के साथ एकीकृत किया है, जिसमें यादृच्छिक प्रारंभिककरण के साथ दो-स्तरीय MLP प्रक्षिप्तक का उपयोग किया गया है। उच्च रिज़ॉल्यूशन प्रसंस्करण की विस्तारशीलता को बढ़ाने के लिए, शोध टीम ने एक पिक्सेल असंगठित ऑपरेशन लागू किया, जिससे दृश्य टोकनों की संख्या को मूल संख्या के आधे तक कम कर दिया गया।
मॉडल की ओपन-सोर्स प्रकृति का अर्थ है कि शोधकर्ता और डेवलपर्स स्वतंत्र रूप से InternVL2.5 तक पहुंच और उपयोग कर सकते हैं, जो मल्टी-मोडल एआई प्रौद्योगिकी के विकास और नवाचार को बहुत बढ़ावा देगा।
मॉडल लिंक:
https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942