हाल ही में, शुशेन·पुयूलिंग पेन (InternLM-XComposer) मल्टीमॉडल बड़े मॉडल का 2.5 संस्करण अपडेट किया गया है। यह मॉडल, जिसे शंघाई आर्टिफिशियल इंटेलिजेंस लैब द्वारा विकसित किया गया है, अपनी उत्कृष्ट लंबी संदर्भ इनपुट और आउटपुट क्षमता के लिए प्रसिद्ध है, जिसने टेक्स्ट और इमेज समझने और बनाने के अनुप्रयोगों में क्रांतिकारी सफलता हासिल की है।

IXC-2.5 96K के लंबे संदर्भ में आसानी से काम कर सकता है, जो इसके प्रशिक्षण के दौरान उपयोग किए गए 24K इंटरलेव्ड इमेज-टेक्स्ट डेटा के कारण है। यह लंबा संदर्भ क्षमता IXC-2.5 को उन कार्यों में उत्कृष्ट प्रदर्शन करने की अनुमति देती है जिनमें व्यापक इनपुट और आउटपुट संदर्भ की आवश्यकता होती है।

image.png

पिछले संस्करण की तुलना में, IXC-2.5 ने दृश्य भाषा समझने में तीन महत्वपूर्ण अपग्रेड किए हैं:

अत्यधिक उच्च रिज़ॉल्यूशन समझ: IXC-2.5 अंतर्निहित 560×560ViT दृश्य एन्कोडर के माध्यम से किसी भी अनुपात के उच्च रिज़ॉल्यूशन इमेज का समर्थन करता है।

सूक्ष्म वीडियो समझ: वीडियो को दर्जनों से लेकर सैकड़ों फ़्रेमों के अत्यधिक उच्च रिज़ॉल्यूशन संयुक्त चित्र के रूप में देखा जाता है, जो घनत्व से सैंपलिंग और उच्च रिज़ॉल्यूशन के माध्यम से विवरण कैप्चर करता है।

कई राउंड, कई चित्र संवाद: स्वतंत्र रूप से कई राउंड और कई चित्र संवाद का समर्थन करता है, मानव के साथ प्राकृतिक बातचीत करता है।

image.png

समझने की क्षमता में सुधार के अलावा, IXC-2.5 ने पाठ इमेज निर्माण के लिए अतिरिक्त LoRA पैरामीटर का उपयोग करते हुए दो आकर्षक अनुप्रयोगों का विस्तार किया है:

वेबसाइट बनाना: टेक्स्ट इमेज निर्देशों के आधार पर, IXC-2.5 HTML, CSS और JavaScript स्रोत कोड लिख सकता है, जिससे वेबसाइट बनाई जा सके।

उच्च गुणवत्ता वाले चित्र लेख लिखना: विशेष रूप से डिज़ाइन किए गए Chain-of-Thought (CoT) और Direct Preference Optimization (DPO) तकनीकों का उपयोग करके, लेखन सामग्री की गुणवत्ता को काफी बढ़ा देता है।

IXC-2.5 को 28 बेंचमार्क परीक्षणों में मूल्यांकित किया गया है, और यह 16 बेंचमार्क परीक्षणों में मौजूदा ओपन-सोर्स अत्याधुनिक मॉडलों को पार कर गया है। इसके अलावा, यह 16 प्रमुख कार्यों में GPT-4V और Gemini Pro के प्रदर्शन के करीब या उससे बेहतर प्रदर्शन करता है। यह उपलब्धि IXC-2.5 की शक्तिशाली क्षमता और व्यापक अनुप्रयोग संभावनाओं को पूरी तरह से साबित करती है।

पत्र का पता: https://arxiv.org/pdf/2407.03320

प्रोजेक्ट का पता: https://github.com/InternLM/InternLM-XComposer