InternLM-XComposer2
स्वतंत्र रूप से टेक्स्ट और इमेज संश्लेषण और समझ के लिए दृश्य भाषा का एक बड़ा मॉडल
सामान्य उत्पादडिज़ाइनदृश्य भाषा मॉडलटेक्स्ट और इमेज संश्लेषण
InternLM-XComposer2 एक अग्रणी दृश्य भाषा मॉडल है जो स्वतंत्र रूप से टेक्स्ट और इमेज संश्लेषण और समझ में कुशल है। यह मॉडल न केवल पारंपरिक दृश्य भाषा को समझ सकता है, बल्कि विभिन्न प्रकार के इनपुट से टेक्स्ट और इमेज सामग्री को एकीकृत रूप से बना सकता है, जैसे कि रूपरेखा, विस्तृत टेक्स्ट विनिर्देश और संदर्भ चित्र, जिससे अत्यधिक अनुकूलन योग्य सामग्री निर्माण संभव हो पाता है। InternLM-XComposer2 एक आंशिक LoRA (PLoRA) विधि प्रस्तुत करता है, जो विशेष रूप से छवि टोकन पर अतिरिक्त LoRA पैरामीटर लागू करता है ताकि पूर्व-प्रशिक्षित भाषा ज्ञान की अखंडता को बनाए रखा जा सके और सटीक दृश्य समझ और साहित्यिक क्षमता वाले टेक्स्ट निर्माण के बीच संतुलन बनाया जा सके। प्रयोगात्मक परिणाम दर्शाते हैं कि InternLM2-7B पर आधारित InternLM-XComposer2 उच्च-गुणवत्ता वाली लंबी-पाठ बहु-मोडल सामग्री उत्पन्न करने में बेहतर प्रदर्शन करता है और विभिन्न बेंचमार्क परीक्षणों में उत्कृष्ट दृश्य भाषा समझ प्रदर्शन दिखाता है, जो न केवल मौजूदा बहु-मोडल मॉडल से स्पष्ट रूप से बेहतर है, बल्कि कुछ मूल्यांकन में GPT-4V और Gemini Pro को भी मात देता है। यह बहु-मोडल समझ के क्षेत्र में इसकी उत्कृष्ट क्षमता को उजागर करता है। InternLM-XComposer2 श्रृंखला मॉडल में 7B पैरामीटर हैं और https://github.com/InternLM/InternLM-XComposer पर सार्वजनिक रूप से उपलब्ध हैं।
InternLM-XComposer2 नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
474564576
बाउंस दर
36.20%
प्रति विज़िट औसत पृष्ठ
6.1
औसत विज़िट अवधि
00:06:34