कृत्रिम बुद्धिमत्ता के मल्टी-मोडल क्षेत्र में, घरेलू बड़े मॉडल मजबूत क्षमता का प्रदर्शन कर रहे हैं। हाल ही में जारी किए गए चीनी मल्टी-मोडल बड़े मॉडल परीक्षण मानक SuperCLUE-V सूची में, टेनसेंट का हून्युआन-विज़न और शंघाई एआई लैब का InternVL2-40B क्रमशः घरेलू बंद-स्रोत और ओपन-सोर्स क्षेत्रों के दो प्रमुख नेता बने हैं, यहां तक कि अंतरराष्ट्रीय स्तर पर प्रसिद्ध Claude-3.5-Sonnet और गूगल के Gemini-1.5-Pro को भी पीछे छोड़ दिया।

टेनसेंट का हून्युआन बड़ा मॉडल का मल्टी-मोडल संस्करण, हून्युआन-विज़न, न केवल API कॉल में डेवलपर्स द्वारा पसंद किया गया है, बल्कि यह टेनसेंट के युआनबाओ ऐप में उपयोगकर्ताओं के लिए मुफ्त अनुभव के लिए भी उपलब्ध है। युआनबाओ ऐप हमेशा "प्रायोगिक एआई साथी" के रूप में जाना जाता है, जो व्यावहारिकता और उपयोग में आसानी पर जोर देता है, और इसके मल्टी-मोडल क्षमता में सफलताओं ने इसे परीक्षण में घरेलू पहले स्थान पर पहुंचा दिया।

घरेलू मल्टी-मोडल बड़े मॉडल की प्रगति को अधिक स्पष्ट रूप से प्रदर्शित करने के लिए, हमने टेनसेंट युआनबाओ पर एक श्रृंखला के परीक्षण किए। मेम्स और इमोजी की समझ, फोटो सामग्री पहचान से लेकर दृश्य भ्रांति चुनौती तक, टेनसेंट युआनबाओ ने उत्कृष्ट प्रदर्शन किया। वास्तविक अनुप्रयोग परिदृश्यों में, चाहे वह वित्तीय रिपोर्ट सारांश पढ़ना हो, शैक्षणिक चार्ट पहचानना हो या पैटर्न पहचानने वाले प्रश्नों का उत्तर देना हो, युआनबाओ सटीक रूप से समझने और उचित उत्तर देने में सक्षम है।

▲ चित्र स्रोत “CLUE चीनी भाषा समझ परीक्षण मानक”公众号,下同

विशेष रूप से एक अतिरिक्त प्रश्न में, जिसने चीनी सांस्कृतिक पृष्ठभूमि की समझ को परखा, टेनसेंट युआनबाओ ने "हुलु भाइयों" के स्क्रीनशॉट को सटीक रूप से पहचाना और संबंधित प्रश्नों का सही उत्तर दिया, जिससे यह स्पष्ट होता है कि यह चीनी संदर्भ को समझने में मजबूत है।

टेनसेंट का हून्युआन बड़ा मॉडल एक "पुराना दोस्त" के रूप में, पिछले वर्ष सितंबर में पहली बार पेश होने के बाद से तेजी से सुधार कर रहा है, और वर्तमान में यह ट्रिलियन पैरामीटर पैमाने तक विस्तारित हो चुका है, जो पाठ, मल्टी-मोडल समझ और उत्पादन जैसे क्षेत्रों को कवर करता है। घरेलू बड़े मॉडलों में, टेनसेंट हून्युआन ने MoE आर्किटेक्चर को अपग्रेड करने में पहला कदम उठाया, एकल घनत्व मॉडल से कई विशेषज्ञों द्वारा बने विरल मॉडल में।

टेनसेंट युआनबाओ ऐप, जो "प्रायोगिक एआई साथी" पर केंद्रित है, न केवल मल्टी-डिवाइस सिंक्रनाइज़ेशन और चैट इतिहास सिंक्रनाइज़ेशन में उत्कृष्टता प्रदर्शित करता है, बल्कि मल्टी-मोडल समझने की क्षमता में भी मजबूत प्रदर्शन करता है। चाहे वह दस्तावेज़ का स्क्रीनशॉट हो, व्यक्ति की तस्वीर, रसीद हो या कोई अन्य फोटो, युआनबाओ चित्र में सामग्री के आधार पर अपनी समझ और विश्लेषण दे सकता है।

टेनसेंट युआनबाओ टीम ने कहा कि वे आगे अधिक ध्यान मॉडल के मल्टी-मोडल क्षमताओं के एकीकरण पर केंद्रित करेंगे, ताकि उपयोगकर्ता अनुभव को और बेहतर बनाया जा सके। साथ ही, टेनसेंट ने गहरे खोज और गहरे लंबे लेख पढ़ने जैसे क्षेत्रों में भी कार्यात्मक अपडेट किए हैं, तकनीकी विवरणों के उजागर होने को कम किया है और उपयोगकर्ता संचालन को सरल बनाया है।