हाल ही में, कृत्रिम बुद्धिमत्ता के क्षेत्र ने दृश्य और भाषा के निर्बाध एकीकरण पर ध्यान केंद्रित किया है, विशेष रूप से बड़े भाषा मॉडल (LLMs) के उदय के साथ, इस क्षेत्र में महत्वपूर्ण प्रगति हुई है। हालांकि, बहु-आधार AGI प्रणाली के लिए, दृश्य और दृश्य भाषा आधार मॉडल के विकास को अभी भी आगे बढ़ने की आवश्यकता है। इस अंतर को भरने के लिए, नानजिंग विश्वविद्यालय, OpenGVLab, शंघाई कृत्रिम बुद्धिमत्ता प्रयोगशाला, हांगकांग विश्वविद्यालय, हांगकांग चाइनीज विश्वविद्यालय, तियानजिन विश्वविद्यालय, चीन विज्ञान और प्रौद्योगिकी विश्वविद्यालय और SenseTime Research के शोधकर्ताओं ने एक नवोन्मेषी मॉडल - InternVL प्रस्तुत किया है। यह मॉडल दृश्य आधार मॉडल के आकार को बढ़ाता है और इसे सामान्य दृश्य भाषा कार्यों के लिए अनुकूलित करता है। InternVL ने 32 सामान्य दृश्य भाषा मानक परीक्षणों में मौजूदा विधियों को पार करते हुए, छवि और वीडियो वर्गीकरण, छवि और वीडियो पाठ खोज, छवि कैप्शनिंग, दृश्य प्रश्न उत्तर, और बहु-आधार संवाद जैसे विभिन्न कार्यों में अपनी उत्कृष्ट क्षमताओं को प्रदर्शित किया है।