हाल ही में, कृत्रिम बुद्धिमत्ता के क्षेत्र ने दृश्य और भाषा के निर्बाध एकीकरण पर ध्यान केंद्रित किया है, विशेष रूप से बड़े भाषा मॉडल (LLMs) के उदय के साथ, इस क्षेत्र में महत्वपूर्ण प्रगति हुई है। हालांकि, बहु-आधार AGI प्रणाली के लिए, दृश्य और दृश्य भाषा आधार मॉडल के विकास को अभी भी आगे बढ़ने की आवश्यकता है। इस अंतर को भरने के लिए, नानजिंग विश्वविद्यालय, OpenGVLab, शंघाई कृत्रिम बुद्धिमत्ता प्रयोगशाला, हांगकांग विश्वविद्यालय, हांगकांग चाइनीज विश्वविद्यालय, तियानजिन विश्वविद्यालय, चीन विज्ञान और प्रौद्योगिकी विश्वविद्यालय और SenseTime Research के शोधकर्ताओं ने एक नवोन्मेषी मॉडल - InternVL प्रस्तुत किया है। यह मॉडल दृश्य आधार मॉडल के आकार को बढ़ाता है और इसे सामान्य दृश्य भाषा कार्यों के लिए अनुकूलित करता है। InternVL ने 32 सामान्य दृश्य भाषा मानक परीक्षणों में मौजूदा विधियों को पार करते हुए, छवि और वीडियो वर्गीकरण, छवि और वीडियो पाठ खोज, छवि कैप्शनिंग, दृश्य प्रश्न उत्तर, और बहु-आधार संवाद जैसे विभिन्न कार्यों में अपनी उत्कृष्ट क्षमताओं को प्रदर्शित किया है।
InternVL: 60 अरब पैरामीटर वाला दृश्य भाषा आधार मॉडल मल्टी-मोडल AGI में अंतर को भरता है

站长之家
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।