हाल के वर्षों में, बड़े भाषा मॉडल (LLM) ने कृत्रिम बुद्धिमत्ता के क्षेत्र में उल्लेखनीय प्रगति की है, खासकर बहु-मोडल एकीकरण के क्षेत्र में। हुआज़ोंग विश्वविद्यालय, बाइटडांस और हांगकांग विश्वविद्यालय की संयुक्त टीम ने हाल ही में एक नए प्रकार के बहु-मोडल पीढ़ी ढाँचे - Liquid का प्रस्ताव दिया है, जिसका उद्देश्य वर्तमान मुख्यधारा बहु-मोडल मॉडल की दृश्य प्रसंस्करण में सीमाओं को हल करना है।
पारंपरिक बहु-मोडल बड़े भाषा मॉडल जटिल बाहरी दृश्य मॉड्यूल पर निर्भर करते हैं, जो न केवल सिस्टम की जटिलता को बढ़ाता है, बल्कि इसके विस्तार को भी सीमित करता है। Liquid का नवाचार यह है कि यह VQGAN को इमेज टोकननाइज़र के रूप में अपनाता है, बाहरी दृश्य घटकों पर निर्भरता को त्याग देता है, छवि को असतत दृश्य टोकन में एन्कोड करके, मॉडल को सीधे टेक्स्ट टोकन के साथ शब्दकोश साझा करने की अनुमति देता है, जिससे "मूल" दृश्य समझ और पीढ़ी क्षमता प्राप्त होती है।
अध्ययन से पता चला है कि Liquid न केवल प्रशिक्षण लागत को कम कर सकता है, बल्कि बहु-मोडल क्षमता और LLM के पैमाने के नियम को भी प्रकट करता है। टीम ने विभिन्न पैमानों (0.5B से 32B तक) के LLM पर प्रयोग किए हैं, परिणाम दर्शाते हैं कि मॉडल के पैमाने के बढ़ने के साथ, इसके दृश्य पीढ़ी कार्य की कार्यक्षमता और पीढ़ी की गुणवत्ता भाषा कार्यों के साथ समान स्केलिंग नियम का पालन करती है। और भी उत्साहजनक बात यह है कि दृश्य समझ और पीढ़ी कार्यों के बीच एक द्विदिश प्रोत्साहन संबंध है, अर्थात दोनों साझा प्रतिनिधित्व स्थान के माध्यम से संयुक्त अनुकूलन प्राप्त कर सकते हैं।
Liquid का डिज़ाइन पूरी तरह से अतिसूक्ष्मवाद को दर्शाता है, यह छवि और पाठ को समान रूप से मानता है, एक समान प्रसंस्करण ढाँचा अपनाता है। निर्माण प्रक्रिया में, शोध दल ने 30M पाठ डेटा और 30M चित्र-पाठ युग्म डेटा का उपयोग किया, जिससे मॉडल के बहु-मोडल प्रशिक्षण की नींव रखी गई। अंतिम प्रयोगात्मक परिणाम दर्शाते हैं कि Liquid बहु-मोडल समझ, छवि पीढ़ी और शुद्ध पाठ कार्यों में उत्कृष्ट प्रदर्शन करता है, इसकी पीढ़ी वाली छवि और पाठ के बीच शब्दार्थ संगति अन्य स्व-पुनरावर्ती मॉडल की तुलना में काफी अधिक है।
Liquid का प्रस्ताव सामान्य बहु-मोडल बुद्धिमत्ता के आर्किटेक्चर डिज़ाइन के लिए एक नया विचार प्रदान करता है, यह दर्शाता है कि कृत्रिम बुद्धिमत्ता बहु-मोडल एकीकरण के भविष्य में अधिक कुशल और लचीला विकास प्राप्त कर सकती है।
शोध पत्र लिंक:https://arxiv.org/pdf/2412.04332