वेबमास्टर हाउस (ChinaZ.com) 17 जून: हांगकांग चाइनीज यूनिवर्सिटी और चाइनीज एकेडमी ऑफ साइंसेज जैसे संस्थानों की शोध टीम ने MiCo (Multimodal Context) नामक एक पूरी तरह से मल्टीमॉडल प्री-ट्रेनिंग पैरेडाइम प्रस्तुत किया है, इस विधि ने मल्टीमॉडल लर्निंग क्षेत्र में महत्वपूर्ण सफलता हासिल की है और 37 उन्नत प्रदर्शन (SOTA) रिकॉर्ड को तोड़ा है।
मुख्य विशेषताएँ:
पूर्ण मल्टीमॉडल समझ: MiCo का उद्देश्य एक ऐसी मल्टीमॉडल बुद्धिमत्ता का निर्माण करना है जो किसी भी मोड को समझ सके और सामान्य प्रतिनिधित्व सीख सके।
विशाल पैमाने पर प्री-ट्रेनिंग: अधिक मोड, डेटा मात्रा और मॉडल पैरामीटर को शामिल करके, MiCo प्री-ट्रेनिंग प्रक्रिया में मानव मस्तिष्क की मल्टीमॉडल संज्ञानात्मक प्रक्रिया का अनुकरण करता है।
तंत्रिका नेटवर्क संरचना डिजाइन: MiCo विभिन्न मोड को "ज्ञान मोड" और "इंटरफेस मोड" में विभाजित करता है, और संबंधित पूर्ण मल्टीमॉडल लर्निंग आर्किटेक्चर का डिजाइन करता है, जो जनरेटिव इनफेरेंस विधियों के माध्यम से संरेखण करता है।
मल्टीमॉडल संदर्भ और पैमाना नियम: MiCo मल्टीमॉडल संदर्भ का उपयोग करके मोडों के बीच आपसी वृद्धि को मजबूत करता है, और क्रॉस-मोड संदर्भ संबंधों का निर्माण करता है।
प्रयोगात्मक परिणाम दर्शाते हैं:
10 विभिन्न मोड के सिंगल-मोड परसेप्शन बेंचमार्क परीक्षणों में, MiCo ने 7 SOTA परिणाम प्राप्त किए।
25 विभिन्न क्रॉस-मोड समझ कार्यों में, जैसे कि खोज, प्रश्नोत्तर, विवरण आदि, MiCo ने 20 SOTA परिणाम प्राप्त किए।
18 विभिन्न मल्टीमॉडल बड़े भाषा मॉडल बेंचमार्क परीक्षणों में, MiCo ने कुल 10 SOTA परिणाम प्राप्त किए।
MiCo की प्री-ट्रेनिंग विधि:
टीम ने वीडियो के साथ संबंधित ऑडियो, टेक्स्ट विवरण, गहराई और सामान्य के साथ संयुक्त प्री-ट्रेनिंग का उपयोग किया, जो मानव मस्तिष्क की दृश्य, श्रवण और समय-स्थान की संवेदनाओं का अनुकरण करता है।
पूर्ण मल्टीमॉडल एन्कोडर (जैसे ViT) का उपयोग करके मल्टीमॉडल विशेषताओं को निकाला गया, और टेक्स्ट एन्कोडर का उपयोग करके टेक्स्ट विशेषताओं को निकाला गया, जिससे मल्टीमॉडल संदर्भ संबंधों का निर्माण किया गया।
निष्कर्ष और भविष्य का कार्य:
MiCo प्रोजेक्ट आर्टिफिशियल इंटेलिजेंस द्वारा मानव मस्तिष्क की मल्टीमॉडल संज्ञानात्मक क्षमता का अनुकरण करने का एक महत्वपूर्ण प्रयास है, टीम को उम्मीद है कि यह भविष्य के अनुसंधान को प्रेरित कर सकेगा और अधिक शक्तिशाली पूर्ण मल्टीमॉडल आधार मॉडल विकसित कर सकेगा।
भविष्य की कार्य योजना में अधिक मोड जैसे कि ऑप्टिकल फ्लो, IMU डेटा और इवेंट फाइल आदि को जोड़ना शामिल है, ताकि पूर्ण मल्टीमॉडल संयुक्त प्री-ट्रेनिंग को आगे बढ़ाया जा सके।