एप्पल और स्विट्जरलैंड के लॉज़ेन पॉलिटेक्निक फेडरल इंस्टीट्यूट (EPFL) के शोधकर्ताओं ने एक एकल मॉडल विकसित किया है जो किसी भी मोड से किसी भी मोड में कार्य कर सकता है। यह मॉडल दर्जनों विविध मोड पर प्रशिक्षण प्राप्त कर सकता है और बड़े पैमाने पर मल्टीमोडल डेटा सेट और टेक्स्ट कॉर्पस के लिए सहयोगात्मक प्रशिक्षण कर सकता है। इस मॉडल का नाम 4M-21 रखा गया है, जो 21 विभिन्न मोड में प्रशिक्षण प्राप्त करता है, मौजूदा मॉडलों की तुलना में कम से कम 3 गुना अधिक कार्य पूरा करता है और प्रदर्शन में कोई कमी नहीं आती है।
इस अध्ययन ने 4M पूर्व-प्रशिक्षण योजना को अपनाया, जिसमें मॉडल और डेटा सेट के आकार को बढ़ाना, प्रशिक्षण मॉडल में शामिल मोड की प्रकार और संख्या को बढ़ाना, और विभिन्न डेटा सेट पर संयुक्त प्रशिक्षण करना शामिल है, जिससे मॉडल के प्रदर्शन और अनुकूलनशीलता में सुधार होता है। शोधकर्ताओं ने विभिन्न विशेषताओं वाले मोड के लिए विभिन्न टोकनाइज़ेशन विधियों का उपयोग किया, जैसे वैश्विक छवि एम्बेडिंग, मानव शरीर की स्थिति और सेमांटिक उदाहरण। आर्किटेक्चर चयन में, इस अध्ययन ने ट्रांसफार्मर-आधारित 4M एन्कोडर-डिकोडर आर्किटेक्चर को अपनाया और नए मोड के लिए अतिरिक्त मोड एम्बेडिंग जोड़ी।
यह मॉडल न केवल DIODE सतह नॉर्मल और गहराई का अनुमान लगाने, COCO सेमांटिक और उदाहरण विभाजन, 3DPW3D मानव शरीर की स्थिति का अनुमान लगाने जैसे सामान्य दृश्य कार्यों को तुरंत निष्पादित कर सकता है, बल्कि यह किसी भी प्रशिक्षण मोड का उत्पादन करने में सक्षम है, कई तरीकों का समर्थन करता है ताकि सूक्ष्म और मल्टीमोडल उत्पादन किया जा सके, और अन्य मोड का उपयोग करके RGB छवियों या अन्य मोड को पुनः प्राप्त किया जा सके। इसके अतिरिक्त, शोधकर्ताओं ने NYUv2, Hypersim सेमांटिक विभाजन और ARKitScenes पर मल्टीमोडल ट्रांसफर प्रयोग किए।
इसके महत्वपूर्ण कार्यात्मक विशेषताएँ शामिल हैं:
किसी भी मोड से किसी भी मोड: मौजूदा सर्वश्रेष्ठ किसी भी मोड से किसी भी मोड मॉडल के 7 मोड से बढ़कर 21 विभिन्न मोड में, क्रॉस-मोड पुनर्प्राप्ति, नियंत्रित उत्पादन और शक्तिशाली आउट-ऑफ-द-बॉक्स प्रदर्शन प्राप्त करना।
विविधता समर्थन: मानव शरीर की स्थिति, SAM उदाहरण, मेटाडेटा आदि जैसे अधिक संरचित डेटा के लिए समर्थन जोड़ना।
टोकनाइज़ेशन: विभिन्न मोड के लिए विशिष्ट मोड विधियों का उपयोग करके डिस्क्रीट टोकनाइज़ेशन का अध्ययन करना, जैसे वैश्विक छवि एम्बेडिंग, मानव शरीर की स्थिति और सेमांटिक उदाहरण।
विस्तार: मॉडल का आकार 3B पैरामीटर तक बढ़ाना, डेटा सेट को 0.5B नमूनों तक बढ़ाना।
सहयोगात्मक प्रशिक्षण: दृश्य और भाषा पर सहयोगात्मक प्रशिक्षण।
पेपर का पता: https://arxiv.org/pdf/2406.09406
मुख्य बिंदु:
- एप्पल और स्विट्जरलैंड के लॉज़ेन पॉलिटेक्निक फेडरल इंस्टीट्यूट (EPFL) के शोधकर्ताओं ने एक ऐसा एकल मॉडल विकसित किया है जो किसी भी मोड से किसी भी मोड में कार्य कर सकता है, जो 21 विभिन्न मोड में प्रशिक्षण प्राप्त करता है।
- यह मॉडल तुरंत एक श्रृंखला सामान्य दृश्य कार्यों को निष्पादित कर सकता है और किसी भी प्रशिक्षण मोड का उत्पादन करने में सक्षम है, सूक्ष्म और मल्टीमोडल उत्पादन करने के लिए कई तरीकों का समर्थन करता है।
- शोधकर्ताओं ने NYUv2, Hypersim सेमांटिक विभाजन और ARKitScenes पर मल्टीमोडल ट्रांसफर प्रयोग किए।