एप्पल और स्विट्जरलैंड के लॉज़ेन पॉलिटेक्निक फेडरल इंस्टीट्यूट (EPFL) के शोधकर्ताओं ने एक एकल मॉडल विकसित किया है जो किसी भी मोड से किसी भी मोड में कार्य कर सकता है। यह मॉडल दर्जनों विविध मोड पर प्रशिक्षण प्राप्त कर सकता है और बड़े पैमाने पर मल्टीमोडल डेटा सेट और टेक्स्ट कॉर्पस के लिए सहयोगात्मक प्रशिक्षण कर सकता है। इस मॉडल का नाम 4M-21 रखा गया है, जो 21 विभिन्न मोड में प्रशिक्षण प्राप्त करता है, मौजूदा मॉडलों की तुलना में कम से कम 3 गुना अधिक कार्य पूरा करता है और प्रदर्शन में कोई कमी नहीं आती है।

image.png

इस अध्ययन ने 4M पूर्व-प्रशिक्षण योजना को अपनाया, जिसमें मॉडल और डेटा सेट के आकार को बढ़ाना, प्रशिक्षण मॉडल में शामिल मोड की प्रकार और संख्या को बढ़ाना, और विभिन्न डेटा सेट पर संयुक्त प्रशिक्षण करना शामिल है, जिससे मॉडल के प्रदर्शन और अनुकूलनशीलता में सुधार होता है। शोधकर्ताओं ने विभिन्न विशेषताओं वाले मोड के लिए विभिन्न टोकनाइज़ेशन विधियों का उपयोग किया, जैसे वैश्विक छवि एम्बेडिंग, मानव शरीर की स्थिति और सेमांटिक उदाहरण। आर्किटेक्चर चयन में, इस अध्ययन ने ट्रांसफार्मर-आधारित 4M एन्कोडर-डिकोडर आर्किटेक्चर को अपनाया और नए मोड के लिए अतिरिक्त मोड एम्बेडिंग जोड़ी।

image.png

यह मॉडल न केवल DIODE सतह नॉर्मल और गहराई का अनुमान लगाने, COCO सेमांटिक और उदाहरण विभाजन, 3DPW3D मानव शरीर की स्थिति का अनुमान लगाने जैसे सामान्य दृश्य कार्यों को तुरंत निष्पादित कर सकता है, बल्कि यह किसी भी प्रशिक्षण मोड का उत्पादन करने में सक्षम है, कई तरीकों का समर्थन करता है ताकि सूक्ष्म और मल्टीमोडल उत्पादन किया जा सके, और अन्य मोड का उपयोग करके RGB छवियों या अन्य मोड को पुनः प्राप्त किया जा सके। इसके अतिरिक्त, शोधकर्ताओं ने NYUv2, Hypersim सेमांटिक विभाजन और ARKitScenes पर मल्टीमोडल ट्रांसफर प्रयोग किए।

इसके महत्वपूर्ण कार्यात्मक विशेषताएँ शामिल हैं:

किसी भी मोड से किसी भी मोड: मौजूदा सर्वश्रेष्ठ किसी भी मोड से किसी भी मोड मॉडल के 7 मोड से बढ़कर 21 विभिन्न मोड में, क्रॉस-मोड पुनर्प्राप्ति, नियंत्रित उत्पादन और शक्तिशाली आउट-ऑफ-द-बॉक्स प्रदर्शन प्राप्त करना।

विविधता समर्थन: मानव शरीर की स्थिति, SAM उदाहरण, मेटाडेटा आदि जैसे अधिक संरचित डेटा के लिए समर्थन जोड़ना।

टोकनाइज़ेशन: विभिन्न मोड के लिए विशिष्ट मोड विधियों का उपयोग करके डिस्क्रीट टोकनाइज़ेशन का अध्ययन करना, जैसे वैश्विक छवि एम्बेडिंग, मानव शरीर की स्थिति और सेमांटिक उदाहरण।

विस्तार: मॉडल का आकार 3B पैरामीटर तक बढ़ाना, डेटा सेट को 0.5B नमूनों तक बढ़ाना।

सहयोगात्मक प्रशिक्षण: दृश्य और भाषा पर सहयोगात्मक प्रशिक्षण।

  • पेपर का पता: https://arxiv.org/pdf/2406.09406

मुख्य बिंदु:

- एप्पल और स्विट्जरलैंड के लॉज़ेन पॉलिटेक्निक फेडरल इंस्टीट्यूट (EPFL) के शोधकर्ताओं ने एक ऐसा एकल मॉडल विकसित किया है जो किसी भी मोड से किसी भी मोड में कार्य कर सकता है, जो 21 विभिन्न मोड में प्रशिक्षण प्राप्त करता है।

- यह मॉडल तुरंत एक श्रृंखला सामान्य दृश्य कार्यों को निष्पादित कर सकता है और किसी भी प्रशिक्षण मोड का उत्पादन करने में सक्षम है, सूक्ष्म और मल्टीमोडल उत्पादन करने के लिए कई तरीकों का समर्थन करता है।

- शोधकर्ताओं ने NYUv2, Hypersim सेमांटिक विभाजन और ARKitScenes पर मल्टीमोडल ट्रांसफर प्रयोग किए।