सेब और स्विट्ज़रलैंड के लॉज़ेन पॉलिटेक्निक फेडरल यूनिवर्सिटी के शोधकर्ताओं ने एक ओपन-सोर्स बड़े पैमाने पर मल्टी-मोडल विज़न मॉडल, जिसका नाम 4M-21 है, का संयुक्त रूप से विकास किया है। अन्य विशेष रूप से किसी विशिष्ट कार्य या डेटा प्रकार के लिए अनुकूलित मॉडलों के विपरीत, 4M-21 में व्यापक सामान्यता और लचीलापन है। केवल 30 बिलियन पैरामीटर होने के बावजूद, यह छवि वर्गीकरण, लक्ष्य पहचान, अर्थ विभाजन, उदाहरण विभाजन, गहराई का अनुमान, सतह सामान्य का अनुमान जैसे कई कार्य प्रदान कर सकता है।
इस मॉडल की प्रमुख तकनीक "डिस्क्रीट टोकन" रूपांतरण तकनीक है, जो विभिन्न मोड के डेटा को एक समान प्रारूप के टोकन अनुक्रम डेटा में परिवर्तित कर सकती है। चाहे वह छवि डेटा हो, न्यूरल नेटवर्क फीचर मैप, वेक्टर, संरचित डेटा, या पाठ के रूप में प्रदर्शित डेटा हो, सभी को मॉडल द्वारा समझे जाने योग्य समान डेटा प्रारूप में परिवर्तित किया जा सकता है। यह रूपांतरण न केवल मॉडल के प्रशिक्षण को सरल बनाता है, बल्कि मल्टी-मोडल अध्ययन और प्रसंस्करण के लिए आधार भी प्रदान करता है।
उत्पाद का लिंक: https://github.com/apple/ml-4m/
प्रशिक्षण चरण में, 4M-21 ने मास्क मॉडलिंग विधि का उपयोग करके मल्टी-मोडल अध्ययन पूरा किया। यह इनपुट अनुक्रम में कुछ टोकनों को यादृच्छिक रूप से ढक देता है, फिर बचे हुए अव्यक्त टोकनों के आधार पर ढके हुए भाग की भविष्यवाणी करता है। यह विधि मॉडल को इनपुट डेटा की सांख्यिकीय संरचना और अंतर्निहित संबंधों को सीखने के लिए मजबूर करती है, जिससे विभिन्न मोड के बीच की जानकारी की सामान्यता और परस्पर क्रिया को कैप्चर किया जा सकता है। मास्क मॉडलिंग ने न केवल मॉडल की सामान्यीकरण क्षमता को बढ़ाया है, बल्कि उत्पादन कार्य की सटीकता को भी बढ़ाया है।
शोधकर्ताओं ने 4M-21 का छवि वर्गीकरण, लक्ष्य पहचान, अर्थ विभाजन, उदाहरण विभाजन, गहराई का अनुमान, सतह सामान्य का अनुमान और 3D मानव मुद्रा अनुमान जैसे कार्यों में समग्र मूल्यांकन किया। परिणाम दिखाते हैं कि 4M-21 की मल्टी-मोडल प्रसंस्करण क्षमता वर्तमान में सबसे उन्नत मॉडलों के बराबर है, और विभिन्न कार्यों में उत्कृष्ट प्रदर्शन करता है।
मुख्य बिंदु:
- सेब और स्विट्ज़रलैंड के लॉज़ेन पॉलिटेक्निक फेडरल यूनिवर्सिटी ने 4M-21 नामक एक बड़े पैमाने पर मल्टी-मोडल विज़न मॉडल का संयुक्त रूप से विकास किया है, जिसमें व्यापक सामान्यता और लचीलापन है।
- 4M-21 छवि वर्गीकरण, लक्ष्य पहचान, अर्थ विभाजन, उदाहरण विभाजन, गहराई का अनुमान, सतह सामान्य का अनुमान जैसे कई कार्य प्रदान कर सकता है।
- 4M-21 की प्रमुख तकनीक "डिस्क्रीट टोकन" रूपांतरण तकनीक है, जो विभिन्न मोड के डेटा को एक समान प्रारूप के टोकन अनुक्रम डेटा में परिवर्तित कर सकती है।