एप्पल कंपनी ने Hugging Face पर एक बड़ा धमाका किया है, उन्होंने पिछले साल के 4M मॉडल का प्रदर्शन खोला है। यह मॉडल विभिन्न प्रकार की सामग्री को संसाधित और उत्पन्न करने में सक्षम है, जिसमें पाठ, चित्र और 3D दृश्य शामिल हैं। एक मॉडल सभी जानकारी को चित्र से निकाल सकता है, जिसमें गहराई का चित्र, रेखाचित्र आदि शामिल हैं। AIbase ने पहले उत्पन्न किए गए प्राचीन शैली के चित्र का परीक्षण किया, और यह वास्तव में शानदार था, चित्र अपलोड करने के बाद, उन्होंने जल्दी से निम्नलिखित जानकारी का चित्र प्राप्त किया:

QQ截图20240705100442.jpg

बस एक फोटो अपलोड करें, और आप आसानी से इस फोटो की सभी जानकारी प्राप्त कर सकते हैं, जैसे कि इस चित्र का मुख्य आकार, दृश्य का मुख्य रंग, चित्र का आकार आदि।

यह एप्पल के लिए एक अनुसंधान क्षेत्र में गोपनीयता की पारंपरिक धारणा पर एक साहसी मोड़ माना जा सकता है। उन्होंने न केवल Hugging Face के इस ओपन-सोर्स AI मंच पर अपनी AI क्षमता का प्रदर्शन किया है, बल्कि डेवलपर्स को एक अवसर भी दिया है, आशा है कि 4M के चारों ओर एक पारिस्थितिकी तंत्र का निर्माण किया जा सके। 4M की मल्टीमॉडल संरचना, यह संकेत देती है कि एप्पल के पारिस्थितिकी तंत्र में और अधिक संगठित और बहु-कार्यात्मक AI एप्लिकेशन हो सकते हैं, जैसे कि Siri जटिल प्रश्नों को अधिक बुद्धिमानी से संभाल सके, या Final Cut Pro आपकी भाषा के निर्देशों के अनुसार स्वचालित रूप से वीडियो को संपादित कर सके।

हालांकि, 4M का आगमन डेटा प्रथाओं और AI नैतिकता की चुनौतियों को भी लाता है। एप्पल हमेशा से उपयोगकर्ता की गोपनीयता के संरक्षक के रूप में खुद को प्रस्तुत करता है, लेकिन इस तरह के डेटा-गहन AI मॉडल का सामना करते समय, क्या उनकी स्थिति परखने वाली होगी? एप्पल को सावधानी से संतुलन बनाए रखना होगा, यह सुनिश्चित करते हुए कि तकनीकी प्रगति को आगे बढ़ाते समय उपयोगकर्ता का विश्वास प्रभावित न हो।

आइए हम 4M की तकनीकी सिद्धांत को सरलता से समझें। 4M की सबसे बड़ी विशेषता इसकी "विशाल बहु-आकृति बाधित मॉडलिंग" प्रशिक्षण विधि है। यह प्रशिक्षण विधि विभिन्न दृश्य प्रकारों को एक साथ संसाधित कर सकती है, चाहे वह चित्र, अर्थ या ज्यामितीय जानकारी हो, सभी को एक समान टोकन में परिवर्तित किया जा सकता है, जिससे विभिन्न प्रकारों के बीच निर्बाध संबंध स्थापित होता है।

प्रशिक्षण प्रक्रिया में, 4M ने एक चालाक तरीका अपनाया: इनपुट के रूप में एक भाग को यादृच्छिक रूप से चुना गया और दूसरे भाग को लक्ष्य के रूप में, इस तरह से प्रशिक्षण लक्ष्य की विस्तारशीलता को प्राप्त किया गया। इसका मतलब है, चाहे वह चित्र हो या पाठ, 4M के लिए यह केवल एक संख्या का टोकन है, इस डिजाइन ने मॉडल की सामान्यता को बहुत बढ़ा दिया है।

4M के प्रशिक्षण डेटा और विधि भी उल्लेखनीय हैं। इसने CC12M नामक दुनिया के सबसे बड़े ओपन-सोर्स डेटा सेटों में से एक का उपयोग किया है, हालांकि इस डेटा सेट में डेटा प्रचुर है, लेकिन लेबलिंग जानकारी पूरी नहीं है। इस समस्या को हल करने के लिए, शोधकर्ताओं ने कमजोर पर्यवेक्षण के पseudo-labeling विधि का उपयोग किया, CLIP, MaskRCNN जैसी तकनीकों का उपयोग करके डेटा सेट की व्यापक भविष्यवाणी की, और फिर भविष्यवाणी परिणामों को टोकनों में परिवर्तित किया, जो 4M की बहु-आकृति संगतता की नींव रखी।

व्यापक प्रयोगों और परीक्षणों के बाद, 4M ने साबित किया है कि यह सीधे बहु-आकृति कार्यों को निष्पादित कर सकता है, बिना विशेष कार्य पूर्व-प्रशिक्षण या ट्यूनिंग के। यह जैसे AI को एक बहु-आकृति स्विस आर्मी चाकू देने के समान है, जिससे यह विभिन्न चुनौतियों का सामना कर सके।

प्रदर्शन का पता: https://huggingface.co/spaces/EPFL-VILAB/4M