एप्पल कंपनी ने Hugging Face पर एक बड़ा धमाका किया है, उन्होंने पिछले साल के 4M मॉडल का प्रदर्शन खोला है। यह मॉडल विभिन्न प्रकार की सामग्री को संसाधित और उत्पन्न करने में सक्षम है, जिसमें पाठ, चित्र और 3D दृश्य शामिल हैं। एक मॉडल सभी जानकारी को चित्र से निकाल सकता है, जिसमें गहराई का चित्र, रेखाचित्र आदि शामिल हैं। AIbase ने पहले उत्पन्न किए गए प्राचीन शैली के चित्र का परीक्षण किया, और यह वास्तव में शानदार था, चित्र अपलोड करने के बाद, उन्होंने जल्दी से निम्नलिखित जानकारी का चित्र प्राप्त किया:
बस एक फोटो अपलोड करें, और आप आसानी से इस फोटो की सभी जानकारी प्राप्त कर सकते हैं, जैसे कि इस चित्र का मुख्य आकार, दृश्य का मुख्य रंग, चित्र का आकार आदि।
यह एप्पल के लिए एक अनुसंधान क्षेत्र में गोपनीयता की पारंपरिक धारणा पर एक साहसी मोड़ माना जा सकता है। उन्होंने न केवल Hugging Face के इस ओपन-सोर्स AI मंच पर अपनी AI क्षमता का प्रदर्शन किया है, बल्कि डेवलपर्स को एक अवसर भी दिया है, आशा है कि 4M के चारों ओर एक पारिस्थितिकी तंत्र का निर्माण किया जा सके। 4M की मल्टीमॉडल संरचना, यह संकेत देती है कि एप्पल के पारिस्थितिकी तंत्र में और अधिक संगठित और बहु-कार्यात्मक AI एप्लिकेशन हो सकते हैं, जैसे कि Siri जटिल प्रश्नों को अधिक बुद्धिमानी से संभाल सके, या Final Cut Pro आपकी भाषा के निर्देशों के अनुसार स्वचालित रूप से वीडियो को संपादित कर सके।
हालांकि, 4M का आगमन डेटा प्रथाओं और AI नैतिकता की चुनौतियों को भी लाता है। एप्पल हमेशा से उपयोगकर्ता की गोपनीयता के संरक्षक के रूप में खुद को प्रस्तुत करता है, लेकिन इस तरह के डेटा-गहन AI मॉडल का सामना करते समय, क्या उनकी स्थिति परखने वाली होगी? एप्पल को सावधानी से संतुलन बनाए रखना होगा, यह सुनिश्चित करते हुए कि तकनीकी प्रगति को आगे बढ़ाते समय उपयोगकर्ता का विश्वास प्रभावित न हो।
आइए हम 4M की तकनीकी सिद्धांत को सरलता से समझें। 4M की सबसे बड़ी विशेषता इसकी "विशाल बहु-आकृति बाधित मॉडलिंग" प्रशिक्षण विधि है। यह प्रशिक्षण विधि विभिन्न दृश्य प्रकारों को एक साथ संसाधित कर सकती है, चाहे वह चित्र, अर्थ या ज्यामितीय जानकारी हो, सभी को एक समान टोकन में परिवर्तित किया जा सकता है, जिससे विभिन्न प्रकारों के बीच निर्बाध संबंध स्थापित होता है।
प्रशिक्षण प्रक्रिया में, 4M ने एक चालाक तरीका अपनाया: इनपुट के रूप में एक भाग को यादृच्छिक रूप से चुना गया और दूसरे भाग को लक्ष्य के रूप में, इस तरह से प्रशिक्षण लक्ष्य की विस्तारशीलता को प्राप्त किया गया। इसका मतलब है, चाहे वह चित्र हो या पाठ, 4M के लिए यह केवल एक संख्या का टोकन है, इस डिजाइन ने मॉडल की सामान्यता को बहुत बढ़ा दिया है।
4M के प्रशिक्षण डेटा और विधि भी उल्लेखनीय हैं। इसने CC12M नामक दुनिया के सबसे बड़े ओपन-सोर्स डेटा सेटों में से एक का उपयोग किया है, हालांकि इस डेटा सेट में डेटा प्रचुर है, लेकिन लेबलिंग जानकारी पूरी नहीं है। इस समस्या को हल करने के लिए, शोधकर्ताओं ने कमजोर पर्यवेक्षण के पseudo-labeling विधि का उपयोग किया, CLIP, MaskRCNN जैसी तकनीकों का उपयोग करके डेटा सेट की व्यापक भविष्यवाणी की, और फिर भविष्यवाणी परिणामों को टोकनों में परिवर्तित किया, जो 4M की बहु-आकृति संगतता की नींव रखी।
व्यापक प्रयोगों और परीक्षणों के बाद, 4M ने साबित किया है कि यह सीधे बहु-आकृति कार्यों को निष्पादित कर सकता है, बिना विशेष कार्य पूर्व-प्रशिक्षण या ट्यूनिंग के। यह जैसे AI को एक बहु-आकृति स्विस आर्मी चाकू देने के समान है, जिससे यह विभिन्न चुनौतियों का सामना कर सके।
प्रदर्शन का पता: https://huggingface.co/spaces/EPFL-VILAB/4M