हाल ही में, तकनीकी दिग्गज एप्पल कंपनी ने अपनी शक्तिशाली तकनीकी नवाचार क्षमता को फिर से प्रदर्शित किया है, एक नई छवि और वीडियो जनरेशन विधि पेश की है जिसका नाम Matryoshka Diffusion Models (MDM) है, इस क्रांतिकारी तकनीक को "रूसी गुड़िया प्रसार मॉडल" के रूप में चित्रित किया गया है।
MDM का नाम रूसी गुड़िया से लिया गया है, यह नामकरण न केवल मजेदार है, बल्कि इसके核心 तकनीकी विचार को भी दर्शाता है - छोटे ढाँचे को बड़े ढाँचे में समाहित करना। जैसे हर गुड़िया के अंदर एक और छोटी लेकिन उतनी ही खूबसूरत गुड़िया छिपी होती है, MDM विभिन्न रिज़ॉल्यूशन पर एक साथ छवियों को संसाधित कर सकता है, जिससे निम्न गुणवत्ता वाले स्केच से उच्च गुणवत्ता वाले विवरणों का निर्बाध निर्माण संभव होता है।
इस नवाचार विधि का आकर्षण इस तथ्य में है कि यह एक साथ कई रिज़ॉल्यूशन की छवियों को संभाल सकती है। कल्पना कीजिए, जैसे एक समूह में कुशल चित्रकार हैं, हर कोई कैनवास के विभिन्न क्षेत्रों पर ध्यान केंद्रित कर रहा है, फिर भी वे सामंजस्यपूर्ण ढंग से मिलकर एक उत्कृष्ट कलाकृति का निर्माण कर रहे हैं। MDM ने कई रिज़ॉल्यूशन पर संयुक्त डिनॉइज़िंग तकनीक का उपयोग करके, उत्पन्न की गई छवियों के विवरण को और अधिक समृद्ध और यथार्थवादी बना दिया है, जिससे छवि की समग्र गुणवत्ता में काफी सुधार हुआ है।
MDM की核心 संरचना को NestedUNet कहा जाता है, यह डिज़ाइन विचार "गुड़िया" की अवधारणा को और अधिक मजबूत करता है। इस संरचना में, प्रत्येक स्तर में एक छोटा लेकिन पूर्ण कार्यात्मक उपसंरचना होता है, जैसे गुड़िया के अंदर हर एक स्वतंत्र और पूर्ण होता है। यह अनोखी डिज़ाइन MDM को छोटे पैमाने के इनपुट को संभालते समय उच्च स्तरीय विशेषताओं और पैरामीटर का पूरा उपयोग करने की अनुमति देती है, जिससे अधिक कुशल अध्ययन और निर्माण प्रक्रिया संभव होती है।
वर्तमान में, उच्च गुणवत्ता वाली छवि और वीडियो जनरेशन मॉडल आमतौर पर बड़ी गणना और अनुकूलन चुनौतियों का सामना कर रहे हैं। पारंपरिक विधियाँ या तो पिक्सेल स्तर पर धीरे-धीरे उत्पन्न होती हैं, या पहले एक संकुचित छवि मॉडल को प्रशिक्षित करती हैं, फिर निम्न रिज़ॉल्यूशन की छवियों पर काम करती हैं। जबकि MDM का प्रशिक्षण प्रक्रिया एक बच्चे को चलना सिखाने की तरह है, पहले लड़खड़ाते हुए चलना फिर तेज़ी से चलना। यह एक प्रगतिशील प्रशिक्षण विधि अपनाता है, निम्न रिज़ॉल्यूशन से शुरू होकर धीरे-धीरे उच्च रिज़ॉल्यूशन पर जाता है, यह विधि मॉडल को नए उच्च रिज़ॉल्यूशन छवियों का सामना करते समय अधिक स्थिर और कुशल बनाने में मदद करती है।
एप्पल कंपनी की शोध टीम ने एक श्रृंखला बेंचमार्क परीक्षणों के माध्यम से MDM की शक्तिशाली क्षमताओं को पूरी तरह से प्रदर्शित किया है। चाहे वह शर्तीय छवि जनरेशन हो, या पाठ से छवि, पाठ से वीडियो के रूपांतरण अनुप्रयोग, MDM ने उत्कृष्ट प्रदर्शन दिखाया है। विशेष रूप से उल्लेखनीय है कि, केवल 1200万 पिक्सल के CC12M डेटा सेट पर प्रशिक्षण के बावजूद, MDM ने अद्भुत शून्य-नमूना सामान्यीकरण क्षमता प्रदर्शित की है, जिसका अर्थ है कि यह बिना देखे गए दृश्यों में उत्कृष्ट प्रदर्शन कर सकता है।
अनुसंधान परिणाम दिखाते हैं कि MDM 1024x1024 पिक्सल रिज़ॉल्यूशन की छवियाँ उत्पन्न कर सकता है, और यहां तक कि अपेक्षाकृत सीमित डेटा स्थितियों में भी, यह कार्य को उत्कृष्टता से पूरा कर सकता है, आवश्यक उच्च गुणवत्ता वाली छवियाँ उत्पन्न कर सकता है। यह विशेषता AI छवि जनरेशन तकनीक के अनुप्रयोग क्षेत्र को बहुत बढ़ाती है, रचनात्मक उद्योग, डिजाइन उद्योग आदि क्षेत्रों में नई संभावनाएँ लाती है।
हालांकि MDM ने छवि और वीडियो जनरेशन क्षेत्र में ध्यान आकर्षित करने वाली उपलब्धियाँ प्राप्त की हैं, लेकिन यह शायद सिर्फ एक बर्फ का पहाड़ है। भविष्य में MDM और अधिक स्मार्ट होने की उम्मीद है, अधिक जटिल संदर्भ जानकारी को समझने में सक्षम होगा, और अधिक वास्तविक, विविध सामग्री उत्पन्न कर सकेगा। हम उम्मीद कर सकते हैं कि यह तकनीक वर्चुअल रियलिटी, एन्हांस्ड रियलिटी, फिल्म निर्माण, गेम विकास आदि कई क्षेत्रों में महत्वपूर्ण भूमिका निभाएगी।
एप्पल कंपनी द्वारा पेश की गई यह "गुड़िया प्रसार मॉडल" तकनीक निश्चित रूप से AI छवि जनरेशन क्षेत्र में एक ताजगी भरी तकनीकी लहर लेकर आई है। इसने छवि जनरेशन की दक्षता और गुणवत्ता को न केवल बढ़ाया है, बल्कि पूरे उद्योग के विकास के लिए नए दिशा-निर्देश भी प्रस्तुत किए हैं। तकनीक के लगातार सुधार और अनुप्रयोग की गहराई के साथ, हमें विश्वास है कि MDM भविष्य के डिजिटल रचनात्मक संसार में एक महत्वपूर्ण भूमिका निभाएगा, हमें और भी अधिक आश्चर्यजनक दृश्य अनुभव प्रदान करेगा।
प्रोजेक्ट पृष्ठ: https://top.aibase.com/tool/ml-mdm
पेपर: https://arxiv.org/pdf/2310.15111