हाल ही में, तकनीकी दिग्गज एप्पल कंपनी ने अपनी शक्तिशाली तकनीकी नवाचार क्षमता को फिर से प्रदर्शित किया है, एक नई छवि और वीडियो जनरेशन विधि पेश की है जिसका नाम Matryoshka Diffusion Models (MDM) है, इस क्रांतिकारी तकनीक को "रूसी गुड़िया प्रसार मॉडल" के रूप में चित्रित किया गया है।

MDM का नाम रूसी गुड़िया से लिया गया है, यह नामकरण न केवल मजेदार है, बल्कि इसके核心 तकनीकी विचार को भी दर्शाता है - छोटे ढाँचे को बड़े ढाँचे में समाहित करना। जैसे हर गुड़िया के अंदर एक और छोटी लेकिन उतनी ही खूबसूरत गुड़िया छिपी होती है, MDM विभिन्न रिज़ॉल्यूशन पर एक साथ छवियों को संसाधित कर सकता है, जिससे निम्न गुणवत्ता वाले स्केच से उच्च गुणवत्ता वाले विवरणों का निर्बाध निर्माण संभव होता है।

QQ截图20240809114448.jpg

इस नवाचार विधि का आकर्षण इस तथ्य में है कि यह एक साथ कई रिज़ॉल्यूशन की छवियों को संभाल सकती है। कल्पना कीजिए, जैसे एक समूह में कुशल चित्रकार हैं, हर कोई कैनवास के विभिन्न क्षेत्रों पर ध्यान केंद्रित कर रहा है, फिर भी वे सामंजस्यपूर्ण ढंग से मिलकर एक उत्कृष्ट कलाकृति का निर्माण कर रहे हैं। MDM ने कई रिज़ॉल्यूशन पर संयुक्त डिनॉइज़िंग तकनीक का उपयोग करके, उत्पन्न की गई छवियों के विवरण को और अधिक समृद्ध और यथार्थवादी बना दिया है, जिससे छवि की समग्र गुणवत्ता में काफी सुधार हुआ है।

MDM की核心 संरचना को NestedUNet कहा जाता है, यह डिज़ाइन विचार "गुड़िया" की अवधारणा को और अधिक मजबूत करता है। इस संरचना में, प्रत्येक स्तर में एक छोटा लेकिन पूर्ण कार्यात्मक उपसंरचना होता है, जैसे गुड़िया के अंदर हर एक स्वतंत्र और पूर्ण होता है। यह अनोखी डिज़ाइन MDM को छोटे पैमाने के इनपुट को संभालते समय उच्च स्तरीय विशेषताओं और पैरामीटर का पूरा उपयोग करने की अनुमति देती है, जिससे अधिक कुशल अध्ययन और निर्माण प्रक्रिया संभव होती है।

QQ截图20240809110221.jpg

वर्तमान में, उच्च गुणवत्ता वाली छवि और वीडियो जनरेशन मॉडल आमतौर पर बड़ी गणना और अनुकूलन चुनौतियों का सामना कर रहे हैं। पारंपरिक विधियाँ या तो पिक्सेल स्तर पर धीरे-धीरे उत्पन्न होती हैं, या पहले एक संकुचित छवि मॉडल को प्रशिक्षित करती हैं, फिर निम्न रिज़ॉल्यूशन की छवियों पर काम करती हैं। जबकि MDM का प्रशिक्षण प्रक्रिया एक बच्चे को चलना सिखाने की तरह है, पहले लड़खड़ाते हुए चलना फिर तेज़ी से चलना। यह एक प्रगतिशील प्रशिक्षण विधि अपनाता है, निम्न रिज़ॉल्यूशन से शुरू होकर धीरे-धीरे उच्च रिज़ॉल्यूशन पर जाता है, यह विधि मॉडल को नए उच्च रिज़ॉल्यूशन छवियों का सामना करते समय अधिक स्थिर और कुशल बनाने में मदद करती है।

image.png

एप्पल कंपनी की शोध टीम ने एक श्रृंखला बेंचमार्क परीक्षणों के माध्यम से MDM की शक्तिशाली क्षमताओं को पूरी तरह से प्रदर्शित किया है। चाहे वह शर्तीय छवि जनरेशन हो, या पाठ से छवि, पाठ से वीडियो के रूपांतरण अनुप्रयोग, MDM ने उत्कृष्ट प्रदर्शन दिखाया है। विशेष रूप से उल्लेखनीय है कि, केवल 1200万 पिक्सल के CC12M डेटा सेट पर प्रशिक्षण के बावजूद, MDM ने अद्भुत शून्य-नमूना सामान्यीकरण क्षमता प्रदर्शित की है, जिसका अर्थ है कि यह बिना देखे गए दृश्यों में उत्कृष्ट प्रदर्शन कर सकता है।

अनुसंधान परिणाम दिखाते हैं कि MDM 1024x1024 पिक्सल रिज़ॉल्यूशन की छवियाँ उत्पन्न कर सकता है, और यहां तक कि अपेक्षाकृत सीमित डेटा स्थितियों में भी, यह कार्य को उत्कृष्टता से पूरा कर सकता है, आवश्यक उच्च गुणवत्ता वाली छवियाँ उत्पन्न कर सकता है। यह विशेषता AI छवि जनरेशन तकनीक के अनुप्रयोग क्षेत्र को बहुत बढ़ाती है, रचनात्मक उद्योग, डिजाइन उद्योग आदि क्षेत्रों में नई संभावनाएँ लाती है।

हालांकि MDM ने छवि और वीडियो जनरेशन क्षेत्र में ध्यान आकर्षित करने वाली उपलब्धियाँ प्राप्त की हैं, लेकिन यह शायद सिर्फ एक बर्फ का पहाड़ है। भविष्य में MDM और अधिक स्मार्ट होने की उम्मीद है, अधिक जटिल संदर्भ जानकारी को समझने में सक्षम होगा, और अधिक वास्तविक, विविध सामग्री उत्पन्न कर सकेगा। हम उम्मीद कर सकते हैं कि यह तकनीक वर्चुअल रियलिटी, एन्हांस्ड रियलिटी, फिल्म निर्माण, गेम विकास आदि कई क्षेत्रों में महत्वपूर्ण भूमिका निभाएगी।

एप्पल कंपनी द्वारा पेश की गई यह "गुड़िया प्रसार मॉडल" तकनीक निश्चित रूप से AI छवि जनरेशन क्षेत्र में एक ताजगी भरी तकनीकी लहर लेकर आई है। इसने छवि जनरेशन की दक्षता और गुणवत्ता को न केवल बढ़ाया है, बल्कि पूरे उद्योग के विकास के लिए नए दिशा-निर्देश भी प्रस्तुत किए हैं। तकनीक के लगातार सुधार और अनुप्रयोग की गहराई के साथ, हमें विश्वास है कि MDM भविष्य के डिजिटल रचनात्मक संसार में एक महत्वपूर्ण भूमिका निभाएगा, हमें और भी अधिक आश्चर्यजनक दृश्य अनुभव प्रदान करेगा।

प्रोजेक्ट पृष्ठ: https://top.aibase.com/tool/ml-mdm

पेपर: https://arxiv.org/pdf/2310.15111