हालिया अनुसंधान में, "फ्लैश डिफ्यूजन" नामक एक नई विधि ने छवि निर्माण तकनीक में क्रांतिकारी प्रगति की है। यह विधि एकल चरण में शोर रहित बहु-चरण भविष्यवाणी परिणाम उत्पन्न करने के लिए भविष्यवाणी मॉडल को प्रशिक्षित करके पूर्व-प्रशिक्षित डिफ्यूजन मॉडल की उत्पादन प्रक्रिया को तेज करती है।
उत्पाद लिंक: https://top.aibase.com/tool/flash-diffusion
अनुसंधानकर्ताओं का कहना है कि फ्लैश डिफ्यूजन विधि ने केवल सीमित चरणों में छवि निर्माण में अत्याधुनिक FID और CLIP-Score प्रदर्शन हासिल किया है, बल्कि प्रशिक्षण प्रक्रिया में आवश्यक GPU समय और प्रशिक्षित पैरामीटर की संख्या भी मौजूदा विधियों की तुलना में कम है। इसके अतिरिक्त, यह विधि पाठ से छवि, मरम्मत, फेस स्वैपिंग, उच्च रिज़ॉल्यूशन जैसे कई कार्यों में दक्षता और बहुपरकारीता प्रदर्शित करती है।
अनुसंधानकर्ताओं ने बताया कि फ्लैश डिफ्यूजन विधि की नवीनता इसमें निहित है कि यह समय के चरणों का चयन करने के लिए समायोज्य वितरण का उपयोग करती है, जिससे भविष्यवाणी मॉडल को विशिष्ट समय चरणों को बेहतर ढंग से लक्षित करने में मदद मिलती है। इसके अलावा, विधि ने उत्पन्न नमूनों और वास्तविक नमूनों के बीच भेद करने के लिए एक भेदक को प्रशिक्षित करके प्रतिकूल लक्ष्य का उपयोग किया है और इसे संभावित स्थान में लागू किया है ताकि गणना की आवश्यकता को कम किया जा सके। इसी तरह, अनुसंधान टीम ने यह सुनिश्चित करने के लिए वितरण मिलान आसुत हानि का उपयोग किया है कि उत्पन्न नमूने भविष्यवाणी मॉडल द्वारा सीखे गए डेटा वितरण के निकटतम हैं।
इसके अलावा, अनुसंधानकर्ताओं ने फ्लैश डिफ्यूजन विधि की विभिन्न बैकबोन नेटवर्क के साथ अनुकूलन क्षमता को प्रदर्शित किया, जिसमें UNet आधारित डिनोइज़र (SD1.5, SDXL) और DiT(Pixart-α) और एडेप्टर शामिल हैं। कई उदाहरणों में, इस विधि ने नमूनों के चरणों की संख्या को महत्वपूर्ण रूप से कम किया है, जबकि छवि निर्माण की उच्च गुणवत्ता को बनाए रखा है।
फ्लैश डिफ्यूजन विधि का उदय छवि निर्माण तकनीक में नई ऊर्जा का संचार करता है, जिससे उत्पादन प्रक्रिया की दक्षता और बहुपरकारीता में काफी सुधार होता है। यह क्रांतिकारी विधि विभिन्न क्षेत्रों में गहरा प्रभाव डालने की उम्मीद करती है और संबंधित अनुसंधान क्षेत्रों के लिए नए अवसरों और चुनौतियों का निर्माण करती है।