डिफ्यूजन मॉडल (Diffusion Model) एआई चित्रण क्षेत्र की "शीर्ष तकनीक" के रूप में, अपनी उत्कृष्ट जनरेशन प्रभाव के लिए हमेशा से ध्यान का केंद्र रहा है। हालांकि, इसकी लंबी प्रशिक्षण प्रक्रिया हमेशा इसके आगे के विकास में एक बाधा रही है।

हाल ही में, REPA (REPresentation Alignment) नामक एक नवोन्मेष तकनीक ने इस समस्या के समाधान में एक महत्वपूर्ण प्रगति की है, जिससे डिफ्यूजन मॉडल की प्रशिक्षण दक्षता 17.5 गुना बढ़ने की उम्मीद है।

डिफ्यूजन मॉडल का मुख्य सिद्धांत छवि में धीरे-धीरे शोर जोड़ने और फिर मॉडल को स्पष्ट छवि को पुनर्स्थापित करने के लिए प्रशिक्षित करने की प्रक्रिया है। यह विधि प्रभावशाली है, लेकिन प्रशिक्षण प्रक्रिया समय- और श्रम-गहन होती है, अक्सर आदर्श परिणाम प्राप्त करने के लिए लाखों चरणों की आवश्यकता होती है।

image.png

शोधकर्ताओं ने पाया कि इस समस्या की जड़ मॉडल के द्वारा छवि अर्थ जानकारी की समझ की दक्षता में कमी है।

REPA तकनीक की नवीनता इसमें निहित है कि इसमें पूर्व-प्रशिक्षित दृश्य एन्कोडर (जैसे DINOv2) को शामिल किया गया है, जो मॉडल को छवि अर्थ जानकारी सीखने के लिए "पर्सपेक्टिव चश्मा" के रूप में कार्य करता है। इस विधि के माध्यम से, डिफ्यूजन मॉडल प्रशिक्षण के दौरान अपनी छवि की समझ को पूर्व-प्रशिक्षित एन्कोडर के परिणामों के साथ लगातार तुलना करके छवि की मूलभूत विशेषताओं को समझने में तेजी लाता है।

image.png

प्रयोगात्मक परिणाम उत्साहजनक हैं:

प्रशिक्षण दक्षता में बड़े पैमाने पर सुधार: REPA का उपयोग करने के बाद, डिफ्यूजन मॉडल SiT की प्रशिक्षण गति 17.5 गुना बढ़ गई है। जो प्रभाव पहले 7000000 चरणों में प्राप्त होता था, अब केवल 400000 चरणों में हासिल किया जा सकता है।

जनरेशन गुणवत्ता में महत्वपूर्ण सुधार: REPA ने न केवल प्रशिक्षण गति को तेज किया है, बल्कि उत्पन्न छवियों की गुणवत्ता को भी बढ़ाया है। FID माप (उत्पन्न छवियों की गुणवत्ता को मापने का एक महत्वपूर्ण माप) 2.06 से घटकर 1.80 हो गया है, और कुछ मामलों में यह 1.42 के शीर्ष स्तर तक भी पहुंच सकता है।

सरल और उपयोग में आसान तथा उच्च संगतता: REPA विधि को लागू करना सरल है, केवल प्रशिक्षण प्रक्रिया में एक नियमितीकरण तत्व जोड़ना आवश्यक है। इसके अलावा, यह कई पूर्व-प्रशिक्षित दृश्य एन्कोडरों के साथ संगत है, जिससे इसका उपयोग क्षेत्र व्यापक है।

image.png

image.png

REPA तकनीक का उदय एआई चित्रण क्षेत्र में नई संभावनाएँ लाता है:

एआई चित्रण अनुप्रयोग विकास को तेज करना: तेज प्रशिक्षण गति का मतलब है कि डेवलपर्स एआई चित्रण मॉडल को तेजी से सुधार और अनुकूलित कर सकते हैं, जिससे नए अनुप्रयोगों की लॉन्चिंग की गति बढ़ती है।

उत्पन्न छवियों की गुणवत्ता में सुधार: छवि अर्थ को गहराई से समझने के माध्यम से, REPA अधिक वास्तविक और विस्तृत छवियाँ उत्पन्न करने में मदद करता है।

भेदभावात्मक मॉडल और उत्पन्न करने वाले मॉडल के समागम को बढ़ावा देना: REPA ने डिफ्यूजन मॉडल में पूर्व-प्रशिक्षित दृश्य एन्कोडर की क्षमता को शामिल किया है, यह समागम अधिक क्रॉस-मॉडल प्रकार की नवाचार को प्रेरित कर सकता है, और एआई तकनीक को अधिक बुद्धिमान दिशा में आगे बढ़ा सकता है।

एआई प्रशिक्षण लागत को कम करना: प्रशिक्षण दक्षता में वृद्धि सीधे समय और गणना शक्ति की लागत में बचत में बदलती है, जिससे अधिक शोधकर्ताओं और डेवलपर्स को एआई चित्रण तकनीक के विकास में शामिल होने का अवसर मिल सकता है।

एआई चित्रण के अनुप्रयोग क्षेत्रों का विस्तार करना: अधिक प्रभावी प्रशिक्षण प्रक्रिया एआई चित्रण तकनीक को अधिक क्षेत्रों में लागू कर सकती है, जैसे कि रीयल-टाइम छवि निर्माण, व्यक्तिगत डिजाइन आदि।

पत्र का पता: https://arxiv.org/pdf/2410.06940