शोधकर्ताओं ने हाल ही में REPA नामक एक नई तकनीक विकसित की है, जिसका उद्देश्य AI चित्र निर्माण मॉडल के प्रशिक्षण गति को तेज करना है। REPA का मतलब REPresentation Alignment है, जो DINOv2 जैसे मॉडलों से उच्च गुणवत्ता वाले दृश्य प्रतिनिधित्व को एकीकृत करके प्रशिक्षण गति और आउटपुट गुणवत्ता को बढ़ाता है।
पारंपरिक फैलाव मॉडल आमतौर पर शोर वाले चित्र बनाते हैं, और फिर धीरे-धीरे उन्हें साफ चित्रों में परिष्कृत करते हैं। REPA एक चरण जोड़ता है, जो इस शोर हटाने की प्रक्रिया में उत्पन्न प्रतिनिधित्व की तुलना DINOv2 के प्रतिनिधित्व से करता है। फिर, यह फैलाव मॉडल की छिपी हुई स्थिति को DINOv2 के प्रतिनिधित्व पर प्रक्षिप्त करता है।
शोधकर्ताओं का कहना है कि REPA न केवल प्रशिक्षण दक्षता को बढ़ाता है, बल्कि उत्पन्न चित्रों की गुणवत्ता में भी सुधार करता है। विभिन्न फैलाव मॉडल आर्किटेक्चर का उपयोग करके किए गए परीक्षणों में महत्वपूर्ण सुधार दिखा: 1. प्रशिक्षण समय में 17.5 गुना तक की कमी 2. आउटपुट चित्र की गुणवत्ता में कोई हानि नहीं 3. मानक चित्र गुणवत्ता संकेतकों पर बेहतर प्रदर्शन
उदाहरण के लिए, REPA का उपयोग करने वाला SiT-XL मॉडल केवल 4 लाख प्रशिक्षण चरणों में वह लक्ष्य प्राप्त करता है, जिसके लिए पारंपरिक मॉडल को 70 लाख चरणों की आवश्यकता होती है। शोधकर्ताओं का मानना है कि यह एक मजबूत और अधिक कुशल AI चित्र निर्माण प्रणाली की दिशा में एक महत्वपूर्ण कदम है।
REPA तकनीक का आगमन AI चित्र निर्माण मॉडल के प्रशिक्षण गति और आउटपुट गुणवत्ता के लिए नई उम्मीद लेकर आया है। जैसे-जैसे यह तकनीक आगे बढ़ेगी और लागू होगी, हम अधिक नवाचार और突破 देखने की उम्मीद कर सकते हैं।