आज के डिजिटल युग में, छवि उत्पन्न करने वाली तकनीक आश्चर्यजनक गति से विकसित हो रही है। हाल ही में, सिंगापुर विश्वविद्यालय के शोध दल ने एक नई रूपरेखा - ओम्नीकंट्रोल प्रस्तुत की है, जिसका उद्देश्य छवि उत्पन्न करने की लचीलापन और दक्षता को बढ़ाना है। यह रूपरेखा छवि की शर्तों को जोड़कर, पहले से प्रशिक्षित डिफ्यूजन ट्रांसफार्मर (Diffusion Transformer, संक्षेप में DiT) मॉडल का पूरा लाभ उठाते हुए, अभूतपूर्व नियंत्रण क्षमताएँ प्रदान करती है।
सरल शब्दों में, यदि आप सामग्री छवि प्रदान करते हैं, तो ओम्नीकंट्रोल का उपयोग करके आप सामग्री छवि के विषय को उत्पन्न की गई छवि में समाहित कर सकते हैं। उदाहरण के लिए, मैंने बाईं ओर की सामग्री छवि अपलोड की, और "चिप व्यक्ति एक डॉक्टर के कार्यालय की मेज के बगल में, मेज पर स्टेथोस्कोप रखी हुई" इनपुट किया, तो परिणाम सामान्य था, जैसा कि नीचे दिखाया गया है:
ओम्नीकंट्रोल का मुख्य तत्व इसके "पैरामीटर पुन: उपयोग तंत्र" में निहित है। यह तंत्र DiT मॉडल को कम अतिरिक्त पैरामीटर के साथ प्रभावी ढंग से छवि की शर्तों को संसाधित करने में सक्षम बनाता है। इसका मतलब है कि मौजूदा विधियों की तुलना में, ओम्नीकंट्रोल को शक्तिशाली कार्यक्षमता प्राप्त करने के लिए केवल 0.1% से 0.1% पैरामीटर बढ़ाने की आवश्यकता होती है। इसके अलावा, यह विभिन्न छवि शर्तों के कार्यों को एकीकृत रूप से संभाल सकता है, जैसे कि विषय-आधारित उत्पन्न करना और स्थानिक संरेखण की शर्तों का अनुप्रयोग, जैसे कि किनारे, गहराई का मानचित्र आदि। यह लचीलापन विशेष रूप से विषय-प्रेरित उत्पन्न कार्यों के लिए उपयुक्त है।
शोध दल ने यह भी विशेष रूप से जोर दिया है कि ओम्नीकंट्रोल इन क्षमताओं को उत्पन्न की गई छवियों के प्रशिक्षण के माध्यम से हासिल करता है, जो विषय-प्रेरित उत्पन्न करने के लिए विशेष रूप से महत्वपूर्ण है। व्यापक मूल्यांकन के बाद, ओम्नीकंट्रोल ने विषय-प्रेरित उत्पन्न करने और स्थानिक संरेखण की शर्तों के कार्यों में मौजूदा UNet मॉडल और DiT अनुकूलन मॉडल को स्पष्ट रूप से पीछे छोड़ दिया है। यह शोध成果 रचनात्मक क्षेत्र में नई संभावनाएँ लाता है।
व्यापक अनुसंधान का समर्थन करने के लिए, टीम ने Subjects200K नामक एक प्रशिक्षण डेटा सेट जारी किया है, जिसमें 200,000 से अधिक एक समान पहचान वाली छवियाँ शामिल हैं, और एक प्रभावी डेटा संश्लेषण पाइपलाइन प्रदान की है। यह डेटा सेट शोधकर्ताओं को एक अमूल्य संसाधन प्रदान करेगा, जिससे वे विषय-सुसंगत उत्पन्न कार्यों की और खोज कर सकें।
ओम्नी का प्रक्षेपण न केवल छवि उत्पन्न करने की दक्षता और प्रभाव को बढ़ाता है, बल्कि कला निर्माण के लिए अधिक संभावनाएँ भी प्रदान करता है। तकनीक की निरंतर प्रगति के साथ, भविष्य की छवि उत्पन्न करना और भी अधिक बुद्धिमान और व्यक्तिगत होगा।
ऑनलाइन अनुभव: https://huggingface.co/spaces/Yuanshi/OminiControl
गिटहब: https://github.com/Yuanshi9815/OminiControl
शोध पत्र: https://arxiv.org/html/2411.15098v2
मुख्य बिंदु:
🌟 ओम्नीकंट्रोल पैरामीटर पुन: उपयोग तंत्र के माध्यम से छवि उत्पन्न करने की नियंत्रण क्षमता को और मजबूत और कुशल बनाता है।
🎨 यह रूपरेखा एक साथ कई छवि शर्तों के कार्यों को संभाल सकती है, जैसे कि किनारे, गहराई का मानचित्र आदि, विभिन्न निर्माण आवश्यकताओं के लिए अनुकूल है।
📸 टीम ने 200,000 से अधिक छवियों का डेटा सेट Subjects200K जारी किया है, जो आगे के अनुसंधान और अन्वेषण में सहायता करता है।