हाल ही में, बीजिंग आर्टिफिशियल इंटेलिजेंस कॉलेज की शोध टीम ने OmniGen नामक एक नई छवि जनरेशन मॉडल लॉन्च किया है।
सर्वांगीण छवि जनरेशन और संपादन प्रतिभा
पारंपरिक छवि जनरेशन उपकरणों जैसे Stable Diffusion की तुलना में, OmniGen का सबसे बड़ा आकर्षण यह है कि यह अब केवल एकल कार्य पर ध्यान केंद्रित नहीं करता है, बल्कि इसमें कई क्षमताएँ हैं:
यह एक एकीकृत ढांचे के तहत विभिन्न छवि जनरेशन कार्यों को संभाल सकता है: जिसमें पाठ से छवि जनरेशन, छवि संपादन शामिल हैं, इसे एक सर्वांगीण प्रतिभा कहा जा सकता है।
इसका मतलब है कि उपयोगकर्ताओं को केवल सरल संकेत शब्द प्रदान करने की आवश्यकता है, जिससे वे छवि जनरेशन और बारीक संपादन को नियंत्रित कर सकते हैं, और अब ControlNet, IP-Adapter जैसे प्लगइन्स का उपयोग करके छवियों के विवरण को समायोजित करने की आवश्यकता नहीं है!
यहाँ AIbase ने एक विस्तृत पुराने कैमरे के रचनात्मक फोटो लेने के प्रभाव संकेत शब्द के आधार पर, समग्र जनरेशन के प्रभाव की बारीकियों को पूरी तरह से प्रदर्शित किया है, परिणाम इस प्रकार है:
संकेत शब्द: एक पुराने कैमरे को जमीन पर रखा गया है, जो हवा में पोलरॉइड-शैली के फ़ोटो की एक घूमती हुई बादल को बाहर निकाल रहा है। फ़ोटो, जो परिदृश्य, वन्यजीव और यात्रा के दृश्य दिखाते हैं, गुरुत्वाकर्षण को चुनौती देते हुए, गति के एक भंवर में ऊपर की ओर तैरते हैं। कैमरा भीतर से एक चमकदार, धुएं वाली रोशनी निकालता है, जो जादुई, अद्भुत वातावरण को बढ़ाता है। गहरे पृष्ठभूमि में प्रकाशित फ़ोटो और कैमरे के साथ कंट्रास्ट करता है, जो जीवंत रंगों और गतिशीलता से भरी एक स्वप्निल, पुरानी दृश्य को बनाता है। जमीन पर बिखरे हुए फ़ोटो और भी अधिकCaptured यादों के विस्फोट के विचार में योगदान करते हैं।
उदाहरण के लिए, नीचे दिए गए तीन आधिकारिक मामलों में, दो चित्र अपलोड करें, संबंधित संकेत शब्द दर्ज करें, और एक ही दृश्य में उन्हें मिलाया जा सकता है।
OmniGen की संरचना बहुत सरल है। पिछले छवि जनरेशन मॉडलों की तुलना में, इसे अब अतिरिक्त पाठ एन्कोडर या जटिल कार्यप्रवाह की आवश्यकता नहीं है। केवल शर्तें दर्ज करें, OmniGen प्रभावी ढंग से छवियों को उत्पन्न कर सकता है, जिससे उपयोगकर्ता अनुभव में काफी सुधार होता है। यह परिवर्तनशील आत्म-कोडर और पूर्व-प्रशिक्षित ट्रांसफार्मर मॉडल को जोड़ता है, जिससे एक ही मॉडल में छवि और पाठ इनपुट को एक साथ संभाला जा सके, अनावश्यक जटिलता को कम करता है।
छवि जनरेशन के प्रभाव को बढ़ाने के लिए, OmniGen ने सुधार प्रवाह प्रशिक्षण विधि को अपनाया है, जो सीधे लक्ष्य गति को पुनर्प्राप्त करके छवि जनरेशन के नियंत्रण को अधिक सटीक बनाता है। इसके अलावा, इसकी प्रगतिशील प्रशिक्षण रणनीति मॉडल को निम्न रिज़ॉल्यूशन से उच्च रिज़ॉल्यूशन में धीरे-धीरे जनरेशन तकनीकों को सीखने की अनुमति देती है, जिसका परिणाम काफी प्रभावशाली होता है।
OmniGen छवि जनरेशन में उन्नत मॉडलों के बराबर है
जानकारी के अनुसार, OmniGen का प्रशिक्षण डेटा सेट भी बहुत बड़ा और विविध है, जिसमें विभिन्न छवि जनरेशन कार्य शामिल हैं। यह सुनिश्चित करने के लिए कि मॉडल में मल्टी-टास्क प्रोसेसिंग की मजबूत क्षमता है, शोधकर्ताओं ने X2I नामक एक बड़े पैमाने पर डेटा सेट का निर्माण किया है, जिसमें पाठ से छवि, छवि संपादन आदि के कई कार्यों के डेटा शामिल हैं। इससे OmniGen विभिन्न कार्यों से सीखने और ज्ञान को स्थानांतरित करने में सक्षम है, नई जनरेशन क्षमताओं को प्रदर्शित करता है।
कई परीक्षणों में, OmniGen का प्रदर्शन आश्चर्यजनक रहा है, पाठ से छवि जनरेशन में, यह बाजार में सबसे उन्नत मॉडलों के साथ प्रदर्शन में तुलनीय है। GenEval बेंचमार्क परीक्षण में, OmniGen ने केवल 0.1 करोड़ छवियों का उपयोग करके प्रशिक्षण प्राप्त किया, जबकि SD3 ने 10 करोड़ से अधिक छवियों का उपयोग किया।
छवि संपादन की क्षमता भी समान रूप से उत्कृष्ट है, जो स्रोत छवि और संपादन निर्देशों को सटीक रूप से नियंत्रित कर सकती है। उदाहरण के लिए, EMU-Edit परीक्षण सेट पर, यह InstructPix2Pix जैसे प्रसिद्ध मॉडलों को पार कर गया, और वर्तमान में सबसे उन्नत EMU-Edit मॉडल के बराबर है।
जबकि विषय संचालित जनरेशन कार्यों में, OmniGen ने अद्वितीय व्यक्तिगत क्षमताओं का प्रदर्शन किया है, जो कला निर्माण और विज्ञापन डिजाइन जैसे कई क्षेत्रों के लिए उपयुक्त है।
प्रयोग का पता: https://huggingface.co/spaces/Shitao/OmniGen
शोध पत्र: https://arxiv.org/html/2409.11340v1