कृत्रिम बुद्धिमत्ता (AI) ने छवि निर्माण के क्षेत्र में उल्लेखनीय प्रगति की है, लेकिन AI को विभिन्न परिदृश्यों में या कई बार निर्माण करते समय छवि में विशिष्ट पात्रों या वस्तुओं की संगति बनाए रखने का तरीका उद्योग के लिए एक महत्वपूर्ण चुनौती रही है। हाल ही में, बाइटडांस के अंतर्गत आने वाली स्मार्ट क्रिएशन टीम ने अपनी नवीनतम ओपन-सोर्स परियोजना UNO जारी की है, जिसका उद्देश्य नवीन तकनीक के माध्यम से, अधिक मजबूत पीढ़ी नियंत्रण क्षमता को अनलॉक करना है, खासकर छवि विषय की संगति बनाए रखने के मामले में, AI छवि निर्माण क्षेत्र में एक नया सफलता प्रदान करता है।
AI चित्रण "चेहरे की अंधता"? UNO आपको "प्रमुख पात्र" को याद रखने में मदद करता है
पिछले AI छवि निर्माण प्रक्रियाओं में, भले ही समान विवरण दिया गया हो, प्रत्येक बार उत्पन्न किए गए पात्रों और वस्तुओं में दिखावट में उल्लेखनीय अंतर हो सकता है, जिससे उन अनुप्रयोग परिदृश्यों में कई असुविधाएँ होती हैं जहाँ विभिन्न छवियों में पात्रों या वस्तुओं की छवि को एकरूप रखने की आवश्यकता होती है। उदाहरण के लिए, एक श्रृंखला कॉमिक या कहानी चित्र पुस्तक बनाते समय, यदि मुख्य पात्र की छवि लगातार बदलती रहती है, तो यह उपयोगकर्ता अनुभव को गंभीर रूप से प्रभावित करेगा। UNO परियोजना का मुख्य लक्ष्य इस "चेहरे की अंधता" समस्या को हल करना है, जिससे AI छवियों का निर्माण करते समय उपयोगकर्ता द्वारा बनाए रखे जाने वाले मुख्य विषय को सटीक रूप से "याद" रख सके।
मूल तकनीक का रहस्योद्घाटन: डेटा संश्लेषण और मॉडल नवाचार
UNO उच्च संगति छवि निर्माण को प्राप्त करने में सक्षम है, जो इसकी प्रस्तावित उच्च संगति डेटा संश्लेषण प्रक्रिया के कारण है। यह प्रक्रिया डिफ्यूजन मॉडल (डिफ्यूजन ट्रांसफॉर्मर्स, जिसे DiT के रूप में संक्षिप्त किया गया है) की आंतरिक संदर्भ निर्माण क्षमता का पूर्ण उपयोग करती है, उच्च संगति वाले बहु-विषय जोड़ी डेटा का निर्माण करती है।
इसके अलावा, UNO मॉडल को भी नवीन रूप से डिज़ाइन किया गया है, जिसमें मुख्य रूप से प्रगतिशील क्रॉस-मॉडल संरेखण (प्रोग्रेसिव क्रॉस-मॉडल अलाइनमेंट) और सार्वभौमिक घूर्णन स्थिति एन्कोडिंग (यूनिवर्सल रोटरी पोजीशन एम्बेडिंग) शामिल हैं। इन तकनीकों के माध्यम से, UNO पाठ और छवि जानकारी को बेहतर ढंग से समझ और संरेखित कर सकता है, जिससे बहु-विषय संचालित निर्माण प्रक्रिया में उच्च संगति और नियंत्रण क्षमता प्राप्त हो सकती है।
कार्य विशेषताएँ: एकल-विषय और बहु-विषय परिदृश्य दोनों नियंत्रणीय हैं
UNO की ताकत इस तथ्य में निहित है कि यह एकल-विषय और बहु-विषय संचालित छवि निर्माण दोनों का समर्थन करता है, और यह सुनिश्चित करता है कि परिणाम उच्च संगति के साथ उत्पन्न हों। इसका मतलब है कि चाहे किसी एकल पात्र की छवि को अपरिवर्तित रखने की आवश्यकता हो, या कई विशिष्ट वस्तुओं वाले दृश्य में उनकी संबंधित विशेषताओं को बनाए रखने की आवश्यकता हो, UNO दोनों के लिए उपयुक्त है।
बहु-छवि सशर्त इनपुट के माध्यम से, UNO उन मुख्य विशेषताओं को सीख और समझ सकता है जिन्हें उपयोगकर्ता संगत रखना चाहता है, और बाद की पीढ़ी प्रक्रिया में इन विशेषताओं को सटीक रूप से पुनर्स्थापित कर सकता है, भले ही विभिन्न दृश्य विवरणों के तहत, यह भी सुनिश्चित करता है कि "मुख्य पात्र" की छवि विकृत न हो।
DiT मॉडल को सशक्त बनाना: अधिक शक्तिशाली निर्माण क्षमता को मुक्त करना
हालांकि परियोजना के परिचय में सीधे तौर पर यह स्पष्ट नहीं किया गया है कि UNO किस विशिष्ट DiT मॉडल पर आधारित है, लेकिन इसने डिफ्यूजन मॉडल की संदर्भ निर्माण क्षमता का उपयोग करने पर जोर दिया है, और प्रशिक्षण और अनुमान कोड को ओपन-सोर्स किया है, जो शोधकर्ताओं और डेवलपर्स के लिए विभिन्न DiT मॉडल में UNO तकनीक को लागू करना आसान बनाता है। यह अनुमान लगाया जा सकता है कि UNO की तकनीक मौजूदा DiT मॉडल की छवि निर्माण के दौरान वफादारी और नियंत्रण क्षमता को बढ़ाने में मदद करेगी, खासकर उन परिदृश्यों में जहाँ छवि सामग्री की निरंतरता बनाए रखने की आवश्यकता होती है।
huggingface:https://huggingface.co/bytedance-research/UNO