AI समाचार

वैश्विक AI नवाचार का कोई भी क्षण न चूकें

AI दैनिक

दैनिक तीन मिनट का AI उद्योग रुझान

AI समयरेखा

AI उद्योग मील के पत्थर

अल हार्डवेयर

सभी ऐ हार्डवेयर उत्पादों की सूची देता है.

AI मुद्रीकरण गाइड

नवीनतम मामले

AI मुद्रीकरण मामला साझा करना

छवि संग्रह

AI छवि निर्माण मुद्रीकरण मामले

वीडियो संग्रह

AI वीडियो निर्माण मुद्रीकरण मामले

ऑडियो संग्रह

AI ऑडियो निर्माण मुद्रीकरण मामले

सामग्री संग्रह

AI सामग्री लेखन मुद्रीकरण मामले

AI ट्यूटोरियल

नवीनतम ट्यूटोरियल

नवीनतम AI ट्यूटोरियल का मुफ्त साझाकरण

AI उत्पाद रैंकिंग

AI वेबसाइटों की कुल विज़िट रैंकिंग दिखाता है

AI ट्रैफ़िक वृद्धि रैंकिंग

ट्रैफ़िक द्वारा सबसे तेज़ी से बढ़ती AI वेबसाइटों को ट्रैक करें

AI ट्रैफ़िक गिरावट रैंकिंग

महत्वपूर्ण ट्रैफ़िक गिरावट वाली AI वेबसाइटों पर ध्यान दें

AI साप्ताहिक रैंकिंग

AI वेबसाइटों की साप्ताहिक विज़िट रैंकिंग दिखाता है

AI ओपन सोर्स प्रोजेक्ट लाइब्रेरी

अवलोकन

GitHub लोकप्रिय AI ओपन सोर्स प्रोजेक्ट का अवलोकन

उत्पाद लाइब्रेरी टूल नेविगेशन

बाइटडांस का ओपन-सोर्स प्रोजेक्ट UNO: इमेज जेनरेशन में कैरेक्टर और ऑब्जेक्ट की स्थिरता बनाए रखना

AIbase基地

द्वारा प्रकाशितAI समाचार · 7 मिनट पढ़ें · Apr 14, 2025

कृत्रिम बुद्धिमत्ता (AI) ने छवि निर्माण के क्षेत्र में उल्लेखनीय प्रगति की है, लेकिन AI को विभिन्न परिदृश्यों में या कई बार निर्माण करते समय छवि में विशिष्ट पात्रों या वस्तुओं की संगति बनाए रखने का तरीका उद्योग के लिए एक महत्वपूर्ण चुनौती रही है। हाल ही में, बाइटडांस के अंतर्गत आने वाली स्मार्ट क्रिएशन टीम ने अपनी नवीनतम ओपन-सोर्स परियोजना UNO जारी की है, जिसका उद्देश्य नवीन तकनीक के माध्यम से, अधिक मजबूत पीढ़ी नियंत्रण क्षमता को अनलॉक करना है, खासकर छवि विषय की संगति बनाए रखने के मामले में, AI छवि निर्माण क्षेत्र में एक नया सफलता प्रदान करता है।

AI चित्रण "चेहरे की अंधता"? UNO आपको "प्रमुख पात्र" को याद रखने में मदद करता है

पिछले AI छवि निर्माण प्रक्रियाओं में, भले ही समान विवरण दिया गया हो, प्रत्येक बार उत्पन्न किए गए पात्रों और वस्तुओं में दिखावट में उल्लेखनीय अंतर हो सकता है, जिससे उन अनुप्रयोग परिदृश्यों में कई असुविधाएँ होती हैं जहाँ विभिन्न छवियों में पात्रों या वस्तुओं की छवि को एकरूप रखने की आवश्यकता होती है। उदाहरण के लिए, एक श्रृंखला कॉमिक या कहानी चित्र पुस्तक बनाते समय, यदि मुख्य पात्र की छवि लगातार बदलती रहती है, तो यह उपयोगकर्ता अनुभव को गंभीर रूप से प्रभावित करेगा। UNO परियोजना का मुख्य लक्ष्य इस "चेहरे की अंधता" समस्या को हल करना है, जिससे AI छवियों का निर्माण करते समय उपयोगकर्ता द्वारा बनाए रखे जाने वाले मुख्य विषय को सटीक रूप से "याद" रख सके।

मूल तकनीक का रहस्योद्घाटन: डेटा संश्लेषण और मॉडल नवाचार

UNO उच्च संगति छवि निर्माण को प्राप्त करने में सक्षम है, जो इसकी प्रस्तावित उच्च संगति डेटा संश्लेषण प्रक्रिया के कारण है। यह प्रक्रिया डिफ्यूजन मॉडल (डिफ्यूजन ट्रांसफॉर्मर्स, जिसे DiT के रूप में संक्षिप्त किया गया है) की आंतरिक संदर्भ निर्माण क्षमता का पूर्ण उपयोग करती है, उच्च संगति वाले बहु-विषय जोड़ी डेटा का निर्माण करती है।

इसके अलावा, UNO मॉडल को भी नवीन रूप से डिज़ाइन किया गया है, जिसमें मुख्य रूप से प्रगतिशील क्रॉस-मॉडल संरेखण (प्रोग्रेसिव क्रॉस-मॉडल अलाइनमेंट) और सार्वभौमिक घूर्णन स्थिति एन्कोडिंग (यूनिवर्सल रोटरी पोजीशन एम्बेडिंग) शामिल हैं। इन तकनीकों के माध्यम से, UNO पाठ और छवि जानकारी को बेहतर ढंग से समझ और संरेखित कर सकता है, जिससे बहु-विषय संचालित निर्माण प्रक्रिया में उच्च संगति और नियंत्रण क्षमता प्राप्त हो सकती है।

कार्य विशेषताएँ: एकल-विषय और बहु-विषय परिदृश्य दोनों नियंत्रणीय हैं

UNO की ताकत इस तथ्य में निहित है कि यह एकल-विषय और बहु-विषय संचालित छवि निर्माण दोनों का समर्थन करता है, और यह सुनिश्चित करता है कि परिणाम उच्च संगति के साथ उत्पन्न हों। इसका मतलब है कि चाहे किसी एकल पात्र की छवि को अपरिवर्तित रखने की आवश्यकता हो, या कई विशिष्ट वस्तुओं वाले दृश्य में उनकी संबंधित विशेषताओं को बनाए रखने की आवश्यकता हो, UNO दोनों के लिए उपयुक्त है।

बहु-छवि सशर्त इनपुट के माध्यम से, UNO उन मुख्य विशेषताओं को सीख और समझ सकता है जिन्हें उपयोगकर्ता संगत रखना चाहता है, और बाद की पीढ़ी प्रक्रिया में इन विशेषताओं को सटीक रूप से पुनर्स्थापित कर सकता है, भले ही विभिन्न दृश्य विवरणों के तहत, यह भी सुनिश्चित करता है कि "मुख्य पात्र" की छवि विकृत न हो।

DiT मॉडल को सशक्त बनाना: अधिक शक्तिशाली निर्माण क्षमता को मुक्त करना

हालांकि परियोजना के परिचय में सीधे तौर पर यह स्पष्ट नहीं किया गया है कि UNO किस विशिष्ट DiT मॉडल पर आधारित है, लेकिन इसने डिफ्यूजन मॉडल की संदर्भ निर्माण क्षमता का उपयोग करने पर जोर दिया है, और प्रशिक्षण और अनुमान कोड को ओपन-सोर्स किया है, जो शोधकर्ताओं और डेवलपर्स के लिए विभिन्न DiT मॉडल में UNO तकनीक को लागू करना आसान बनाता है। यह अनुमान लगाया जा सकता है कि UNO की तकनीक मौजूदा DiT मॉडल की छवि निर्माण के दौरान वफादारी और नियंत्रण क्षमता को बढ़ाने में मदद करेगी, खासकर उन परिदृश्यों में जहाँ छवि सामग्री की निरंतरता बनाए रखने की आवश्यकता होती है।

huggingface:https://huggingface.co/bytedance-research/UNO

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT