पाठ-चालित शैली परिवर्तन छवि संश्लेषण क्षेत्र में एक महत्वपूर्ण कार्य है, जिसका उद्देश्य संदर्भ छवि की शैली को पाठ संकेत में वर्णित सामग्री के साथ मिलाना है। हाल ही में, पाठ से छवि उत्पन्न करने वाले मॉडलों ने महत्वपूर्ण प्रगति की है, जो अधिक सूक्ष्म शैली परिवर्तन को सक्षम बनाते हैं, जबकि सामग्री की उच्च निष्ठा को बनाए रखते हैं। यह तकनीक डिजिटल चित्रण, विज्ञापन और खेल डिज़ाइन जैसे क्षेत्रों में विशाल व्यावहारिक मूल्य रखती है।
हालांकि, मौजूदा शैली परिवर्तन तकनीकों में कुछ कमियाँ हैं, जिनमें प्रमुख चुनौतियाँ शामिल हैं:
शैली ओवरफिटिंग: मौजूदा मॉडल संदर्भ छवि के सभी तत्वों की नकल करने की प्रवृत्ति रखते हैं, जिससे उत्पन्न छवि संदर्भ शैली छवि की विशेषताओं के बहुत करीब होती है, जिससे उत्पन्न छवि की सौंदर्य लचीलापन और अनुकूलन क्षमता सीमित होती है।
पाठ संरेखण की अशुद्धता: मॉडल संदर्भ छवि के प्रमुख रंग या पैटर्न को प्राथमिकता दे सकता है, भले ही ये तत्व पाठ संकेत में दिए गए निर्देशों के साथ विरोधाभासी हों।
उत्पन्न अवशेष: शैली परिवर्तन अनावश्यक अवशेषों को पेश कर सकता है, जैसे कि दोहराए जाने वाले पैटर्न (जैसे चेकबोर्ड प्रभाव), जो छवि की समग्र संरचना को बाधित करते हैं।
इन समस्याओं को हल करने के लिए, शोधकर्ताओं ने तीन पूरक रणनीतियाँ प्रस्तुत की हैं:
AdaIN-आधारित क्रॉस-मोडल फ्यूजन: **अनुकूलनीय उदाहरण सामान्यीकरण (AdaIN)** तंत्र का उपयोग करते हुए, शैली छवि विशेषताओं को पाठ विशेषताओं में शामिल किया जाता है, और फिर इसे छवि विशेषताओं के साथ मिलाया जाता है। यह अनुकूलनीय फ्यूजन एक अधिक सामंजस्यपूर्ण मार्गदर्शक विशेषता बनाता है, जिससे शैली विशेषताएँ पाठ-आधारित निर्देशों के साथ अधिक सामंजस्यपूर्ण तरीके से संरेखित होती हैं। AdaIN सामग्री विशेषताओं को शैली सांख्यिकी को दर्शाने के लिए समायोजित करके सामग्री में शैली को प्रभावी ढंग से शामिल करता है, जबकि सामग्री और पाठ विवरण के बीच सुसंगतता बनाए रखता है।
शैली-आधारित बिना वर्गीकर्ता मार्गदर्शन (SCFG): एक शैली मार्गदर्शन विधि विकसित की गई है, जो लक्ष्य शैली पर ध्यान केंद्रित करती है और अनावश्यक शैली विशेषताओं को कम करती है। लेआउट नियंत्रण वाले उत्पन्न मॉडल (जैसे ControlNet) का उपयोग करके, एक ऐसी "नकारात्मक" छवि उत्पन्न की जाती है जिसमें लक्ष्य शैली का अभाव होता है। इस नकारात्मक छवि की भूमिका प्रसार मॉडल में "खाली" संकेत के समान होती है, जिससे मार्गदर्शन पूरी तरह से लक्ष्य शैली तत्वों पर केंद्रित हो सकता है।
लेआउट स्थिरता के लिए शिक्षक मॉडल का उपयोग: उत्पन्न के प्रारंभिक चरण में शिक्षक मॉडल को शामिल किया जाता है। यह शिक्षक मॉडल मूल पाठ से छवि मॉडल पर आधारित होता है, जो समान पाठ संकेत के साथ ध्वनि उत्पन्न करने का कार्य करता है, और प्रत्येक समय चरण में अपनी स्थानिक ध्यान मानचित्र साझा करता है। यह विधि स्थिर और सुसंगत स्थानिक वितरण सुनिश्चित करती है, जो चेकबोर्ड अवशेष जैसी समस्याओं को प्रभावी ढंग से कम करती है। इसके अलावा, यह विभिन्न शैली संदर्भ छवियों के बीच समान पाठ संकेत पर समान स्थानिक लेआउट बनाए रखने में भी मदद करती है।
शोधकर्ताओं ने इन विधियों की प्रभावशीलता को बड़े पैमाने पर प्रयोगों के माध्यम से सत्यापित किया। परिणामों से पता चला कि यह विधि उत्पन्न छवियों की शैली परिवर्तन गुणवत्ता को महत्वपूर्ण रूप से बढ़ा सकती है, और पाठ संकेत के साथ सुसंगतता बनाए रखती है। इससे भी महत्वपूर्ण बात यह है कि यह विधि मौजूदा शैली परिवर्तन ढांचे में बिना किसी समायोजन के एकीकृत की जा सकती है।
शोधकर्ताओं ने प्रयोगों के माध्यम से पाया कि क्रॉस-अटेंशन तंत्र में अस्थिरता अवशेषों के उत्पन्न होने का कारण बनती है। आत्म-ध्यान तंत्र छवि के लेआउट और स्थानिक संरचना को बनाए रखने में महत्वपूर्ण भूमिका निभाता है, यह उच्च स्तरीय स्थानिक संबंधों को पकड़कर उत्पन्न प्रक्रिया के मूल लेआउट को स्थिर करता है। शैलीकृत छवि में कुछ आत्म-ध्यान मानचित्रों को चयनात्मक रूप से प्रतिस्थापित करके, छवि में महत्वपूर्ण विशेषताओं के स्थानिक संबंधों को बनाए रखा जा सकता है, यह सुनिश्चित करते हुए कि मुख्य लेआउट पूरी ध्वनि प्रक्रिया के दौरान सुसंगत रहता है।
इसके अतिरिक्त, शैली-आधारित बिना वर्गीकर्ता मार्गदर्शन (SCFG) शैली अस्पष्टता की समस्या को प्रभावी ढंग से हल करता है, यह आवश्यक शैली तत्वों को चयनात्मक रूप से उजागर कर सकता है, जबकि अप्रासंगिक या विरोधाभासी विशेषताओं को छानता है। यह विधि नकारात्मक शैली छवियों को उत्पन्न करने के लिए लेआउट नियंत्रण मॉडल का उपयोग करके, मॉडल को आवश्यक शैली घटकों को संप्रेषित करने पर ध्यान केंद्रित करने की अनुमति देती है, जिससे अप्रासंगिक शैली घटकों के ओवरफिटिंग के जोखिम को कम किया जा सकता है।
शोधकर्ताओं ने प्रत्येक घटक के प्रभाव का मूल्यांकन करने के लिए भी विसर्जन प्रयोग किए। परिणामों से पता चला कि AdaIN-आधारित क्रॉस-मोडल फ्यूजन और शिक्षक मॉडल दोनों पाठ संरेखण की सटीकता को महत्वपूर्ण रूप से बढ़ाते हैं, और इनमें पूरक प्रभाव होते हैं।
कुल मिलाकर, इस अध्ययन में प्रस्तुत विधियाँ मौजूदा पाठ-चालित शैली परिवर्तन तकनीकों में शैली ओवरफिटिंग और लेआउट अस्थिरता की समस्याओं को प्रभावी ढंग से कम करने में सक्षम हैं, जिससे उच्च गुणवत्ता वाली छवि उत्पन्न होती है, और पाठ से छवि संश्लेषण कार्य के लिए एक बहुपरक और शक्तिशाली समाधान प्रदान करती है।
पेपर का पता: https://arxiv.org/pdf/2412.08503