कृत्रिम बुद्धिमत्ता चित्रकला के क्षेत्र में, प्रसार मॉडल (Diffusion Model) Unet आर्किटेक्चर पर आधारित से ट्रांसफॉर्मर आर्किटेक्चर (DiT) पर आधारित परिवर्तन का अनुभव कर रहे हैं। हालाँकि, DiT पारिस्थितिकी तंत्र अभी भी प्लगइन समर्थन, दक्षता और बहु-शर्त नियंत्रण जैसे पहलुओं में चुनौतियों का सामना कर रहा है। हाल ही में, Xiaojiu-z के नेतृत्व वाली टीम ने EasyControl नामक एक अभिनव ढाँचा पेश किया है, जिसका उद्देश्य DiT मॉडल को कुशल और लचीला सशर्त नियंत्रण क्षमता प्रदान करना है, जैसे कि DiT मॉडल में एक शक्तिशाली "ControlNet" लगाना।
EasyControl के मुख्य लाभ
EasyControl केवल मॉडल का साधारण जोड़ नहीं है, बल्कि एक सावधानीपूर्वक डिज़ाइन किया गया एकीकृत सशर्त DiT ढाँचा है। इसका मुख्य लाभ हल्के सशर्त इंजेक्शन LoRA मॉड्यूल (Condition Injection LoRA module), स्थिति-जागरूक प्रशिक्षण प्रतिमान (Position-Aware Training Paradigm) और कारणात्मक ध्यान तंत्र (Causal Attention) और KV कैश (KV Cache) तकनीक के संयोजन को शामिल करके उल्लेखनीय प्रदर्शन में वृद्धि प्राप्त करना है। ये नवीन डिज़ाइन EasyControl को मॉडल संगतता (प्लग एंड प्ले, शैली रहित नियंत्रण), जनरेटिव लचीलापन (कई रिज़ॉल्यूशन, पहलू अनुपात और बहु-शर्त संयोजन का समर्थन) और अनुमान दक्षता के मामले में उत्कृष्ट प्रदर्शन करते हैं।
शक्तिशाली नियंत्रण क्षमता: केवल Canny और OpenPose तक ही सीमित नहीं
EasyControl की सबसे आकर्षक विशेषताओं में से एक इसकी शक्तिशाली बहु-शर्त नियंत्रण क्षमता है। इसके कोडबेस से पता चलता है कि EasyControl कई नियंत्रण मॉडल का समर्थन करता है, जिसमें कैनी एज डिटेक्शन, गहराई जानकारी, HED एज स्केच, छवि मरम्मत (Inpainting), मानव मुद्रा (Pose, OpenPose के अनुरूप) और अर्थपूर्ण विभाजन (Seg) शामिल हैं, लेकिन इन्हीं तक सीमित नहीं हैं।
इसका मतलब है कि उपयोगकर्ता विभिन्न नियंत्रण संकेतों को इनपुट करके, विशिष्ट संरचना, आकार और लेआउट वाली छवियों को उत्पन्न करने के लिए DiT मॉडल को सटीक रूप से निर्देशित कर सकते हैं। उदाहरण के लिए, कैनी नियंत्रण के माध्यम से, उपयोगकर्ता वस्तु की रूपरेखा निर्दिष्ट कर सकते हैं; मुद्रा नियंत्रण के माध्यम से, विशिष्ट मानव क्रियाओं वाली छवियों को उत्पन्न करने के लिए निर्देशित किया जा सकता है। इस तरह की सूक्ष्म नियंत्रण क्षमता DiT मॉडल के अनुप्रयोग परिदृश्यों का बहुत विस्तार करती है।
आश्चर्यजनक जिबली चित्र शैली रूपांतरण
मूल संरचना नियंत्रण के अलावा, EasyControl में शक्तिशाली शैली स्थानांतरण क्षमता भी है, खासकर जिबली चित्र शैली रूपांतरण में। बताया गया है कि अनुसंधान टीम ने केवल 100 वास्तविक एशियाई चेहरों और GPT-4 द्वारा उत्पन्न जिबली शैली की संगत छवियों का उपयोग करके प्रशिक्षण दिया है, एक विशेष LoRA मॉडल विकसित किया है। आश्चर्यजनक बात यह है कि यह मॉडल चेहरे को क्लासिक जिबली एनीमेशन शैली में बदलते समय, मूल चेहरे की विशेषताओं को अच्छी तरह से बनाए रख सकता है। उपयोगकर्ता अपनी तस्वीरें अपलोड कर सकते हैं और संबंधित प्रॉम्प्ट के साथ, आसानी से एक समृद्ध हस्तलिखित एनिमेटेड शैली वाली कलाकृतियाँ उत्पन्न कर सकते हैं। परियोजना पक्ष ने उपयोगकर्ताओं को ऑनलाइन इस फ़ंक्शन का अनुभव करने के लिए एक Gradio प्रदर्शन भी प्रदान किया है।
EasyControl परियोजना टीम ने वर्तमान में अनुमान कोड और पूर्व-प्रशिक्षित वज़न जारी किए हैं। इसकी टूडू सूची के अनुसार, भविष्य में स्थानिक पूर्व-प्रशिक्षित वज़न, विषय पूर्व-प्रशिक्षित वज़न और प्रशिक्षण कोड जारी किए जाएँगे, जो EasyControl के कार्य को और बेहतर बनाएँगे और शोधकर्ताओं और डेवलपर्स को अधिक व्यापक उपकरण प्रदान करेंगे।
EasyControl का आगमन निस्संदेह ट्रांसफॉर्मर-आधारित प्रसार मॉडल में शक्तिशाली नियंत्रण क्षमता का इंजेक्शन है, जो सशर्त नियंत्रण के संबंध में DiT मॉडल की कमियों को प्रभावी ढंग से पूरा करता है। कई नियंत्रण विधियों के लिए इसका समर्थन, और जिबली चित्र शैली रूपांतरण की प्रभावशाली क्षमता, यह दर्शाती है कि AI सामग्री पीढ़ी के क्षेत्र में इसके व्यापक अनुप्रयोग संभावनाएँ हैं। इसकी उच्च दक्षता, लचीलापन और उपयोग में आसानी के साथ, EasyControl DiT मॉडल पारिस्थितिकी तंत्र का एक महत्वपूर्ण हिस्सा बनने की उम्मीद है।
परियोजना प्रवेश द्वार: https://top.aibase.com/tool/easycontrol