हाल ही में, शोध टीम ने HelloMeme नामक एक ढांचा जारी किया है, जो एक चित्र में एक व्यक्ति के चेहरे के भाव को दूसरे चित्र में किसी और व्यक्ति के चेहरे के भाव पर सुपर-इम्पोज़ करने की क्षमता रखता है।
जैसा कि नीचे चित्र में दिखाया गया है, एक भाव चित्र (पहली पंक्ति) देने पर, भाव की बारीकियों को अन्य चित्रों के पात्रों पर स्थानांतरित किया जा सकता है।
HelloMeme की मुख्य ताकत इसकी अद्वितीय नेटवर्क संरचना में है। यह ढांचा ड्राइविंग वीडियो से प्रत्येक फ्रेम की विशेषताओं को निकालने और इन विशेषताओं को HMControlModule में इनपुट करने में सक्षम है। इस प्रक्रिया के माध्यम से, शोधकर्ता चिकनी वीडियो छवियां उत्पन्न कर सकते हैं। हालांकि, प्रारंभिक उत्पन्न वीडियो में, फ्रेमों के बीच चमकने की समस्या होती है, जो समग्र देखने के अनुभव को प्रभावित करती है। इस समस्या को हल करने के लिए, टीम ने Animatediff मॉड्यूल को शामिल किया, जिसने वीडियो की निरंतरता में काफी सुधार किया, लेकिन इसने छवि की सटीकता को कुछ हद तक कम कर दिया।
इस विरोधाभास को देखते हुए, शोधकर्ताओं ने Animatediff मॉड्यूल को और अधिक अनुकूलित किया, अंततः वीडियो की निरंतरता बढ़ाने के साथ-साथ उच्च चित्र गुणवत्ता बनाए रखने में सफल हुए।
इसके अलावा, HelloMeme ढांचा चेहरे के भाव संपादन के लिए शक्तिशाली समर्थन प्रदान करता है। ARKit Face Blendshapes को बाइंड करके, उपयोगकर्ता उत्पन्न वीडियो में पात्रों के चेहरे के भाव को आसानी से नियंत्रित कर सकते हैं। यह लचीलापन रचनाकारों को विशेष भावनाओं और प्रदर्शनों वाले वीडियो उत्पन्न करने की अनुमति देता है, जिससे वीडियो सामग्री की अभिव्यक्ति को समृद्ध किया जा सकता है।
तकनीकी संगतता के मामले में, HelloMeme ने SD1.5 आधारित प्लग-एंड-प्ले एडेप्टर डिज़ाइन अपनाया है। इस डिज़ाइन का सबसे बड़ा लाभ यह है कि यह T2I (पाठ से चित्र) मॉडल की सामान्यीकरण क्षमता को प्रभावित नहीं करता है, जिससे SD1.5 के आधार पर विकसित किसी भी स्टाइलाइज्ड मॉडल को HelloMeme के साथ निर्बाध रूप से एकीकृत किया जा सकता है। यह विभिन्न रचनाओं के लिए अधिक संभावनाएं प्रदान करता है।
शोध टीम ने पाया कि HMReferenceModule का समावेश वीडियो उत्पन्न करते समय सटीकता की शर्तों में उल्लेखनीय सुधार करता है, जिसका अर्थ है कि उच्च गुणवत्ता वाले वीडियो उत्पन्न करते समय सैंपलिंग चरणों को कम किया जा सकता है। यह खोज न केवल उत्पन्न करने की दक्षता बढ़ाती है, बल्कि रियल-टाइम वीडियो उत्पन्न करने के लिए नए द्वार खोलती है।
अन्य तरीकों की तुलना में प्रभाव इस प्रकार है, यह स्पष्ट है कि HelloMeme का भाव स्थानांतरण प्रभाव अधिक स्वाभाविक और मूल भाव प्रभाव के करीब है।
प्रोजेक्ट प्रवेश द्वार: https://songkey.github.io/hellomeme/
https://github.com/HelloVision/ComfyUI_HelloMeme
मुख्य बिंदु:
🌐 HelloMeme अद्वितीय नेटवर्क संरचना और Animatediff मॉड्यूल के माध्यम से वीडियो उत्पन्न करने की चिकनाई और चित्र गुणवत्ता में दोहरी वृद्धि करता है।
🎭 ढांचा ARKit Face Blendshapes का समर्थन करता है, जिससे उपयोगकर्ता पात्रों के चेहरे के भाव को लचीले ढंग से नियंत्रित कर सकते हैं, वीडियो सामग्री की अभिव्यक्ति को समृद्ध करते हैं।
⚙️ प्लग-एंड-प्ले एडेप्टर डिज़ाइन अपनाया गया है, जो SD1.5 आधारित अन्य मॉडलों के साथ संगतता सुनिश्चित करता है, रचनात्मकता के लिए अधिक लचीलापन प्रदान करता है।