फुदान द्वारा विकसित ओपन-सोर्स प्रोजेक्ट Hallo, एक ऐसा प्रोजेक्ट है जो ऑडियो और इमेज के आधार पर बोलने वाले वीडियो जनरेट करता है, जो अब ComfyUI प्लगइन के साथ अनुकूलित है। हालांकि इंस्टॉलेशन के दौरान आवश्यक निर्भरताएँ अधिक हैं, और इसकी कठिनाई का स्तर अपेक्षाकृत उच्च है, लेकिन इस ओपन-सोर्स पारिस्थितिकी के उद्भव ने भविष्य के रीरेंडरिंग और अन्य प्रक्रियाओं के लिए अधिक संभावनाएँ और आनंद प्रदान किया है।
Hallo प्रोजेक्ट के माध्यम से ऑडियो इनपुट करके, आप चेहरे की तस्वीर को बोलने के लिए सक्रिय कर सकते हैं, और इसके साथ संबंधित भावनाएँ भी होंगी, जिससे प्रभाव बहुत प्राकृतिक लगता है। यह प्रोजेक्ट एंड-टू-एंड डिफ्यूजन पैराडाइम का उपयोग करता है, जिसमें ऑडियो ड्रिवन विजुअल सिंथेसिस मॉड्यूल की परतें शामिल हैं, ताकि ऑडियो इनपुट और विजुअल आउटपुट के बीच संरेखण सटीकता में सुधार हो सके, जिसमें होंठों, भावनाओं और मुद्रा की गति शामिल है।
यह परतबद्ध ऑडियो-ड्रिवन विजुअल सिंथेसिस मॉड्यूल भावनाओं और मुद्रा की विविधता के लिए अनुकूलन नियंत्रण प्रदान करता है, जो विभिन्न पहचान के लिए व्यक्तिगत अनुकूलन को अधिक प्रभावी ढंग से लागू करता है। इसका मतलब है कि चाहे किसी भी व्यक्ति की चेहरे की तस्वीर हो, Hallo प्रोजेक्ट के माध्यम से बोलने वाला वीडियो उत्पन्न किया जा सकता है, और प्रभाव प्राकृतिक है, जैसे कि असली व्यक्ति बोल रहा हो।
हालांकि Hallo प्रोजेक्ट का इंस्टॉलेशन प्रक्रिया अपेक्षाकृत जटिल हो सकती है, लेकिन इसका उद्भव निश्चित रूप से ओपन-सोर्स पारिस्थितिकी में नई ऊर्जा लाया है। जैसे-जैसे तकनीक का विकास होता है, हम भविष्य में अधिक ऐसे प्रोजेक्ट्स की उम्मीद कर सकते हैं, जो हमारे जीवन को और अधिक सुविधाजनक और आनंददायक बनाएंगे।
प्लगइन का पता: https://github.com/AIFSH/ComfyUI-Hallo