विविडटॉक (VividTalk)
वास्तविक, होंठों के मिलान वाले रैप वीडियो उत्पन्न करता है
सामान्य उत्पादछविऑडियो चालितअवतार उत्पादन
विविडटॉक एक वन-टाइम ऑडियो-संचालित अवतार उत्पादन तकनीक है जो 3डी मिश्रित पूर्वानुमान पर आधारित है। यह भावनाओं से भरपूर, प्राकृतिक सिर की मुद्रा और होंठों के मिलान वाले यथार्थवादी रैप वीडियो उत्पन्न करने में सक्षम है। यह तकनीक दो-चरणीय सामान्य ढांचे का उपयोग करती है, जो उपरोक्त सभी विशेषताओं वाले उच्च दृश्य गुणवत्ता वाले रैप वीडियो के उत्पादन का समर्थन करती है। विशेष रूप से, पहले चरण में, दो प्रकार की गति (अकठोर भावनात्मक गति और कठोर सिर की गति) सीखकर, ऑडियो को ग्रिड में मैप किया जाता है। भावनात्मक गति के लिए, मॉडल की प्रतिनिधित्व क्षमता को अधिकतम करने के लिए मिश्रित आकार और शीर्ष बिंदुओं का उपयोग मध्यवर्ती प्रतिनिधित्व के रूप में किया जाता है। प्राकृतिक सिर की गति के लिए, एक नया सीखने योग्य सिर मुद्रा कोडबुक प्रस्तावित किया गया है, और एक दो-चरणीय प्रशिक्षण तंत्र का उपयोग किया गया है। दूसरे चरण में, एक दोहरी शाखा गति VAE और एक जनरेटर प्रस्तावित किया गया है जो ग्रिड को घने गति में परिवर्तित करता है और उच्च-गुणवत्ता वाले वीडियो को फ्रेम दर फ्रेम संश्लेषित करता है। बड़ी संख्या में प्रयोगों से पता चलता है कि विविडटॉक होंठों के मिलान और यथार्थवादी संवर्धन के साथ उच्च दृश्य गुणवत्ता वाले रैप वीडियो उत्पन्न कर सकता है और पिछले अत्याधुनिक कार्यों से बेहतर प्रदर्शन करता है, उद्देश्य और व्यक्तिपरक तुलना दोनों में। इस तकनीक का कोड प्रकाशित होने के बाद सार्वजनिक रूप से जारी किया जाएगा।
विविडटॉक (VividTalk) नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
205728
बाउंस दर
53.28%
प्रति विज़िट औसत पृष्ठ
1.6
औसत विज़िट अवधि
00:01:05