हाल ही में, बाइटडांस ने LatentSync नामक एक नए प्रकार का मुँह के लय समन्वय ढांचा जारी किया है, जिसका उद्देश्य ऑडियो कंडीशनल लेटेंट डिफ्यूजन मॉडल का उपयोग करके अधिक सटीक मुँह के लय समन्वय प्राप्त करना है। यह ढांचा स्थिर डिफ्यूजन पर आधारित है और समय संगति के लिए अनुकूलित किया गया है।
पिक्सेल स्पेस डिफ्यूजन या दो चरणीय उत्पादन विधियों के विपरीत, LatentSync एक एंड-टू-एंड दृष्टिकोण अपनाता है, जिसमें मध्यवर्ती गति प्रतिनिधित्व की आवश्यकता नहीं होती है, और यह सीधे जटिल ऑडियो और दृश्य के बीच संबंधों को मॉडल कर सकता है।
LatentSync के ढांचे में, पहले व्हिस्पर का उपयोग करके ऑडियो स्पेक्ट्रोग्राम को ऑडियो एम्बेडिंग में परिवर्तित किया जाता है, और इसे U-Net मॉडल में क्रॉस अटेंशन लेयर के माध्यम से एकीकृत किया जाता है। ढांचा संदर्भ फ़्रेम और मास्क फ़्रेम को शोर लेटेंट वेरिएबल के साथ चैनल स्तर पर जोड़कर U-Net के लिए इनपुट के रूप में कार्य करता है।
प्रशिक्षण प्रक्रिया के दौरान, एक चरण में भविष्यवाणी किए गए शोर से स्वच्छ लेटेंट वेरिएबल का अनुमान लगाया जाता है, और फिर इसे स्वच्छ फ़्रेम उत्पन्न करने के लिए डिकोड किया जाता है। साथ ही, मॉडल ने समय संगति को बढ़ाने के लिए टेम्पोरल REPresentation Alignment (TREPA) तंत्र को शामिल किया है, ताकि उत्पन्न वीडियो मुँह के लय समन्वय की सटीकता के साथ-साथ समय में निरंतरता बनाए रख सके।
इस तकनीक के प्रभाव को प्रदर्शित करने के लिए, परियोजना ने मूल वीडियो और मुँह के लय समन्वय प्रक्रिया के बाद के वीडियो के उदाहरणों की एक श्रृंखला प्रदान की है। उदाहरणों के माध्यम से, उपयोगकर्ता वीडियो मुँह के लय समन्वय में LatentSync की महत्वपूर्ण प्रगति को सहजता से अनुभव कर सकते हैं।
मूल वीडियो:
आउटपुट वीडियो:
इसके अलावा, परियोजना ने उपयोगकर्ताओं को प्रशिक्षण और परीक्षण के लिए सुविधा प्रदान करने के लिए इनफेरेंस कोड और चेकपॉइंट को ओपन-सोर्स करने की योजना बनाई है। जो उपयोगकर्ता इनफेरेंस का प्रयास करना चाहते हैं, उन्हें केवल आवश्यक मॉडल वेट फ़ाइल डाउनलोड करनी होगी। डेटा प्रोसेसिंग प्रक्रिया का पूरा सेट भी तैयार किया गया है, जिसमें वीडियो फ़ाइल प्रोसेसिंग से लेकर चेहरे के संरेखण के विभिन्न चरण शामिल हैं, यह सुनिश्चित करते हुए कि उपयोगकर्ता आसानी से शुरू कर सकें।
मॉडल परियोजना प्रवेश: https://github.com/bytedance/LatentSync
मुख्य बिंदु:
🌟 LatentSync एक ऑडियो कंडीशनल लेटेंट डिफ्यूजन मॉडल पर आधारित एंड-टू-एंड मुँह के लय समन्वय ढांचा है, जिसमें मध्यवर्ती गति प्रतिनिधित्व की आवश्यकता नहीं है।
🎤 यह ढांचा व्हिस्पर का उपयोग करके ऑडियो स्पेक्ट्रोग्राम को एम्बेडिंग में परिवर्तित करता है, जिससे मुँह के लय समन्वय प्रक्रिया में मॉडल की सटीकता और समय संगति बढ़ती है।
📹 परियोजना ने उदाहरण वीडियो की एक श्रृंखला प्रदान की है और संबंधित कोड और डेटा प्रोसेसिंग प्रक्रिया को ओपन-सोर्स करने की योजना बनाई है, जिससे उपयोगकर्ताओं के लिए उपयोग और प्रशिक्षण आसान हो सके।