रियल-टाइम संचार की दुनिया में, चाहे वह फोन हो या वीडियो कॉन्फ्रेंसिंग, आवाज़ हमारे आत्म-प्रकाशन का एक महत्वपूर्ण उपकरण है। लेकिन क्या आपने कभी सोचा है कि अगर हम बोलने वाले की आवाज़ की टोन को बिना भाषा की सामग्री और लय को प्रभावित किए वास्तविक समय में बदल सकें, तो क्या होगा? StreamVC तकनीक के आगमन ने हमें यह करने की क्षमता प्रदान की है।
StreamVC एक नवोन्मेषी आवाज़ परिवर्तन समाधान है, जो स्रोत आवाज़ की सामग्री और लय को बनाए रखते हुए लक्षित आवाज़ की टोन से मेल खाता है। पारंपरिक तरीकों के विपरीत, StreamVC इनपुट सिग्नल पर कम विलंबता के साथ परिणाम तरंग उत्पन्न करता है, यहां तक कि मोबाइल प्लेटफार्मों पर भी, जिससे यह रियल-टाइम संचार स्थितियों जैसे फोन और वीडियो कॉन्फ्रेंसिंग, और इन स्थितियों में आवाज़ की गुमनामी के लिए उपयुक्त बनाता है।
तकनीकी विशेषताएँ:
रियल-टाइम: StreamVC मोबाइल उपकरणों पर 70.8 मिलीसेकंड की कम विलंबता निष्पादन को संभव बनाता है।
उच्च गुणवत्ता वाली आवाज़ संश्लेषण: SoundStream न्यूरल ऑडियो कोडेक की संरचना और प्रशिक्षण रणनीति का उपयोग करके हल्के वजन की उच्च गुणवत्ता वाली आवाज़ संश्लेषण को प्राप्त करता है।
स्वर स्थिरता: सफेद मूल आवृत्ति (f0) जानकारी को शामिल करके स्वर की स्थिरता को बढ़ाता है, जबकि स्रोत बोलने वाले की आवाज़ की जानकारी को लीक नहीं करता।
StreamVC का डिज़ाइन Soft-VC और SoundStream से प्रेरित है। यह HuBERT मॉडल द्वारा निकाले गए पृथक ध्वनि यूनिट को सामग्री एन्कोडर नेटवर्क के पूर्वानुमान लक्ष्य के रूप में उपयोग करता है। सामग्री एन्कोडर और डिकोडर की संरचना और प्रशिक्षण रणनीति SoundStream न्यूरल ऑडियो कोडेक के डिज़ाइन को अपनाती है, जिससे उच्च गुणवत्ता वाले कारणात्मक ऑडियो संश्लेषण को प्राप्त किया जा सके।
StreamVC ने प्राकृतिकता, समझने की क्षमता, बोलने वाले की समानता और स्वर स्थिरता सहित कई बेंचमार्क परीक्षणों में मौजूदा तकनीकों की तुलना की। प्रयोगात्मक परिणाम दर्शाते हैं कि StreamVC स्रोत भाषा की टोन को बनाए रखने में उत्कृष्ट प्रदर्शन करता है, और बोलने वाले की समानता के मामले में भी यह ठीक से समायोजित मॉडल के साथ प्रतिस्पर्धा कर सकता है।
StreamVC ने साबित किया है कि मोबाइल उपकरणों पर कम विलंबता के साथ प्रभावी आवाज़ परिवर्तन पूरी तरह से संभव है। HuBERT से निकाले गए नरम ध्वनि यूनिट को स्ट्रीम करने योग्य कारणात्मक संकुचन न्यूरल नेटवर्क संरचना के माध्यम से सीखा जा सकता है, और डिकोडर में सफेद f0 जानकारी को इंजेक्ट करना उच्च गुणवत्ता वाले आउटपुट प्रदान करने के लिए महत्वपूर्ण है।
पेपर का पता: https://arxiv.org/pdf/2401.03078