हाल ही में, शंघाई जियाओटोंग विश्वविद्यालय, कैम्ब्रिज विश्वविद्यालय और 吉利 ऑटोमोटिव अनुसंधान संस्थान की अनुसंधान टीम ने एक नई टेक्स्ट-टू-स्पीच (TTS) प्रणाली पेश की है, जिसका नाम F5-TTS है। इस प्रणाली की विशेषता यह है कि यह एक गैर-आत्म-प्रतिगामी विधि अपनाती है, जो प्रवाह मिलान और फैलाव परिवर्तक (DiT) को संयोजित करती है, और पारंपरिक TTS मॉडल में जटिल चरणों को सफलतापूर्वक सरल बनाती है।

image.png

सभी को पता है कि पारंपरिक TTS मॉडल अक्सर जटिल समय अवधि मॉडलिंग, ध्वनि-संरेखण और विशेष पाठ कोडिंग की आवश्यकता होती है, जो सिंथेसिस प्रक्रिया की जटिलता को बढ़ाते हैं। विशेष रूप से, पिछले मॉडल जैसे E2TTS, अक्सर धीमी संकुचन गति और पाठ और ध्वनि के बीच संरेखण में असामान्यता का सामना करते हैं, जिससे उन्हें वास्तविक परिदृश्यों में प्रभावी रूप से लागू करना कठिन हो जाता है। F5-TTS का आगमन इन चुनौतियों को हल करने के लिए है।

F5-TTS का कार्य सिद्धांत बहुत सरल है, पहले इनपुट टेक्स्ट को ConvNeXt संरचना के माध्यम से संसाधित किया जाता है, जिससे इसे ध्वनि के साथ संरेखित करना आसान हो जाता है। फिर, भरे हुए वर्ण अनुक्रम और इनपुट ध्वनि के शोर संस्करण को मॉडल में इनपुट किया जाता है।

यह प्रणाली फैलाव परिवर्तक (DiT) पर निर्भर करती है, जो प्रवाह मिलान के माध्यम से सरल प्रारंभिक वितरण को डेटा वितरण पर प्रभावी ढंग से मानचित्रित करती है। इसके अलावा, F5-TTS ने नवोन्मेषी रूप से अनुमान के समय Sway Sampling रणनीति को पेश किया है, जो अनुमान चरण में प्रारंभिक प्रवाह चरणों को प्राथमिकता देने की अनुमति देती है, जिससे उत्पन्न ध्वनि और इनपुट पाठ के बीच संरेखण प्रभावशीलता में सुधार होता है।

अनुसंधान परिणामों के अनुसार, F5-TTS ने सिंथेसिस गुणवत्ता और अनुमान गति में कई वर्तमान TTS प्रणालियों को पार कर लिया है। LibriSpeech-PC डेटा सेट पर, इस मॉडल की शब्द त्रुटि दर (WER) 2.42 तक पहुंच गई है, और अनुमान के समय का वास्तविक कारक (RTF) 0.15 है, जो पूर्व के फैलाव मॉडल E2TTS की तुलना में महत्वपूर्ण रूप से बेहतर है, जिसमें गति और स्थिरता में कमी है।

image.png

साथ ही, Sway Sampling रणनीति ने उत्पन्न ध्वनि की प्राकृतिकता और समझ को महत्वपूर्ण रूप से बढ़ा दिया है, जिससे मॉडल बिना प्रशिक्षण के भी सहज और अभिव्यक्तिपूर्ण उत्पादन कर सकता है।

F5-TTS ने प्रक्रियाओं को सरल बनाकर, समय अवधि भविष्यवाणी, ध्वनि-संरेखण और स्पष्ट पाठ कोडिंग की आवश्यकता को समाप्त कर दिया है, संरेखण की स्थिरता और सिंथेसिस गुणवत्ता में सुधार किया है। इसके अलावा, शोधकर्ताओं ने नैतिक विचारों पर जोर दिया है, यह सुझाव देते हुए कि जलचिह्न और पहचान प्रणाली स्थापित की जानी चाहिए, ताकि इस मॉडल के दुरुपयोग को रोका जा सके।

प्रोजेक्ट का लिंक: https://github.com/SWivid/F5-TTS

मुख्य बिंदु:

🌟 F5-TTS एक नई गैर-आत्म-प्रतिगामी टेक्स्ट-टू-स्पीच प्रणाली है, जिसने पारंपरिक TTS मॉडल की जटिलता को सरल बनाया है।  

⚡ यह प्रणाली ConvNeXt और DiT संरचना का उपयोग करके पाठ और ध्वनि के बीच संरेखण में सुधार करती है, और सिंथेसिस गुणवत्ता को महत्वपूर्ण रूप से बढ़ाती है।  

🔒 शोधकर्ताओं ने नैतिक मुद्दों पर ध्यान देने की आवश्यकता पर जोर दिया है, यह सुझाव देते हुए कि जलचिह्न और पहचान तंत्र को लागू किया जाना चाहिए, संभावित दुरुपयोग को रोकने के लिए।