B站 ने XTTS और Tortoise पर आधारित एक GPT शैली का टेक्स्ट-टू-स्पीच (TTS) मॉडल IndexTTS जारी किया है। यह सिस्टम चीनी टेक्स्ट को संसाधित करते समय, अद्वितीय पिनयिन सुधारित चाइनीज़ उच्चारण क्षमता रखता है, और विराम चिह्नों के माध्यम से किसी भी स्थान पर सटीक विराम नियंत्रण कर सकता है। इस नवीन तकनीक ने टेक्स्ट-टू-स्पीच के प्रभाव को और अधिक प्राकृतिक और सुचारू बना दिया है, जिसने व्यापक ध्यान आकर्षित किया है।

QQ_1740637228105.png

IndexTTS सिस्टम को हजारों घंटों के डेटा प्रशिक्षण के माध्यम से प्रशिक्षित किया गया है, और यह उद्योग में अग्रणी प्रदर्शन प्राप्त कर चुका है, जो वर्तमान में लोकप्रिय TTS सिस्टम जैसे XTTS, CosyVoice2, Fish-Speech और F5-TTS से बेहतर है। सिस्टम के कई मॉड्यूल को उन्नत किया गया है, विशेष रूप से स्पीकर स्थिति विशेषता अभिव्यक्ति और ऑडियो गुणवत्ता अनुकूलन में गहन सुधार किया गया है। मिश्रित मॉडलिंग पद्धति को अपनाने से, IndexTTS गलत पढ़े गए चाइनीज़ शब्दों को जल्दी से ठीक कर सकता है, जिससे उपयोगकर्ता अनुभव में सुधार होता है।

QQ_1740637247097.png

इस मॉडल ने नवीनतम सशर्त एन्कोडर और BigVGAN2 पर आधारित वॉयस डिकोडर को अपनाया है, जिससे न केवल प्रशिक्षण की स्थिरता में सुधार हुआ है, बल्कि ध्वनि की समानता और ध्वनि की गुणवत्ता में भी वृद्धि हुई है। टीम ने बताया कि उन्होंने arXiv पर संबंधित शोध पत्र प्रस्तुत किया है, और आने वाले हफ़्तों में मॉडल पैरामीटर और कोड जारी करने की योजना बना रहे हैं। इसके अलावा, IndexTTS कई परीक्षण सेट प्रदान करता है, जिसमें बहु-अक्षर शब्द और व्यक्तिपरक और वस्तुनिष्ठ मूल्यांकन सेट शामिल हैं, ताकि शोधकर्ता गहन विश्लेषण कर सकें।

कई मूल्यांकनों में, IndexTTS ने उत्कृष्ट प्रदर्शन किया है, विशेष रूप से शब्द त्रुटि दर (WER) और स्पीकर समानता (SS) के मामले में, यह कई समकक्ष मॉडल से बेहतर है। उदाहरण के लिए, मानक चीनी के परीक्षण में, IndexTTS की शब्द त्रुटि दर केवल 1.3% है, जो अन्य मॉडल के प्रदर्शन से बहुत कम है, जो इसकी मजबूत सटीकता और स्थिरता को दर्शाता है। साथ ही, ध्वनि गुणवत्ता मूल्यांकन में, IndexTTS का MOS स्कोर 4.01 तक पहुँच गया है, जो इसकी उत्कृष्ट ध्वनि गुणवत्ता और स्वर को दर्शाता है।

तकनीकी प्रगति और अनुप्रयोग परिदृश्यों के विस्तार के साथ, IndexTTS के प्रकाशन ने टेक्स्ट-टू-स्पीच तकनीक को उच्च स्तर तक ले जाने का संकेत दिया है। इस सिस्टम के बारे में अधिक जानकारी के लिए, उपयोगकर्ता विस्तृत उपयोग अनुभव और तकनीकी सहायता प्राप्त करने के लिए संबंधित टीम से संपर्क कर सकते हैं।

प्रोजेक्ट:https://github.com/index-tts/index-tts

मुख्य बिंदु:

🌟 IndexTTS XTTS और Tortoise पर आधारित एक GPT शैली का TTS मॉडल है, जो चीनी शब्दों के उच्चारण को ठीक कर सकता है और विराम को नियंत्रित कर सकता है।  

📊 सिस्टम को हजारों घंटों के प्रशिक्षण के माध्यम से प्रशिक्षित किया गया है, जो कई मौजूदा लोकप्रिय TTS सिस्टम से बेहतर है, जो उद्योग में अग्रणी प्रदर्शन को दर्शाता है।  

🔍 IndexTTS ने कई मूल्यांकनों में उत्कृष्ट प्रदर्शन किया है, शब्द त्रुटि दर और ध्वनि गुणवत्ता दोनों अन्य मॉडल से बेहतर हैं, जो इसके मजबूत लाभों को दर्शाते हैं।