6 मार्च को, मोबवोई (Mobvoi) ने हांगकांग विज्ञान एवं प्रौद्योगिकी विश्वविद्यालय, शंघाई जियाओ टोंग विश्वविद्यालय, नानयांग प्रौद्योगिकी विश्वविद्यालय, और नॉर्थवेस्टर्न पॉलिटेक्निक यूनिवर्सिटी जैसे शीर्ष शैक्षणिक संस्थानों के साथ मिलकर, एक नई पीढ़ी के भाषण उत्पादन मॉडल Spark-TTS को ओपन सोर्स किया, और इसके व्यावसायिक उच्च-गुणवत्ता वाले TTS इंजन - TicVoice7.0 को लॉन्च किया। मोबवोई के सातवें पीढ़ी के TTS इंजन के रूप में, TicVoice7.0 ने भाषण उत्पादन के क्षेत्र में एक महत्वपूर्ण सफलता हासिल की है, और एक नए भाषण उत्पादन प्रतिमान की शुरुआत की है।

TicVoice7.0 का मुख्य लाभ इसकी नवीन भाषण एन्कोडिंग विधि और मॉडलिंग संरचना में है। यह इंजन BiCodec एन्कोडिंग तकनीक का उपयोग करता है, जो भाषण को दो पूरक भागों में एन्कोड करता है: निश्चित क्रम लंबाई वाला Global Token और कम कोड दर वाला Semantic Tokens। Global Token समय से असंबंधित वैश्विक विशेषताओं, जैसे स्वर, को मॉडलिंग करने के लिए जिम्मेदार है, जिससे भाषण उत्पादन की वैश्विक नियंत्रणीयता सुनिश्चित होती है; Semantic Tokens wav2vec2.0 द्वारा निकाली गई विशेषताओं को इनपुट के रूप में लेते हैं, और पाठ से निकटता से संबंधित जानकारी को एन्कोड करते हैं, जिससे अर्थ की मजबूत सहसंबंध सुनिश्चित होती है। यह डिज़ाइन न केवल पारंपरिक भाषण एन्कोडिंग में मौजूद समस्याओं को हल करता है, बल्कि भाषण टोकन मॉडलिंग और पाठ टोकन मॉडलिंग के उच्च स्तर के एकीकरण को भी प्राप्त करता है, जिससे भाषण उत्पादन अधिक कुशल और नियंत्रणीय हो जाता है।

微信截图_20250307084939.png

इस नवाचार के आधार पर, TicVoice7.0 उत्कृष्ट भाषण क्लोनिंग क्षमता और भावनात्मक अभिव्यक्ति प्रदर्शित करता है। यह 3 सेकंड के भीतर ध्वनि की विशेषताओं को पहचान सकता है, जिससे AI न केवल "मानवीय भाषा" बोल सकता है, बल्कि मानव के आह, रुकने जैसे सूक्ष्म भावनात्मक भावों की नकल भी कर सकता है। पिछली पीढ़ी के बड़े भाषण मॉडल की तुलना में, TicVoice7.0 में स्वर समानता, भावनात्मक अभिव्यक्ति और स्थिरता में उल्लेखनीय सुधार हुआ है, अंतर्राष्ट्रीय MOS स्कोर 3.9 से बढ़कर 4.2 हो गया है, भावनात्मक अभिव्यक्ति अधिक मजबूत है, और सुनने में अधिक प्राकृतिक, सुखद और स्थिर है।

इसके अलावा, TicVoice7.0 ने व्यक्तिगत अनुकूलन के मामले में भी उत्कृष्ट प्रदर्शन किया है। उपयोगकर्ता लिंग, गति, मूल आवृत्ति जैसी कई विशेषताओं को समायोजित करके, एक अनोखी ध्वनि शैली को सटीक रूप से आकार दे सकते हैं। "उत्कृष्ट Pro-उत्कृष्ट वक्ता" अनुकूलन के मामले में, उपयोगकर्ताओं को केवल 20-200 वाक्य सामग्री प्रदान करने की आवश्यकता होती है, ताकि उन्हें प्रसारण-स्तरीय पेशेवर डबिंग अनुभव मिल सके, अंतर्राष्ट्रीय MOS स्कोर 4.3 से बढ़कर 4.7 हो गया है, जो प्रसारण स्तर तक पहुँच गया है, और फिल्मों, खेलों आदि के दृश्यों के लिए एक पेशेवर स्तर का भाषण उत्पादन समाधान प्रदान करता है।

वर्तमान में, Mobvoi ने अपने AI डबिंग उत्पाद "मो आवाज़ वर्कशॉप" में TicVoice7.0 को लागू किया है, जो उपयोगकर्ताओं को बेहतर सेवा और अनुभव प्रदान करता है। यह इंजन न केवल ग्राहक सेवा, ऑडियोबुक, भावनात्मक लाइव प्रसारण, फिल्म व्याख्यान आदि अनुप्रयोग परिदृश्यों में उत्कृष्ट प्रदर्शन करता है, बल्कि ओपन सोर्स पारिस्थितिकी तंत्र और उद्योग-अकादमिक-अनुसंधान गहन सहयोग के माध्यम से, उद्योग के विकास में नई गतिशीलता भी जोड़ता है।