Am 6. März veröffentlichte Mobvoi (出门问问) in Zusammenarbeit mit führenden akademischen Einrichtungen wie der Hong Kong University of Science and Technology, der Shanghai Jiao Tong University, der Nanyang Technological University und der Northwestern Polytechnical University das neue Sprachgenerierungsmodell Spark-TTS als Open Source und brachte gleichzeitig seine kommerzielle, hochwertige TTS-Engine TicVoice7.0 auf den Markt. Als siebte TTS-Engine von Mobvoi stellt TicVoice7.0 einen bedeutenden Durchbruch im Bereich der Sprachgenerierung dar und eröffnet ein völlig neues Paradigma.
Der Kernvorteil von TicVoice7.0 liegt in seiner innovativen Sprachcodierungsmethode und Modellstruktur. Die Engine verwendet die BiCodec-Codierungstechnologie, um Sprache in zwei komplementäre Teile zu codieren: Global Tokens mit fester Sequenzlänge und Semantic Tokens mit niedriger Bitrate. Global Tokens modellieren zeitunabhängige globale Merkmale wie die Stimmfarbe und gewährleisten die globale Steuerbarkeit der Sprachgenerierung; Semantic Tokens hingegen codieren, basierend auf den mit wav2vec2.0 extrahierten Merkmalen, eng mit dem Text verbundene Informationen und gewährleisten eine starke semantische Korrelation. Dieses Design löst nicht nur Probleme traditioneller Sprachcodierungen, sondern ermöglicht auch eine hohe Einheitlichkeit zwischen der Sprach-Token-Modellierung und der Text-Token-Modellierung, was die Sprachgenerierung effizienter und kontrollierbarer macht.
Basierend auf dieser Innovation zeigt TicVoice7.0 eine herausragende Sprachklonfähigkeit und emotionale Ausdruckskraft. Es kann innerhalb von 3 Sekunden präzise Stimmmerkmale erfassen, sodass die KI nicht nur „menschliche Sprache“ sprechen, sondern auch subtile emotionale Ausdrücke wie Seufzer und Pausen imitieren kann. Im Vergleich zum Vorgängermodell hat TicVoice7.0 die Ähnlichkeit der Stimmfarbe, die emotionale Ausdruckskraft und die Stabilität deutlich verbessert. Die internationale MOS-Bewertung stieg von 3,9 auf 4,2, die emotionale Ausdruckskraft ist stärker, der Klang natürlicher, angenehmer und stabiler.
Darüber hinaus zeichnet sich TicVoice7.0 durch seine hervorragende Personalisierung aus. Benutzer können Geschlecht, Sprechgeschwindigkeit, Grundfrequenz und andere Attribute anpassen, um einen einzigartigen Sprachstil präzise zu gestalten. Bei der Erstellung von „Top-Profi-Sprecher“-Profilen benötigen Benutzer nur 20 bis 200 Sprachbeispiele, um ein professionelles Sprechererlebnis auf Sendeebene zu erhalten. Die internationale MOS-Bewertung stieg von 4,3 auf 4,7 und erreicht damit Rundfunkqualität. Dies bietet professionelle Sprachgenerierungslösungen für Film, Spiele und andere Bereiche.
Derzeit setzt Mobvoi TicVoice7.0 bereits in seinem KI-Sprachdubbing-Produkt „MoYinGongFang“ (魔音工坊) ein, um Benutzern einen besseren Service und ein besseres Erlebnis zu bieten. Die Engine überzeugt nicht nur in Anwendungen wie Kundenservice, Hörbüchern, emotionalen Livestreams und Filmkommentaren, sondern fördert durch das Open-Source-Ökosystem und die intensive Zusammenarbeit zwischen Industrie, Wissenschaft und Forschung die Entwicklung der Branche.