Le 6 mars, Mobvoi, en collaboration avec des institutions académiques de premier plan telles que l'Université de Hong Kong, l'Université Jiao Tong de Shanghai, l'Université technologique de Nanyang et l'Université de technologie du Nord-Ouest, a annoncé la mise en open source de son nouveau modèle de génération vocale Spark-TTS, et le lancement de son moteur TTS commercial haute qualité : TicVoice 7.0. En tant que septième génération de moteurs TTS de Mobvoi, TicVoice 7.0 a réalisé une percée majeure dans le domaine de la génération vocale, ouvrant une nouvelle ère pour cette technologie.
L'avantage principal de TicVoice 7.0 réside dans son mode de codage vocal et sa structure de modélisation innovants. Ce moteur utilise la technologie de codage BiCodec, codant la voix en deux parties complémentaires : des jetons globaux (Global Tokens) de longueur de séquence fixe et des jetons sémantiques (Semantic Tokens) à faible débit binaire. Les jetons globaux modélisent les caractéristiques globales indépendantes du temps, comme le timbre, assurant un contrôle global de la génération vocale ; les jetons sémantiques, quant à eux, utilisent les caractéristiques extraites par wav2vec2.0 comme entrée, codant les informations étroitement liées au texte, assurant une forte corrélation sémantique. Cette conception non seulement résout les problèmes des méthodes de codage vocal traditionnelles, mais réalise également une haute unification de la modélisation des jetons vocaux et de la modélisation des jetons textuels, rendant la génération vocale plus efficace et contrôlable.
Grâce à cette innovation, TicVoice 7.0 présente une capacité de clonage vocal et une expressivité émotionnelle exceptionnelles. Il est capable de capturer les caractéristiques vocales en 3 secondes, permettant à l'IA non seulement de « parler comme un humain », mais aussi d'imiter les expressions émotionnelles subtiles telles que les soupirs et les pauses. Comparé aux précédents grands modèles vocaux, TicVoice 7.0 présente une amélioration significative en termes de similarité de timbre, d'expression émotionnelle et de stabilité. Le score MOS international est passé de 3,9 à 4,2, avec une expressivité émotionnelle plus forte, un rendu plus naturel, agréable et stable.
De plus, TicVoice 7.0 excelle dans la personnalisation. Les utilisateurs peuvent ajuster plusieurs attributs tels que le sexe, la vitesse de parole et la fréquence fondamentale pour créer un style vocal unique. Pour la création de voix personnalisées « Pro-Haute qualité », les utilisateurs n'ont besoin que de fournir 20 à 200 phrases pour obtenir une expérience de doublage professionnelle de niveau radio. Le score MOS international est passé de 4,3 à 4,7, atteignant un niveau de diffusion, offrant des solutions de génération vocale professionnelles pour le cinéma, les jeux vidéo, etc.
Actuellement, Mobvoi a intégré TicVoice 7.0 à son produit de doublage IA « Atelier Magique », offrant aux utilisateurs une meilleure expérience. Ce moteur excelle non seulement dans les applications telles que le service client, les livres audio, le streaming émotionnel et les commentaires vidéo, mais il contribue également au développement du secteur grâce à un écosystème open source et une collaboration approfondie entre la recherche, l'industrie et les universités.