El 6 de marzo, Mobvoi, en colaboración con instituciones académicas de primer nivel como la Universidad de Ciencia y Tecnología de Hong Kong, la Universidad Jiao Tong de Shanghai, la Universidad Tecnológica de Nanyang y la Universidad de Tecnología del Noroeste, lanzaron conjuntamente el nuevo modelo de generación de voz Spark-TTS de código abierto, y presentaron su motor TTS comercial de alta calidad: TicVoice7.0. Como el séptimo motor TTS de Mobvoi, TicVoice7.0 ha logrado un gran avance en el campo de la generación de voz, abriendo un nuevo paradigma en la generación de voz.

La principal ventaja de TicVoice7.0 radica en su innovadora forma de codificación de voz y su estructura de modelado. Este motor utiliza la tecnología de codificación BiCodec, codificando el habla en dos partes complementarias: un Global Token de longitud de secuencia fija y un Semantic Token de baja tasa de bits. El Global Token se encarga de modelar las características globales independientes del tiempo, como el timbre, asegurando la controlabilidad global de la generación de voz; mientras que los Semantic Tokens, con las características extraídas de wav2vec2.0 como entrada, codifican información estrechamente relacionada con el texto, garantizando una fuerte correlación semántica. Este diseño no solo resuelve los problemas existentes en la codificación de voz tradicional, sino que también logra una alta unificación entre el modelado de tokens de voz y el modelado de tokens de texto, haciendo que la generación de voz sea más eficiente y controlable.

微信截图_20250307084939.png

Basándose en esta innovación, TicVoice7.0 muestra una excelente capacidad de clonación de voz y expresividad emocional. Puede capturar con precisión las características de la voz en 3 segundos, permitiendo que la IA no solo "hable como una persona", sino que también imite las sutiles expresiones emocionales humanas, como los suspiros y las pausas. En comparación con el modelo de voz anterior, TicVoice7.0 ha mejorado significativamente en la similitud del timbre, la expresión emocional y la estabilidad; la puntuación MOS internacional ha aumentado de 3.9 a 4.2, con una expresión emocional más fuerte y una sensación auditiva más natural, agradable y estable.

Además, TicVoice7.0 también destaca en la personalización. Los usuarios pueden crear un estilo de voz único ajustando varios atributos como el género, la velocidad y la frecuencia fundamental. En cuanto a la personalización de "locutores profesionales de alta calidad", los usuarios solo necesitan proporcionar de 20 a 200 frases de datos para obtener una experiencia de doblaje profesional de nivel locutor; la puntuación MOS internacional ha aumentado de 4.3 a 4.7, alcanzando un nivel de transmisión, ofreciendo una solución de generación de voz profesional para escenas como cine y videojuegos.

Actualmente, Mobvoi ya ha implementado TicVoice7.0 en su producto de doblaje de IA "Magia de Voz", ofreciendo a los usuarios un mejor servicio y experiencia. Este motor no solo destaca en aplicaciones como atención al cliente, audiolibros, transmisiones en vivo emocionales y narración de películas, sino que también, a través de un ecosistema de código abierto y una profunda colaboración entre la industria, la academia y la investigación, inyecta una nueva energía en el desarrollo del sector.