Em 6 de março, a Mobvoi, em colaboração com instituições acadêmicas de ponta como a Universidade de Ciência e Tecnologia de Hong Kong, a Universidade Jiao Tong de Xangai, a Universidade Tecnológica de Nanyang e a Universidade de Ciência e Tecnologia do Noroeste, lançou em código aberto o Spark-TTS, um modelo de geração de voz de nova geração, e lançou seu motor TTS comercial de alta qualidade, o TicVoice7.0.
Como o sétimo motor TTS da Mobvoi, o TicVoice7.0 alcançou um avanço significativo no campo da geração de voz, inaugurando um novo paradigma de geração de voz. A principal vantagem do TicVoice7.0 reside em seu inovador método de codificação de voz e estrutura de modelagem. O motor emprega a tecnologia de codificação BiCodec, codificando a voz em duas partes complementares: tokens globais de comprimento de sequência fixo e tokens semânticos de baixa taxa de bits. Os tokens globais são responsáveis pela modelagem de características globais independentes do tempo, como o timbre, garantindo o controle global da geração de voz; os tokens semânticos, por sua vez, usam as características extraídas pelo wav2vec2.0 como entrada, codificando informações intimamente relacionadas ao texto, garantindo uma forte correlação semântica. Este design não apenas resolve os problemas existentes na codificação de voz tradicional, mas também realiza uma alta unificação da modelagem de tokens de voz e da modelagem de tokens de texto, tornando a geração de voz mais eficiente e controlável.
Com base nessa inovação, o TicVoice7.0 demonstra uma capacidade excepcional de clonagem de voz e expressividade emocional. Ele consegue capturar características de impressão vocal em 3 segundos, permitindo que a IA não apenas "fale como um humano", mas também imite expressões emocionais sutis, como suspiros e pausas. Em comparação com o modelo de voz anterior, o TicVoice7.0 apresenta melhorias significativas na semelhança de timbre, expressão emocional e estabilidade; a pontuação MOS internacionalmente reconhecida aumentou de 3,9 para 4,2, com uma expressividade emocional mais forte, e uma audição mais natural, agradável e estável.
Além disso, o TicVoice7.0 também se destaca na personalização. Os usuários podem criar estilos de voz exclusivos ajustando atributos como gênero, velocidade e frequência fundamental. Na personalização de "Locutores Premium - Vozes de Alta Qualidade", os usuários precisam fornecer apenas 20 a 200 frases de material para obter uma experiência de dublagem profissional de nível de transmissão; a pontuação MOS internacionalmente reconhecida aumentou de 4,3 para 4,7, atingindo o nível de transmissão, fornecendo uma solução de geração de voz profissional para cenários como cinema e jogos.
Atualmente, a Mobvoi já implementou o TicVoice7.0 em seu produto de dublagem de IA, o "Magia Sonora", para oferecer aos usuários melhores serviços e experiências. O motor não apenas se destaca em cenários de aplicação como atendimento ao cliente, audiolivros, transmissões emocionais e narrações de filmes, mas também, por meio de um ecossistema de código aberto e uma profunda colaboração entre indústria, academia e pesquisa, injeta nova energia no desenvolvimento do setor.