A equipe de voz do Alibaba Tongyi Lab anunciou que seu modelo de linguagem de geração de voz de código aberto, CosyVoice, foi atualizado para a versão 2.0. Essa atualização representa um avanço significativo na precisão, estabilidade e experiência natural da geração de voz. O CosyVoice 2.0, por meio da adoção da tecnologia de modelo de linguagem de geração de voz integrada offline e em streaming, alcançou a síntese de voz bidirecional em streaming, com um atraso de síntese do primeiro pacote de até 150 ms, melhorando significativamente a velocidade de resposta da síntese de voz.
Em termos de precisão de pronúncia, o CosyVoice 2.0 apresentou uma redução de 30% a 50% na taxa de erro em comparação com a versão anterior, alcançando a menor taxa de erro de caracteres no conjunto de testes hard do Seed-TTS, especialmente em termos de trava-línguas, palavras com múltiplos sons e caracteres raros. Além disso, a versão 2.0 manteve a consistência do timbre na geração de voz de amostra zero e na síntese de voz multilíngue, com uma melhoria significativa na capacidade de síntese de voz multilíngue em comparação com a versão 1.0.
O CosyVoice 2.0 também aprimorou a ritmicidade, qualidade de som e correspondência emocional do áudio sintetizado, com a pontuação MOS aumentando de 5,4 para 5,53, aproximando-se da pontuação de um determinado modelo de síntese de voz comercial. Ao mesmo tempo, a versão 2.0 suporta um controle mais granular de emoções e sotaques regionais, oferecendo aos usuários uma gama mais ampla de opções de linguagem, incluindo os principais dialetos como cantonês, Sichuanês, Zhengzhou, Tianjin e Changsha, além de recursos de interpretação de personagens, como imitar a fala de robôs ou Peppa Pig.
A atualização do CosyVoice 2.0 não apenas aprimora a tecnologia e a experiência de síntese de voz, mas também impulsiona o desenvolvimento da comunidade de código aberto, incentivando mais desenvolvedores a participarem da inovação e aplicação de tecnologias de processamento de voz.
Repositório GitHub: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) consulte as atualizações mais recentes do CosyVoice2
DEMO de experiência online: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
Código aberto: https://github.com/FunAudioLLM/CosyVoice
Modelo de código aberto: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B