A equipe de voz do Alibaba Tongyi Lab anunciou que seu modelo de linguagem de geração de voz de código aberto, CosyVoice, foi atualizado para a versão 2.0. Essa atualização representa um avanço significativo na precisão, estabilidade e experiência natural da geração de voz. O CosyVoice 2.0, por meio da adoção da tecnologia de modelo de linguagem de geração de voz integrada offline e em streaming, alcançou a síntese de voz bidirecional em streaming, com um atraso de síntese do primeiro pacote de até 150 ms, melhorando significativamente a velocidade de resposta da síntese de voz.

微信截图_20241216105354.png

Em termos de precisão de pronúncia, o CosyVoice 2.0 apresentou uma redução de 30% a 50% na taxa de erro em comparação com a versão anterior, alcançando a menor taxa de erro de caracteres no conjunto de testes hard do Seed-TTS, especialmente em termos de trava-línguas, palavras com múltiplos sons e caracteres raros. Além disso, a versão 2.0 manteve a consistência do timbre na geração de voz de amostra zero e na síntese de voz multilíngue, com uma melhoria significativa na capacidade de síntese de voz multilíngue em comparação com a versão 1.0.

O CosyVoice 2.0 também aprimorou a ritmicidade, qualidade de som e correspondência emocional do áudio sintetizado, com a pontuação MOS aumentando de 5,4 para 5,53, aproximando-se da pontuação de um determinado modelo de síntese de voz comercial. Ao mesmo tempo, a versão 2.0 suporta um controle mais granular de emoções e sotaques regionais, oferecendo aos usuários uma gama mais ampla de opções de linguagem, incluindo os principais dialetos como cantonês, Sichuanês, Zhengzhou, Tianjin e Changsha, além de recursos de interpretação de personagens, como imitar a fala de robôs ou Peppa Pig.

A atualização do CosyVoice 2.0 não apenas aprimora a tecnologia e a experiência de síntese de voz, mas também impulsiona o desenvolvimento da comunidade de código aberto, incentivando mais desenvolvedores a participarem da inovação e aplicação de tecnologias de processamento de voz.

  • Repositório GitHub: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) consulte as atualizações mais recentes do CosyVoice2

  • DEMO de experiência online: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

  • Código aberto: https://github.com/FunAudioLLM/CosyVoice

  • Modelo de código aberto: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B