CosyVoice 2.0: Atualização do Modelo de Geração de Voz de Grande Escala do Laboratório de Inteligência Artificial da Alibaba

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Dec 16, 2024

613

A equipe de voz do Alibaba Tongyi Lab anunciou que seu modelo de linguagem de geração de voz de código aberto, CosyVoice, foi atualizado para a versão 2.0. Essa atualização representa um avanço significativo na precisão, estabilidade e experiência natural da geração de voz. O CosyVoice 2.0, por meio da adoção da tecnologia de modelo de linguagem de geração de voz integrada offline e em streaming, alcançou a síntese de voz bidirecional em streaming, com um atraso de síntese do primeiro pacote de até 150 ms, melhorando significativamente a velocidade de resposta da síntese de voz.

微信截图_20241216105354.png

Em termos de precisão de pronúncia, o CosyVoice 2.0 apresentou uma redução de 30% a 50% na taxa de erro em comparação com a versão anterior, alcançando a menor taxa de erro de caracteres no conjunto de testes hard do Seed-TTS, especialmente em termos de trava-línguas, palavras com múltiplos sons e caracteres raros. Além disso, a versão 2.0 manteve a consistência do timbre na geração de voz de amostra zero e na síntese de voz multilíngue, com uma melhoria significativa na capacidade de síntese de voz multilíngue em comparação com a versão 1.0.

O CosyVoice 2.0 também aprimorou a ritmicidade, qualidade de som e correspondência emocional do áudio sintetizado, com a pontuação MOS aumentando de 5,4 para 5,53, aproximando-se da pontuação de um determinado modelo de síntese de voz comercial. Ao mesmo tempo, a versão 2.0 suporta um controle mais granular de emoções e sotaques regionais, oferecendo aos usuários uma gama mais ampla de opções de linguagem, incluindo os principais dialetos como cantonês, Sichuanês, Zhengzhou, Tianjin e Changsha, além de recursos de interpretação de personagens, como imitar a fala de robôs ou Peppa Pig.

A atualização do CosyVoice 2.0 não apenas aprimora a tecnologia e a experiência de síntese de voz, mas também impulsiona o desenvolvimento da comunidade de código aberto, incentivando mais desenvolvedores a participarem da inovação e aplicação de tecnologias de processamento de voz.

Repositório GitHub: CosyVoice (https://github.com/FunAudioLLM/CosyVoice) consulte as atualizações mais recentes do CosyVoice2
DEMO de experiência online: https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B
Código aberto: https://github.com/FunAudioLLM/CosyVoice
Modelo de código aberto: https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

Superando o Google NotebookLM! PlayDialog: Modelo de geração de voz para podcasts de diálogo e narração

Recentemente, a Play AI lançou seu produto mais ambicioso - a versão beta do PlayDialog, capaz de gerar áudios de podcasts em formato de diálogo. Este modelo de voz AI ponta a ponta, utilizando o contexto histórico da conversa, consegue controlar o tom, a emoção e a velocidade da fala para alcançar uma síntese de voz mais natural, marcando um novo nível na interação homem-máquina. O PlayDialog é ideal para criar experiências de diálogo realistas, como narrações, dublagens e podcasts sintéticos, além de oferecer experiências imersivas de voz individual em ambientes comerciais.

ChatTTS-OpenVoice: Um projeto de geração de voz personalizada de código aberto

Um projeto inovador chamado ChatTTS-OpenVoice está chamando a atenção na internet, combinando as tecnologias ChatTTS e OpenVoice para gerar vozes personalizadas e naturais com base em um áudio de referência de 10 segundos enviado pelo usuário. Essa tecnologia é adequada para ferramentas de dublagem e assistentes de voz, oferecendo uma experiência de voz personalizada por meio de um processo de upload simplificado. O projeto, desde seu lançamento, tem recebido elogios de desenvolvedores e usuários, gerando muita discussão nas redes sociais. O responsável pelo projeto afirma que o objetivo é fornecer aos usuários vozes mais personalizadas e naturais.

Baidu lança o modelo de linguagem grande ERNIE 4.0 Turbo para empresas

Hoje, a Baidu Smart Cloud anunciou que o modelo de linguagem grande ERNIE 4.0 Turbo está totalmente aberto para usuários corporativos. A partir de agora, o serviço de API pode ser acessado através da plataforma de modelos de linguagem grandes Qianfan da Baidu Smart Cloud. Anteriormente, a Baidu lançou oficialmente o modelo de linguagem grande ERNIE 4.0 Turbo, que não apenas é mais rápido, mas também apresenta melhorias significativas em termos de aprimoramento do conhecimento e capacidade de recuperação.

Microsoft Azure AI adiciona 40 novos modelos de IA abrangendo texto, imagem, código e geração de voz

A Microsoft Azure AI anunciou a adição de 40 novos modelos de IA à sua plataforma de desenvolvimento na nuvem, incluindo Whisper V3, Stable Diffusion, Phi, Falcon e SAM. Os desenvolvedores podem integrá-los facilmente por meio de APIs ou SDKs, com suporte para ajuste fino de dados e otimização de instruções. O Mercado de Modelos oferece pesquisa por palavras-chave para que os desenvolvedores possam encontrar rapidamente os produtos adequados para seus aplicativos. Entre os modelos novos notáveis estão o modelo de voz Whisper V3 e o modelo de imagem Stable Diffusion.