CosyVoice 2
Tecnologia de síntese de voz em streaming expansível, combinada com modelos de linguagem de grande porte.
Produto ComumProdutividadeSíntese de vozStreaming
O CosyVoice 2 é um modelo de síntese de voz desenvolvido pela equipe SpeechLab@Tongyi da Alibaba Group. Baseado em rotulagem discreta supervisionada de fala e combinando dois modelos gerativos populares – modelos de linguagem (LMs) e correspondência de fluxo – ele alcança alta naturalidade, coerência de conteúdo e semelhança de locutor na síntese de voz. O modelo tem aplicações importantes em modelos de linguagem de grande porte multimodais (LLMs), especialmente em experiências interativas onde o atraso de resposta e os fatores em tempo real são cruciais para a síntese de voz. O CosyVoice 2 melhora a utilização do código da marcação de fala por meio da quantização escalar limitada, simplifica a arquitetura do modelo de linguagem de texto para fala e projeta um modelo de correspondência de fluxo causal sensível a blocos para se adaptar a diferentes cenários de síntese. Treinado em um conjunto de dados multilínguas em larga escala, ele alcança uma qualidade de síntese comparável à humana, com latência de resposta extremamente baixa e capacidade em tempo real.
CosyVoice 2 Situação do Tráfego Mais Recente
Total de Visitas Mensais
63960
Taxa de Rejeição
57.97%
Média de Páginas por Visita
1.4
Duração Média da Visita
00:00:54