CosyVoice 2

Tecnologia de síntese de voz em streaming expansível, combinada com modelos de linguagem de grande porte.

Produto ComumProdutividadeSíntese de vozStreaming
O CosyVoice 2 é um modelo de síntese de voz desenvolvido pela equipe SpeechLab@Tongyi da Alibaba Group. Baseado em rotulagem discreta supervisionada de fala e combinando dois modelos gerativos populares – modelos de linguagem (LMs) e correspondência de fluxo – ele alcança alta naturalidade, coerência de conteúdo e semelhança de locutor na síntese de voz. O modelo tem aplicações importantes em modelos de linguagem de grande porte multimodais (LLMs), especialmente em experiências interativas onde o atraso de resposta e os fatores em tempo real são cruciais para a síntese de voz. O CosyVoice 2 melhora a utilização do código da marcação de fala por meio da quantização escalar limitada, simplifica a arquitetura do modelo de linguagem de texto para fala e projeta um modelo de correspondência de fluxo causal sensível a blocos para se adaptar a diferentes cenários de síntese. Treinado em um conjunto de dados multilínguas em larga escala, ele alcança uma qualidade de síntese comparável à humana, com latência de resposta extremamente baixa e capacidade em tempo real.
Abrir Site

CosyVoice 2 Situação do Tráfego Mais Recente

Total de Visitas Mensais

63960

Taxa de Rejeição

57.97%

Média de Páginas por Visita

1.4

Duração Média da Visita

00:00:54

CosyVoice 2 Tendência de Visitas

CosyVoice 2 Distribuição Geográfica das Visitas

CosyVoice 2 Fontes de Tráfego

CosyVoice 2 Alternativas