NaturalSpeech 3
NaturalSpeech 3 é um sistema de síntese de voz de zero-shot que utiliza um codificador-decodificador decomposto e um modelo de difusão para gerar fala natural.
Produto ComumMúsicaInteligência ArtificialSíntese de Voz
O NaturalSpeech 3 visa melhorar a qualidade, similaridade e prosódia da síntese de voz, decompondo diferentes atributos da fala (como conteúdo, prosódia, timbre e detalhes acústicos) e gerando-os separadamente. O sistema utiliza um codificador-decodificador neural com vetorização quantizada decomposta (FVQ) para desacoplar a forma de onda de áudio e propõe um modelo de difusão decomposto para gerar os atributos de cada subspaço com base em prompts correspondentes.
NaturalSpeech 3 Situação do Tráfego Mais Recente
Total de Visitas Mensais
6223
Taxa de Rejeição
46.50%
Média de Páginas por Visita
1.2
Duração Média da Visita
00:00:01