NaturalSpeech 3
NaturalSpeech 3 es un sistema de síntesis de voz de cero disparos (Zero-Shot) que utiliza un codificador-decodificador descompuesto y un modelo de difusión para generar voz natural.
Producto ComúnMúsicaInteligencia ArtificialSíntesis de Voz
NaturalSpeech 3 busca mejorar la calidad, la similitud y el ritmo de la síntesis de voz mediante la descomposición de las diferentes propiedades del habla (como contenido, ritmo, timbre y detalles acústicos) y su generación por separado. El sistema diseña un codificador-decodificador neuronal que utiliza la cuantificación vectorial descompuesta (FVQ) para desacoplar la forma de onda de voz y propone un modelo de difusión descompuesto para generar las propiedades de cada subespacio según las indicaciones correspondientes.
NaturalSpeech 3 Situación del tráfico más reciente
Total de visitas mensuales
6223
Tasa de rebote
46.50%
Páginas promedio por visita
1.2
Duración promedio de la visita
00:00:01