NaturalSpeech 3

NaturalSpeech 3 es un sistema de síntesis de voz de cero disparos (Zero-Shot) que utiliza un codificador-decodificador descompuesto y un modelo de difusión para generar voz natural.

Producto ComúnMúsicaInteligencia ArtificialSíntesis de Voz
NaturalSpeech 3 busca mejorar la calidad, la similitud y el ritmo de la síntesis de voz mediante la descomposición de las diferentes propiedades del habla (como contenido, ritmo, timbre y detalles acústicos) y su generación por separado. El sistema diseña un codificador-decodificador neuronal que utiliza la cuantificación vectorial descompuesta (FVQ) para desacoplar la forma de onda de voz y propone un modelo de difusión descompuesto para generar las propiedades de cada subespacio según las indicaciones correspondientes.
Abrir sitio web

NaturalSpeech 3 Situación del tráfico más reciente

Total de visitas mensuales

6223

Tasa de rebote

46.50%

Páginas promedio por visita

1.2

Duración promedio de la visita

00:00:01

NaturalSpeech 3 Tendencia de visitas

NaturalSpeech 3 Distribución geográfica de las visitas

NaturalSpeech 3 Fuentes de tráfico

NaturalSpeech 3 Alternativas