NaturalSpeech 3
NaturalSpeech 3 est un système de synthèse vocale zéro-shot qui utilise un décodeur-encodeur décomposé et un modèle de diffusion pour générer une parole naturelle.
Produit OrdinaireMusiqueIntelligence artificielleSynthèse vocale
NaturalSpeech 3 vise à améliorer la qualité, la similarité et le rythme de la synthèse vocale en décomposant les différentes propriétés de la parole (telles que le contenu, le rythme, le timbre et les détails acoustiques) et en les générant séparément. Ce système conçoit un décodeur-encodeur neuronal utilisant la quantification vectorielle factorisée (FVQ) pour découpler les formes d'onde vocales, et propose un modèle de diffusion décomposé pour générer les attributs de chaque sous-espace en fonction des invites correspondantes.
NaturalSpeech 3 Dernière situation du trafic
Nombre total de visites mensuelles
6223
Taux de rebond
46.50%
Nombre moyen de pages par visite
1.2
Durée moyenne de la visite
00:00:01