NaturalSpeech 3

NaturalSpeech 3 est un système de synthèse vocale zéro-shot qui utilise un décodeur-encodeur décomposé et un modèle de diffusion pour générer une parole naturelle.

Produit OrdinaireMusiqueIntelligence artificielleSynthèse vocale
NaturalSpeech 3 vise à améliorer la qualité, la similarité et le rythme de la synthèse vocale en décomposant les différentes propriétés de la parole (telles que le contenu, le rythme, le timbre et les détails acoustiques) et en les générant séparément. Ce système conçoit un décodeur-encodeur neuronal utilisant la quantification vectorielle factorisée (FVQ) pour découpler les formes d'onde vocales, et propose un modèle de diffusion décomposé pour générer les attributs de chaque sous-espace en fonction des invites correspondantes.
Ouvrir le site Web

NaturalSpeech 3 Dernière situation du trafic

Nombre total de visites mensuelles

6223

Taux de rebond

46.50%

Nombre moyen de pages par visite

1.2

Durée moyenne de la visite

00:00:01

NaturalSpeech 3 Tendance des visites

NaturalSpeech 3 Distribution géographique des visites

NaturalSpeech 3 Sources de trafic

NaturalSpeech 3 Alternatives