Seed-TTS
Série de modèles de synthèse vocale performants et polyvalents
Nouveau Produit PremiumProductivitéSynthèse vocaleTexte-à-parole
Seed-TTS est une série de modèles texte-à-parole (TTS) auto-régressifs à grande échelle développés par ByteDance, capables de générer une parole difficilement distinguishable de la parole humaine. Il excelle en apprentissage contextuel de la parole, en similarité de locuteur et en naturalité. Des ajustements fins permettent d'améliorer encore le score subjectif. Seed-TTS offre également un excellent contrôle des attributs de la parole, tels que les émotions, et permet de générer une parole hautement expressive et diversifiée. De plus, une méthode d'auto-distillation pour la décomposition de la parole et une méthode d'apprentissage par renforcement pour améliorer la robustesse du modèle, la similarité du locuteur et le contrôle ont été proposées. Nous présentons également une variante non auto-récursive (NAR) du modèle Seed-TTS, Seed-TTSDiT, qui utilise une architecture entièrement basée sur la diffusion, ne dépendant pas de la durée des phonèmes pré-estimée, et effectue la génération de la parole de bout en bout.
Seed-TTS Dernière situation du trafic
Nombre total de visites mensuelles
16826
Taux de rebond
42.75%
Nombre moyen de pages par visite
2.8
Durée moyenne de la visite
00:02:20