Seed-TTS

Série de modèles de synthèse vocale performants et polyvalents

Nouveau Produit PremiumProductivitéSynthèse vocaleTexte-à-parole
Seed-TTS est une série de modèles texte-à-parole (TTS) auto-régressifs à grande échelle développés par ByteDance, capables de générer une parole difficilement distinguishable de la parole humaine. Il excelle en apprentissage contextuel de la parole, en similarité de locuteur et en naturalité. Des ajustements fins permettent d'améliorer encore le score subjectif. Seed-TTS offre également un excellent contrôle des attributs de la parole, tels que les émotions, et permet de générer une parole hautement expressive et diversifiée. De plus, une méthode d'auto-distillation pour la décomposition de la parole et une méthode d'apprentissage par renforcement pour améliorer la robustesse du modèle, la similarité du locuteur et le contrôle ont été proposées. Nous présentons également une variante non auto-récursive (NAR) du modèle Seed-TTS, Seed-TTSDiT, qui utilise une architecture entièrement basée sur la diffusion, ne dépendant pas de la durée des phonèmes pré-estimée, et effectue la génération de la parole de bout en bout.
Ouvrir le site Web

Seed-TTS Dernière situation du trafic

Nombre total de visites mensuelles

16826

Taux de rebond

42.75%

Nombre moyen de pages par visite

2.8

Durée moyenne de la visite

00:02:20

Seed-TTS Tendance des visites

Seed-TTS Distribution géographique des visites

Seed-TTS Sources de trafic

Seed-TTS Alternatives