StyleTTS 2
Modèle de synthèse vocale à partir de texte (TTS) de qualité humaine.
Produit OrdinaireMusiqueTexte-à-paroleSynthèse vocale
StyleTTS 2 est un modèle de synthèse vocale texte-à-parole (TTS) qui utilise de grands modèles linguistiques vocaux (SLM) pour la diffusion de style et l'entraînement antagoniste, permettant une synthèse TTS de qualité humaine. Il modélise le style comme une variable aléatoire latente via un modèle de diffusion afin de générer le style le plus approprié au texte, sans référence vocale. De plus, nous utilisons des SLM pré-entraînés de grande taille (tels que WavLM) comme discriminateur et combinons notre modélisation de durée différentiable innovante pour un entraînement de bout en bout, améliorant ainsi le naturel de la parole. StyleTTS 2 surpasse les enregistrements humains sur le jeu de données monolocuteurs LJSpeech et atteint des performances comparables sur le jeu de données multilocuteurs VCTK, selon l'évaluation d'auditeurs anglophones natifs. De plus, lorsqu'il est entraîné sur le jeu de données LibriTTS, notre modèle surpasse les modèles d'extension zéro-shot précédemment disponibles publiquement. En démontrant le potentiel de la diffusion de style et de l'entraînement antagoniste avec des SLM de grande taille, ce travail permet une synthèse TTS de qualité humaine sur des jeux de données mono et multilocuteurs.
StyleTTS 2 Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34