IndexTTS
Système texte-parole zéro-shot industriel, contrôlable et efficace
Produit OrdinaireProductivitéSynthèse vocaleIntelligence artificielle
IndexTTS est un modèle de synthèse texte-parole (TTS) basé sur le style GPT, principalement développé à partir de XTTS et Tortoise. Il est capable de corriger la prononciation des caractères chinois à l'aide de la transcription phonétique et de contrôler les pauses à l'aide de la ponctuation. Ce système introduit une méthode de modélisation hybride caractère-pinyin dans le contexte chinois, améliorant considérablement la stabilité de l'entraînement, la similarité de la voix et la qualité audio. De plus, il intègre BigVGAN2 pour optimiser la qualité audio. Le modèle a été entraîné sur des dizaines de milliers d'heures de données et surpasse les systèmes TTS populaires actuels, tels que XTTS, CosyVoice2 et F5-TTS. IndexTTS convient aux scénarios nécessitant une synthèse vocale de haute qualité, tels que les assistants vocaux, les livres audio, etc. Son caractère open source le rend également adapté à la recherche universitaire et aux applications commerciales.
IndexTTS Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34