IndexTTS

Système texte-parole zéro-shot industriel, contrôlable et efficace

Produit OrdinaireProductivitéSynthèse vocaleIntelligence artificielle
IndexTTS est un modèle de synthèse texte-parole (TTS) basé sur le style GPT, principalement développé à partir de XTTS et Tortoise. Il est capable de corriger la prononciation des caractères chinois à l'aide de la transcription phonétique et de contrôler les pauses à l'aide de la ponctuation. Ce système introduit une méthode de modélisation hybride caractère-pinyin dans le contexte chinois, améliorant considérablement la stabilité de l'entraînement, la similarité de la voix et la qualité audio. De plus, il intègre BigVGAN2 pour optimiser la qualité audio. Le modèle a été entraîné sur des dizaines de milliers d'heures de données et surpasse les systèmes TTS populaires actuels, tels que XTTS, CosyVoice2 et F5-TTS. IndexTTS convient aux scénarios nécessitant une synthèse vocale de haute qualité, tels que les assistants vocaux, les livres audio, etc. Son caractère open source le rend également adapté à la recherche universitaire et aux applications commerciales.
Ouvrir le site Web

IndexTTS Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

IndexTTS Tendance des visites

IndexTTS Distribution géographique des visites

IndexTTS Sources de trafic

IndexTTS Alternatives