IndexTTS est un modèle de synthèse texte-parole (TTS) basé sur le style GPT, principalement développé à partir de XTTS et Tortoise. Il est capable de corriger la prononciation des caractères chinois à l'aide de la transcription phonétique et de contrôler les pauses à l'aide de la ponctuation. Ce système introduit une méthode de modélisation hybride caractère-pinyin dans le contexte chinois, améliorant considérablement la stabilité de l'entraînement, la similarité de la voix et la qualité audio. De plus, il intègre BigVGAN2 pour optimiser la qualité audio. Le modèle a été entraîné sur des dizaines de milliers d'heures de données et surpasse les systèmes TTS populaires actuels, tels que XTTS, CosyVoice2 et F5-TTS. IndexTTS convient aux scénarios nécessitant une synthèse vocale de haute qualité, tels que les assistants vocaux, les livres audio, etc. Son caractère open source le rend également adapté à la recherche universitaire et aux applications commerciales.