IndexTTS é um modelo de texto para voz (TTS) baseado no estilo GPT, principalmente desenvolvido com base em XTTS e Tortoise. Ele pode corrigir a pronúncia de caracteres chineses por meio de pinyin e controlar as pausas por meio de pontuação. O sistema introduziu um método de modelagem híbrido caractere-pinyin em cenários chineses, melhorando significativamente a estabilidade do treinamento, a similaridade do timbre e a qualidade do áudio. Além disso, ele integra o BigVGAN2 para otimizar a qualidade do áudio. O modelo foi treinado em dezenas de milhares de horas de dados e seu desempenho supera os sistemas TTS populares atuais, como XTTS, CosyVoice2 e F5-TTS. O IndexTTS é adequado para cenários que exigem síntese de voz de alta qualidade, como assistentes de voz, audiolivros, etc. Sua natureza de código aberto também o torna adequado para pesquisa acadêmica e aplicações comerciais.