Seed-TTS es una serie de modelos de texto a voz (TTS) autorregresivos a gran escala lanzados por ByteDance, capaces de generar voz casi indistinguible de la humana. Destaca por su aprendizaje contextual del habla, la similitud de la voz del hablante y su naturalidad, que se pueden mejorar aún más mediante el ajuste fino. Seed-TTS también ofrece un excelente control sobre atributos de voz como las emociones, y puede generar voz altamente expresiva y diversa. Además, se propone un método de autodestilación para la descomposición del habla, y un método de aprendizaje por refuerzo para mejorar la robustez del modelo, la similitud del hablante y el control. También se presenta la variante no autorregresiva (NAR) del modelo Seed-TTS, Seed-TTSDiT, que utiliza una arquitectura completamente basada en difusión, sin depender de la duración fonética preestimada, generando voz mediante un procesamiento de extremo a extremo.