Spark-TTS ist ein effizientes Text-to-Speech-Modell basierend auf großen Sprachmodellen mit der Eigenschaft einstromiger, entkoppelter Sprach-Token. Es nutzt die Leistungsfähigkeit großer Sprachmodelle, um direkt aus code-vorhergesagtem Audio zu rekonstruieren, wodurch zusätzliche Modelle zur Erzeugung akustischer Merkmale entfallen und so Effizienz und Komplexität reduziert werden. Das Modell unterstützt Zero-Shot Text-to-Speech und kann zwischen Sprachen und Code wechseln. Es eignet sich hervorragend für Sprachsynthese-Anwendungen, die eine hohe Natürlichkeit und Genauigkeit erfordern. Es unterstützt auch die Erstellung virtueller Stimmen, wobei Benutzer Parameter wie Geschlecht, Tonhöhe und Geschwindigkeit anpassen können, um verschiedene Stimmen zu generieren. Das Modell zielt darauf ab, die Ineffizienz und hohe Komplexität traditioneller Sprachsynthese-Systeme zu lösen und eine effiziente, flexible und leistungsstarke Lösung für Forschung und Produktion bereitzustellen. Derzeit ist das Modell hauptsächlich auf akademische Forschung und legale Anwendungen ausgerichtet, wie z. B. personalisierte Sprachsynthese, assistive Technologien und Sprachforschung.