Zonos-v0.1 ist ein Echtzeit-Text-to-Speech (TTS)-Modell des Zyphra-Teams mit einer hochfidelere Sprachklonfunktion. Das Modell umfasst ein Transformer-Modell mit 1,6 Milliarden Parametern und ein Hybrid-Modell mit 1,6 Milliarden Parametern, beide unter der Apache 2.0 Open-Source-Lizenz veröffentlicht. Es kann auf Grundlage von Textaufforderungen natürliche, ausdrucksstarke Sprache erzeugen und unterstützt mehrere Sprachen. Darüber hinaus ermöglicht Zonos-v0.1 die hochwertige Sprachklonung anhand von 5 bis 30 Sekunden langen Sprachfragmenten und kann an Parametern wie Sprechgeschwindigkeit, Tonhöhe, Klangqualität und Emotion angepasst werden. Die Hauptvorteile sind die hohe Generierungsqualität, die Unterstützung von Echtzeitinteraktionen und die flexible Sprachsteuerung. Die Veröffentlichung des Modells zielt darauf ab, die Forschung und Entwicklung von TTS-Technologien voranzutreiben.