Kürzlich hat ein fortschrittliches Text-to-Speech-System namens Spark-TTS in der KI-Community breite Diskussionen ausgelöst. Laut aktuellen X-Posts und Forschungsarbeiten zeichnet sich das System durch seine Zero-Shot-Sprachklonierung und die feinkörnige Sprachsteuerung aus und stellt einen bedeutenden Durchbruch im Bereich der Sprachsynthese dar.

QQ_1741231726997.png

Das System nutzt die Leistungsfähigkeit großer Sprachmodelle (LLMs) optimal und zielt auf eine hochpräzise und natürliche Sprachsynthese ab, die sowohl für die Forschung als auch für kommerzielle Zwecke geeignet ist. Das Design von Spark-TTS betont Einfachheit und Effizienz. Das System basiert vollständig auf Qwen2.5 und verzichtet auf die komplexen Prozesse früherer Systeme, die zusätzliche Generierungsmodelle benötigten. Im Gegensatz zu anderen Modellen rekonstruiert Spark-TTS Audio direkt aus dem vom LLM vorhergesagten Code. Diese Methode vereinfacht die Audiogenerierung erheblich, steigert die Effizienz und reduziert die technische Komplexität.

Neben der effizienten Audiogenerierung bietet Spark-TTS auch hervorragende Sprachklonierungsfunktionen. Das System unterstützt Zero-Shot-Sprachklonierung, d. h., Spark-TTS kann die Stimme eines Sprechers erfolgreich reproduzieren, selbst ohne Trainingsdaten für diesen spezifischen Sprecher.

Kernfunktionen von Spark-TTS:

Zero-Shot-Sprachklonierung: Erzeugung des Sprachstils eines Sprechers ohne Trainingsdaten, ideal für schnelle, personalisierte Anwendungen.

Feinkörnige Sprachsteuerung: Präzise Anpassung von Geschwindigkeit und Tonhöhe, z. B. Beschleunigung oder Verlangsamung der Sprache, Veränderung der Tonhöhe.

Sprachübergreifende Generierung: Unterstützung mehrerer Sprachen, darunter Englisch und Chinesisch, erweitert die globale Anwendbarkeit.

Die Sprachqualität wird als sehr natürlich empfunden und ist besonders für die Erstellung von Hörbüchern geeignet, was sich in den Nutzerfeedbacks bestätigt.

Technische Architektur

Die technische Grundlage von Spark-TTS ist der BiCodec-Einzelstrom-Codec. Dieser Codec zerlegt die Sprache in zwei Token:

Niedrig-Bitrate-semantische Token, die den Sprachinhalt verantworten.

Festlängen-globale Token, die die Sprecherattribute verantworten.

Diese Trennung ermöglicht die flexible Anpassung von Spracheigenschaften. In Kombination mit der Chain-of-Thought-Technologie von Qwen-2.5 wird die Qualität und Steuerbarkeit der Sprachgenerierung weiter verbessert. Qwen-2.5 ist ein großes Sprachmodell (LLM), das ein starkes semantische Verständnis bietet.

Auch in Bezug auf die Sprachsupport zeigt Spark-TTS hervorragende Leistungen. Es kann sowohl Chinesisch als auch Englisch verarbeiten und dabei bei der sprachübergreifenden Synthese eine hohe Natürlichkeit und Genauigkeit beibehalten. Darüber hinaus können Benutzer durch Anpassung von Parametern wie Geschlecht, Tonhöhe und Geschwindigkeit der Stimme virtuelle Sprecher nach ihren Bedürfnissen erstellen.

Projekt: https://github.com/SparkAudio/Spark-TTS