Ein Forschungsteam der Shanghai Jiao Tong University, der Universität Cambridge und des Geely Automotive Research Institute hat kürzlich ein neuartiges Text-to-Speech (TTS)-System namens F5-TTS vorgestellt. Das Besondere an diesem System ist sein selbstregressionsfreier Ansatz, der Stream Matching und den Diffusion Transformer (DiT) kombiniert und so die komplexen Schritte herkömmlicher TTS-Modelle vereinfacht.

image.png

Traditionelle TTS-Modelle erfordern in der Regel komplexe Dauermodellierung, Phonem-Ausrichtung und spezielle Textcodierung, was den Syntheseprozess erheblich verkompliziert. Bisherige Modelle wie E2TTS litten oft unter langsamen Konvergenzraten und ungenauen Text-Sprach-Ausrichtungen, was ihren effizienten Einsatz in realen Szenarien erschwerte. F5-TTS wurde entwickelt, um genau diese Herausforderungen zu bewältigen.

F5-TTS funktioniert auf einfache Weise: Zunächst wird der eingegebene Text über die ConvNeXt-Architektur verarbeitet, um die Ausrichtung mit der Sprache zu erleichtern. Anschließend werden die gepufferten Zeichenfolgen zusammen mit einer verrauschten Version der Eingabesprache in das Modell eingespeist.

Das Training des Systems basiert auf dem Diffusion Transformer (DiT), der durch Stream Matching eine effiziente Abbildung einer einfachen Anfangsverteilung auf die Datenverteilung ermöglicht. Darüber hinaus integriert F5-TTS innovativ die Sway-Sampling-Strategie während der Inferenz. Diese Strategie priorisiert die frühen Stream-Schritte in der Inferenzphase und verbessert so die Ausrichtung der generierten Sprache mit dem Eingabetext.

Laut den Forschungsergebnissen übertrifft F5-TTS viele aktuelle TTS-Systeme sowohl in der Synthesequalität als auch in der Inferenzgeschwindigkeit. Auf dem LibriSpeech-PC-Datensatz erreicht das Modell eine Wortfehlerquote (WER) von 2,42 und einen Echtzeitfaktor (RTF) von 0,15 während der Inferenz – eine deutliche Verbesserung gegenüber dem vorherigen Diffusionsmodell E2TTS, das Schwächen in Bezug auf Geschwindigkeit und Robustheit aufwies.

image.png

Gleichzeitig verbessert die Sway-Sampling-Strategie die Natürlichkeit und Verständlichkeit der generierten Sprache erheblich, sodass das Modell auch ohne Training eine flüssige und ausdrucksstarke Generierung ermöglicht.

F5-TTS vereinfacht den Prozess, indem es die Notwendigkeit von Dauerprognosen, Phonem-Ausrichtungen und expliziter Textcodierung eliminiert und so die Robustheit der Ausrichtung und die Synthesequalität verbessert. Die Forscher betonen außerdem ethische Erwägungen und schlagen die Einrichtung von Wasserzeichen- und Erkennungssystemen vor, um einen Missbrauch des Modells zu verhindern.

Projektseite: https://github.com/SWivid/F5-TTS

Wichtigste Punkte:

🌟 F5-TTS ist ein neuartiges, selbstregressionsfreies Text-to-Speech-System, das die Komplexität herkömmlicher TTS-Modelle vereinfacht.

⚡ Das System nutzt die ConvNeXt- und DiT-Architektur, um die Text-Sprach-Ausrichtung zu verbessern und die Synthesequalität deutlich zu steigern.

🔒 Die Forscher betonen die Notwendigkeit ethischer Überlegungen und empfehlen die Einführung von Wasserzeichen- und Erkennungsmechanismen, um potenziellen Missbrauch zu verhindern.