StyleTTS 2

Menschengleiches Text-zu-Sprache-Synthesemodell

Normales ProduktMusikText-zu-SpracheSprachsynthese
StyleTTS 2 ist ein Text-zu-Sprache-Synthesemodell (TTS), das mithilfe großer Sprachmodelle (SLMs) Stildiffusion und gegnerisches Training einsetzt, um eine menschenähnliche TTS-Synthese zu erreichen. Es modelliert den Stil als latente Zufallsvariable mittels eines Diffusionsmodells, um den am besten zum Text passenden Stil zu generieren, ohne auf Sprachreferenzen zurückgreifen zu müssen. Darüber hinaus verwenden wir große, vortrainierte SLMs (wie WavLM) als Diskriminator und kombinieren sie mit unserem innovativen differenzierbaren Dauermodellierung für ein End-to-End-Training, wodurch die Natürlichkeit der Sprache verbessert wird. StyleTTS 2 übertrifft auf dem LJSpeech-Datensatz mit einem einzelnen Sprecher menschliche Aufnahmen und erreicht auf dem VCTK-Datensatz mit mehreren Sprechern eine vergleichbare Qualität, bestätigt durch muttersprachliche englische Gutachter. Darüber hinaus übertrifft unser Modell bei Training auf dem LibriTTS-Datensatz zuvor öffentlich verfügbare Zero-Shot-Extensionsmodelle. Durch die Demonstration des Potenzials von Stildiffusion und gegnerischem Training mit großen SLMs erzielt diese Arbeit eine menschenähnliche TTS-Synthese auf Datensätzen mit einem und mehreren Sprechern.
Website öffnen

StyleTTS 2 Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

StyleTTS 2 Besuchstrend

StyleTTS 2 Geografische Verteilung der Besuche

StyleTTS 2 Traffic-Quellen

StyleTTS 2 Alternativen