StyleTTS 2
Menschengleiches Text-zu-Sprache-Synthesemodell
Normales ProduktMusikText-zu-SpracheSprachsynthese
StyleTTS 2 ist ein Text-zu-Sprache-Synthesemodell (TTS), das mithilfe großer Sprachmodelle (SLMs) Stildiffusion und gegnerisches Training einsetzt, um eine menschenähnliche TTS-Synthese zu erreichen. Es modelliert den Stil als latente Zufallsvariable mittels eines Diffusionsmodells, um den am besten zum Text passenden Stil zu generieren, ohne auf Sprachreferenzen zurückgreifen zu müssen. Darüber hinaus verwenden wir große, vortrainierte SLMs (wie WavLM) als Diskriminator und kombinieren sie mit unserem innovativen differenzierbaren Dauermodellierung für ein End-to-End-Training, wodurch die Natürlichkeit der Sprache verbessert wird. StyleTTS 2 übertrifft auf dem LJSpeech-Datensatz mit einem einzelnen Sprecher menschliche Aufnahmen und erreicht auf dem VCTK-Datensatz mit mehreren Sprechern eine vergleichbare Qualität, bestätigt durch muttersprachliche englische Gutachter. Darüber hinaus übertrifft unser Modell bei Training auf dem LibriTTS-Datensatz zuvor öffentlich verfügbare Zero-Shot-Extensionsmodelle. Durch die Demonstration des Potenzials von Stildiffusion und gegnerischem Training mit großen SLMs erzielt diese Arbeit eine menschenähnliche TTS-Synthese auf Datensätzen mit einem und mehreren Sprechern.
StyleTTS 2 Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34