MaskGCT
Ein Null-Schuss-Text-zu-Sprache-Modell (TTS) ohne Notwendigkeit von Alignmentsinformationen.
Normales ProduktAndereText-zu-SpracheNull-Schuss-Lernen
MaskGCT ist ein innovatives Null-Schuss-Text-zu-Sprache-Modell (TTS), das Probleme bestehender autoregressiver und nicht-autoregressiver Systeme löst, indem es den Bedarf an expliziten Alignment-Informationen und phonetischer Dauerprädiktion eliminiert. MaskGCT verwendet ein zweistufiges Modell: In der ersten Stufe werden semantische Token aus einem Sprach-Selbstüberwachungslernmodell (SSL) unter Verwendung von Textvorhersagen extrahiert; in der zweiten Stufe prognostiziert das Modell akustische Token basierend auf diesen semantischen Token. MaskGCT folgt einem Maskierungs- und Prädiktionslernparadigma und lernt während des Trainings, maskierte semantische oder akustische Token basierend auf gegebenen Bedingungen und Prompts vorherzusagen. Während des Inferenzprozesses generiert das Modell Token parallelerweise in der festgelegten Länge. Experimente zeigen, dass MaskGCT bestehende Null-Schuss-TTS-Systeme in Bezug auf Qualität, Ähnlichkeit und Verständlichkeit übertrifft.
MaskGCT Neueste Verkehrssituation
Monatliche Gesamtbesuche
2187
Absprungrate
44.40%
Durchschnittliche Seiten pro Besuch
1.0
Durchschnittliche Besuchsdauer
00:00:00