TangoFlux

Effizientes Text-zu-Audio-Generierungsmodell

Normales ProduktMusikText-zu-AudioAudiogenerierung
TangoFlux ist ein effizientes Text-zu-Audio-(TTA)-Generierungsmodell mit 515 Millionen Parametern, das auf einer einzelnen A40-GPU in nur 3,7 Sekunden Audiodaten mit einer Länge von bis zu 30 Sekunden und einer Abtastrate von 44,1 kHz generieren kann. Das Modell behebt die Herausforderungen der TTA-Ausrichtung durch Einführung des CLAP-Ranked Preference Optimization (CRPO)-Frameworks, indem es iterativ Generierung und Optimierung von Präferenzdaten zur Verbesserung der TTA-Ausrichtung verwendet. TangoFlux erzielt sowohl in objektiven als auch in subjektiven Benchmark-Tests modernste Ergebnisse. Sämtlicher Code und alle Modelle sind Open Source, um die weitere Forschung zur TTA-Generierung zu unterstützen.
Website öffnen

TangoFlux Neueste Verkehrssituation

Monatliche Gesamtbesuche

4420

Absprungrate

49.52%

Durchschnittliche Seiten pro Besuch

1.1

Durchschnittliche Besuchsdauer

00:00:00

TangoFlux Besuchstrend

TangoFlux Geografische Verteilung der Besuche

TangoFlux Traffic-Quellen

TangoFlux Alternativen