TangoFlux
Effizientes Text-zu-Audio-Generierungsmodell
Normales ProduktMusikText-zu-AudioAudiogenerierung
TangoFlux ist ein effizientes Text-zu-Audio-(TTA)-Generierungsmodell mit 515 Millionen Parametern, das auf einer einzelnen A40-GPU in nur 3,7 Sekunden Audiodaten mit einer Länge von bis zu 30 Sekunden und einer Abtastrate von 44,1 kHz generieren kann. Das Modell behebt die Herausforderungen der TTA-Ausrichtung durch Einführung des CLAP-Ranked Preference Optimization (CRPO)-Frameworks, indem es iterativ Generierung und Optimierung von Präferenzdaten zur Verbesserung der TTA-Ausrichtung verwendet. TangoFlux erzielt sowohl in objektiven als auch in subjektiven Benchmark-Tests modernste Ergebnisse. Sämtlicher Code und alle Modelle sind Open Source, um die weitere Forschung zur TTA-Generierung zu unterstützen.
TangoFlux Neueste Verkehrssituation
Monatliche Gesamtbesuche
4420
Absprungrate
49.52%
Durchschnittliche Seiten pro Besuch
1.1
Durchschnittliche Besuchsdauer
00:00:00