TangoFlux ist ein effizientes Text-zu-Audio-(TTA)-Generierungsmodell mit 515 Millionen Parametern, das auf einer einzelnen A40-GPU in nur 3,7 Sekunden Audiodaten mit einer Länge von bis zu 30 Sekunden und einer Abtastrate von 44,1 kHz generieren kann. Das Modell behebt die Herausforderungen der TTA-Ausrichtung durch Einführung des CLAP-Ranked Preference Optimization (CRPO)-Frameworks, indem es iterativ Generierung und Optimierung von Präferenzdaten zur Verbesserung der TTA-Ausrichtung verwendet. TangoFlux erzielt sowohl in objektiven als auch in subjektiven Benchmark-Tests modernste Ergebnisse. Sämtlicher Code und alle Modelle sind Open Source, um die weitere Forschung zur TTA-Generierung zu unterstützen.