TangoFlux es un modelo de generación de audio a partir de texto (TTA) altamente eficiente, con 515 millones de parámetros, capaz de generar audio de 44.1 kHz con una duración de hasta 30 segundos en un solo GPU A40 en tan solo 3,7 segundos. El modelo resuelve el desafío de la alineación de los modelos TTA mediante la propuesta del marco CLAP-Ranked Preference Optimization (CRPO), mejorando la alineación TTA mediante la generación iterativa y la optimización de los datos de preferencia. TangoFlux ha alcanzado un rendimiento de vanguardia en las pruebas de referencia objetivas y subjetivas, y todo el código y los modelos son de código abierto para apoyar futuras investigaciones en generación TTA.