TangoFlux est un modèle de génération texte-vers-audio (TTA) hautement efficace, doté de 515 millions de paramètres, capable de générer des fichiers audio de 30 secondes à 44,1 kHz en seulement 3,7 secondes sur un seul GPU A40. Ce modèle résout les problèmes d'alignement des modèles TTA en proposant le cadre CLAP-Ranked Preference Optimization (CRPO), améliorant ainsi l'alignement TTA grâce à une génération itérative et à l'optimisation des données de préférence. TangoFlux a atteint des performances de pointe lors de tests de référence objectifs et subjectifs. L'intégralité du code et du modèle sont open source afin de soutenir la recherche en génération TTA.