En el campo de la inteligencia artificial, la tecnología de generación de audio a partir de texto se está convirtiendo en un punto álgido de investigación. Recientemente, los investigadores han presentado un nuevo modelo llamado TANGOFLUX, que destaca por su rendimiento y eficiencia.

TANGOFLUX es un modelo eficiente de generación de audio a partir de texto, con 515 millones de parámetros. Es capaz de generar audio de hasta 30 segundos a 44.1 kHz en tan solo 3.7 segundos, un rendimiento excepcional en una sola GPU A40.

image.png

Una de las características principales de TANGOFLUX es su capacidad para generar diversos efectos de sonido, como el canto de pájaros, silbidos, explosiones, etc. También admite la generación de música, aunque los resultados no son tan óptimos.

Uno de los principales desafíos en los modelos de generación de audio a partir de texto es la creación de pares de preferencias. A diferencia de los modelos de lenguaje grandes (LLM), los modelos de generación de audio a partir de texto carecen de un mecanismo de recompensa verificable o una respuesta estándar. Para abordar este problema, el equipo de investigación propuso un nuevo marco llamado CLAP-Ranked Preference Optimization (CRPO). Este marco mejora el rendimiento de alineación del modelo de generación de audio a partir de texto mediante la generación y optimización iterativas de datos de preferencia. Los estudios demuestran que los datos de preferencia de audio generados con CRPO superan a las alternativas existentes.

Gracias a este marco, TANGOFLUX ha obtenido resultados líderes en varias pruebas de referencia objetivas y subjetivas. Además, el equipo de investigación ha decidido publicar el código y el modelo de forma abierta para fomentar la investigación en la generación de audio a partir de texto. Para las aplicaciones que requieren generación de audio, TANGOFLUX supone sin duda un avance tecnológico significativo.

En cuanto a los resultados prácticos, TANGOFLUX supera a otros modelos en la calidad de generación de audio, mostrando sonidos de eventos más nítidos, una mejor reproducción del orden de los eventos y una mayor calidad de audio en general. La comparación de varios ejemplos permite apreciar de forma intuitiva las ventajas de TANGOFLUX en la generación de audio.

Indicación: Un silbido humano melódico coexiste armoniosamente con el canto de los pájaros de la naturaleza. El resultado generado es el siguiente:

Con la llegada de esta nueva tecnología, las perspectivas de aplicación de la generación de audio a partir de texto son cada vez más amplias, y en el futuro podría desempeñar un papel importante en la producción cinematográfica, los efectos de sonido de los videojuegos y otros campos.

Enlace al proyecto: https://tangoflux.github.io/

Puntos clave:

🎧 TANGOFLUX es un modelo eficiente de generación de audio a partir de texto, capaz de generar audio de alta calidad de 30 segundos en 3.7 segundos.

🔧 Presenta el marco CLAP-Ranked Preference Optimization (CRPO) para optimizar el rendimiento del modelo y los datos de preferencia de audio.

🌍 Todo el código y el modelo se han publicado de forma abierta para impulsar la investigación y la aplicación de la generación de audio a partir de texto.