TangoFlux
Modelo de generación de audio a partir de texto de alta eficiencia
Producto ComúnMúsicaTexto a audioGeneración de audio
TangoFlux es un modelo de generación de audio a partir de texto (TTA) altamente eficiente, con 515 millones de parámetros, capaz de generar audio de 44.1 kHz con una duración de hasta 30 segundos en un solo GPU A40 en tan solo 3,7 segundos. El modelo resuelve el desafío de la alineación de los modelos TTA mediante la propuesta del marco CLAP-Ranked Preference Optimization (CRPO), mejorando la alineación TTA mediante la generación iterativa y la optimización de los datos de preferencia. TangoFlux ha alcanzado un rendimiento de vanguardia en las pruebas de referencia objetivas y subjetivas, y todo el código y los modelos son de código abierto para apoyar futuras investigaciones en generación TTA.
TangoFlux Situación del tráfico más reciente
Total de visitas mensuales
4420
Tasa de rebote
49.52%
Páginas promedio por visita
1.1
Duración promedio de la visita
00:00:00