TangoFlux

Modelo de generación de audio a partir de texto de alta eficiencia

Producto ComúnMúsicaTexto a audioGeneración de audio
TangoFlux es un modelo de generación de audio a partir de texto (TTA) altamente eficiente, con 515 millones de parámetros, capaz de generar audio de 44.1 kHz con una duración de hasta 30 segundos en un solo GPU A40 en tan solo 3,7 segundos. El modelo resuelve el desafío de la alineación de los modelos TTA mediante la propuesta del marco CLAP-Ranked Preference Optimization (CRPO), mejorando la alineación TTA mediante la generación iterativa y la optimización de los datos de preferencia. TangoFlux ha alcanzado un rendimiento de vanguardia en las pruebas de referencia objetivas y subjetivas, y todo el código y los modelos son de código abierto para apoyar futuras investigaciones en generación TTA.
Abrir sitio web

TangoFlux Situación del tráfico más reciente

Total de visitas mensuales

4420

Tasa de rebote

49.52%

Páginas promedio por visita

1.1

Duración promedio de la visita

00:00:00

TangoFlux Tendencia de visitas

TangoFlux Distribución geográfica de las visitas

TangoFlux Fuentes de tráfico

TangoFlux Alternativas