TangoFlux
Modelo de geração de áudio a partir de texto eficiente
Produto ComumMúsicaTexto para áudioGeração de áudio
TangoFlux é um modelo de geração de áudio a partir de texto (TTA) eficiente, com 515 milhões de parâmetros, capaz de gerar áudio de 44,1 kHz com duração de até 30 segundos em um único GPU A40 em apenas 3,7 segundos. O modelo resolve o desafio do alinhamento de modelos TTA através da proposta do framework CLAP-Ranked Preference Optimization (CRPO), aprimorando o alinhamento TTA por meio da geração iterativa e otimização de dados de preferência. O TangoFlux alcançou desempenho de ponta em benchmarks objetivos e subjetivos, com todos os códigos e modelos sendo de código aberto para apoiar pesquisas futuras em geração TTA.
TangoFlux Situação do Tráfego Mais Recente
Total de Visitas Mensais
4420
Taxa de Rejeição
49.52%
Média de Páginas por Visita
1.1
Duração Média da Visita
00:00:00