TangoFlux

Modelo de geração de áudio a partir de texto eficiente

Produto ComumMúsicaTexto para áudioGeração de áudio
TangoFlux é um modelo de geração de áudio a partir de texto (TTA) eficiente, com 515 milhões de parâmetros, capaz de gerar áudio de 44,1 kHz com duração de até 30 segundos em um único GPU A40 em apenas 3,7 segundos. O modelo resolve o desafio do alinhamento de modelos TTA através da proposta do framework CLAP-Ranked Preference Optimization (CRPO), aprimorando o alinhamento TTA por meio da geração iterativa e otimização de dados de preferência. O TangoFlux alcançou desempenho de ponta em benchmarks objetivos e subjetivos, com todos os códigos e modelos sendo de código aberto para apoiar pesquisas futuras em geração TTA.
Abrir Site

TangoFlux Situação do Tráfego Mais Recente

Total de Visitas Mensais

4420

Taxa de Rejeição

49.52%

Média de Páginas por Visita

1.1

Duração Média da Visita

00:00:00

TangoFlux Tendência de Visitas

TangoFlux Distribuição Geográfica das Visitas

TangoFlux Fontes de Tráfego

TangoFlux Alternativas