AudioSep

Modelo de separação de fontes de áudio em domínio aberto baseado em consultas de linguagem natural

Produto ComumMúsicaSeparação de áudioConsulta de linguagem natural
AudioSep é um modelo de separação de fontes de áudio em domínio aberto baseado em consultas de linguagem natural. Ele é composto por dois componentes principais: um codificador de texto e um modelo de separação. Treinamos o AudioSep em um conjunto de dados multimodais em larga escala e avaliamos extensivamente suas capacidades em diversas tarefas, incluindo separação de eventos de áudio, separação de instrumentos e aprimoramento de voz. O AudioSep demonstra desempenho robusto de separação e impressionante capacidade de generalização zero-shot, superando consideravelmente modelos anteriores de separação de áudio baseados em consultas de áudio e linguagem, utilizando títulos de áudio ou rótulos de texto como consultas. Para garantir a reprodutibilidade deste trabalho, publicaremos o código-fonte, os benchmarks de avaliação e os modelos pré-treinados.
Abrir Site

AudioSep Situação do Tráfego Mais Recente

Total de Visitas Mensais

20415616

Taxa de Rejeição

44.33%

Média de Páginas por Visita

3.1

Duração Média da Visita

00:04:06

AudioSep Tendência de Visitas

AudioSep Distribuição Geográfica das Visitas

AudioSep Fontes de Tráfego

AudioSep Alternativas