AudioSep
Modelo de separação de fontes de áudio em domínio aberto baseado em consultas de linguagem natural
Produto ComumMúsicaSeparação de áudioConsulta de linguagem natural
AudioSep é um modelo de separação de fontes de áudio em domínio aberto baseado em consultas de linguagem natural. Ele é composto por dois componentes principais: um codificador de texto e um modelo de separação. Treinamos o AudioSep em um conjunto de dados multimodais em larga escala e avaliamos extensivamente suas capacidades em diversas tarefas, incluindo separação de eventos de áudio, separação de instrumentos e aprimoramento de voz. O AudioSep demonstra desempenho robusto de separação e impressionante capacidade de generalização zero-shot, superando consideravelmente modelos anteriores de separação de áudio baseados em consultas de áudio e linguagem, utilizando títulos de áudio ou rótulos de texto como consultas. Para garantir a reprodutibilidade deste trabalho, publicaremos o código-fonte, os benchmarks de avaliação e os modelos pré-treinados.
AudioSep Situação do Tráfego Mais Recente
Total de Visitas Mensais
20415616
Taxa de Rejeição
44.33%
Média de Páginas por Visita
3.1
Duração Média da Visita
00:04:06