AudioSep

Modelo de separación de fuentes de audio de dominio abierto basado en consultas de lenguaje natural

Producto ComúnMúsicaSeparación de audioConsulta de lenguaje natural
AudioSep es un modelo de separación de fuentes de audio de dominio abierto basado en consultas de lenguaje natural. Se compone de dos componentes clave: un codificador de texto y un modelo de separación. Hemos entrenado AudioSep en un conjunto de datos multimodales a gran escala y evaluado ampliamente sus capacidades en diversas tareas, incluyendo la separación de eventos de audio, la separación de instrumentos y la mejora de voz. AudioSep demuestra un rendimiento de separación robusto y una impresionante capacidad de generalización de cero disparos, superando significativamente a los modelos previos de separación de audio basados en consultas de audio y lenguaje al utilizar títulos de audio o etiquetas de texto como consultas. Para garantizar la reproducibilidad de este trabajo, publicaremos el código fuente, los benchmarks de evaluación y los modelos preentrenados.
Abrir sitio web

AudioSep Situación del tráfico más reciente

Total de visitas mensuales

20415616

Tasa de rebote

44.33%

Páginas promedio por visita

3.1

Duración promedio de la visita

00:04:06

AudioSep Tendencia de visitas

AudioSep Distribución geográfica de las visitas

AudioSep Fuentes de tráfico

AudioSep Alternativas