AudioSep
Modelo de separación de fuentes de audio de dominio abierto basado en consultas de lenguaje natural
Producto ComúnMúsicaSeparación de audioConsulta de lenguaje natural
AudioSep es un modelo de separación de fuentes de audio de dominio abierto basado en consultas de lenguaje natural. Se compone de dos componentes clave: un codificador de texto y un modelo de separación. Hemos entrenado AudioSep en un conjunto de datos multimodales a gran escala y evaluado ampliamente sus capacidades en diversas tareas, incluyendo la separación de eventos de audio, la separación de instrumentos y la mejora de voz. AudioSep demuestra un rendimiento de separación robusto y una impresionante capacidad de generalización de cero disparos, superando significativamente a los modelos previos de separación de audio basados en consultas de audio y lenguaje al utilizar títulos de audio o etiquetas de texto como consultas. Para garantizar la reproducibilidad de este trabajo, publicaremos el código fuente, los benchmarks de evaluación y los modelos preentrenados.
AudioSep Situación del tráfico más reciente
Total de visitas mensuales
20415616
Tasa de rebote
44.33%
Páginas promedio por visita
3.1
Duración promedio de la visita
00:04:06