AudioSep es un modelo de separación de fuentes de audio de dominio abierto basado en consultas de lenguaje natural. Se compone de dos componentes clave: un codificador de texto y un modelo de separación. Hemos entrenado AudioSep en un conjunto de datos multimodales a gran escala y evaluado ampliamente sus capacidades en diversas tareas, incluyendo la separación de eventos de audio, la separación de instrumentos y la mejora de voz. AudioSep demuestra un rendimiento de separación robusto y una impresionante capacidad de generalización de cero disparos, superando significativamente a los modelos previos de separación de audio basados en consultas de audio y lenguaje al utilizar títulos de audio o etiquetas de texto como consultas. Para garantizar la reproducibilidad de este trabajo, publicaremos el código fuente, los benchmarks de evaluación y los modelos preentrenados.