AudioSep
Modèle de séparation de sources audio en domaine ouvert basé sur des requêtes en langage naturel
Produit OrdinaireMusiqueSéparation audioRequête en langage naturel
AudioSep est un modèle de séparation de sources audio en domaine ouvert basé sur des requêtes en langage naturel. Il se compose de deux composants clés : un encodeur de texte et un modèle de séparation. Nous avons entraîné AudioSep sur un ensemble de données multimodales à grande échelle et évalué ses capacités sur de nombreuses tâches, notamment la séparation d'événements audio, la séparation d'instruments et l'amélioration de la parole. AudioSep affiche des performances de séparation robustes et une capacité de généralisation zéro-shot impressionnante, surpassant largement les modèles précédents de séparation audio basés sur des requêtes audio ou textuelles, en utilisant des titres audio ou des étiquettes textuelles comme requêtes. Pour assurer la reproductibilité de ce travail, nous publierons le code source, les benchmarks d'évaluation et les modèles pré-entraînés.
AudioSep Dernière situation du trafic
Nombre total de visites mensuelles
20415616
Taux de rebond
44.33%
Nombre moyen de pages par visite
3.1
Durée moyenne de la visite
00:04:06