AudioSep

Modèle de séparation de sources audio en domaine ouvert basé sur des requêtes en langage naturel

Produit OrdinaireMusiqueSéparation audioRequête en langage naturel
AudioSep est un modèle de séparation de sources audio en domaine ouvert basé sur des requêtes en langage naturel. Il se compose de deux composants clés : un encodeur de texte et un modèle de séparation. Nous avons entraîné AudioSep sur un ensemble de données multimodales à grande échelle et évalué ses capacités sur de nombreuses tâches, notamment la séparation d'événements audio, la séparation d'instruments et l'amélioration de la parole. AudioSep affiche des performances de séparation robustes et une capacité de généralisation zéro-shot impressionnante, surpassant largement les modèles précédents de séparation audio basés sur des requêtes audio ou textuelles, en utilisant des titres audio ou des étiquettes textuelles comme requêtes. Pour assurer la reproductibilité de ce travail, nous publierons le code source, les benchmarks d'évaluation et les modèles pré-entraînés.
Ouvrir le site Web

AudioSep Dernière situation du trafic

Nombre total de visites mensuelles

20415616

Taux de rebond

44.33%

Nombre moyen de pages par visite

3.1

Durée moyenne de la visite

00:04:06

AudioSep Tendance des visites

AudioSep Distribution géographique des visites

AudioSep Sources de trafic

AudioSep Alternatives