AudioSep
自然言語クエリに基づくオープン領域の音声源分離モデル
一般製品音楽音声分離自然言語クエリ
AudioSepは、自然言語クエリに基づくオープン領域の音声源分離モデルです。テキストエンコーダと分離モデルという2つの主要なコンポーネントで構成されています。大規模なマルチモーダルデータセットでAudioSepをトレーニングし、オーディオイベント分離、楽器分離、音声強調など、多くのタスクにおいてその能力を幅広く評価しました。AudioSepは強力な分離性能と印象的なゼロショット汎化能力を示し、オーディオのタイトルやテキストラベルをクエリとして使用することで、従来の音声クエリや言語クエリによる音声分離モデルを大きく凌駕します。本研究の再現性を確保するために、ソースコード、評価ベンチマーク、および事前学習済みモデルを公開します。
AudioSep 最新のトラフィック状況
月間総訪問数
20415616
直帰率
44.33%
平均ページ/訪問
3.1
平均訪問時間
00:04:06