AudioSep

自然言語クエリに基づくオープン領域の音声源分離モデル

一般製品音楽音声分離自然言語クエリ
AudioSepは、自然言語クエリに基づくオープン領域の音声源分離モデルです。テキストエンコーダと分離モデルという2つの主要なコンポーネントで構成されています。大規模なマルチモーダルデータセットでAudioSepをトレーニングし、オーディオイベント分離、楽器分離、音声強調など、多くのタスクにおいてその能力を幅広く評価しました。AudioSepは強力な分離性能と印象的なゼロショット汎化能力を示し、オーディオのタイトルやテキストラベルをクエリとして使用することで、従来の音声クエリや言語クエリによる音声分離モデルを大きく凌駕します。本研究の再現性を確保するために、ソースコード、評価ベンチマーク、および事前学習済みモデルを公開します。
ウェブサイトを開く

AudioSep 最新のトラフィック状況

月間総訪問数

20415616

直帰率

44.33%

平均ページ/訪問

3.1

平均訪問時間

00:04:06

AudioSep 訪問数の傾向

AudioSep 訪問地理的分布

AudioSep トラフィックソース

AudioSep 代替品