AudioSep

基于自然语言查询的开放领域音频源分离模型

普通产品音乐音频分离自然语言查询
AudioSep是一种基于自然语言查询的开放领域音频源分离模型。它由文本编码器和分离模型两个关键组件组成。我们在大规模多模态数据集上训练AudioSep,并在许多任务上广泛评估其能力,包括音频事件分离、乐器分离和语音增强。AudioSep表现出强大的分离性能和令人印象深刻的零样本泛化能力,使用音频标题或文本标签作为查询,大大优于以前的音频查询和语言查询声音分离模型。为了保证本工作的可重复性,我们将发布源代码、评估基准和预训练模型。
打开网站

AudioSep 最新流量情况

月总访问量

19842651

跳出率

44.69%

平均页面访问数

3.1

平均访问时长

00:04:10

AudioSep 访问量趋势

AudioSep 访问地理位置分布

AudioSep 流量来源

AudioSep 替代品