DenseAV

一种自监督的视听特征对齐模型。

普通产品视频自监督学习视听对齐
DenseAV是一种新颖的双编码器定位架构,通过观看视频学习高分辨率、语义有意义的视听对齐特征。它能够无需明确定位监督即可发现单词的“意义”和声音的“位置”,并且自动发现并区分这两种关联类型。DenseAV的定位能力来自于一种新的多头特征聚合操作符,它直接比较密集的图像和音频表示进行对比学习。此外,DenseAV在语义分割任务上显著超越了先前的艺术水平,并且在使用参数少于一半的情况下,在跨模态检索上超越了ImageBind。
打开网站

DenseAV 最新流量情况

月总访问量

3083

跳出率

75.91%

平均页面访问数

1.5

平均访问时长

00:01:11

DenseAV 访问量趋势

DenseAV 访问地理位置分布

DenseAV 流量来源