DenseAV
一种自监督的视听特征对齐模型。
普通产品视频自监督学习视听对齐
DenseAV是一种新颖的双编码器定位架构,通过观看视频学习高分辨率、语义有意义的视听对齐特征。它能够无需明确定位监督即可发现单词的“意义”和声音的“位置”,并且自动发现并区分这两种关联类型。DenseAV的定位能力来自于一种新的多头特征聚合操作符,它直接比较密集的图像和音频表示进行对比学习。此外,DenseAV在语义分割任务上显著超越了先前的艺术水平,并且在使用参数少于一半的情况下,在跨模态检索上超越了ImageBind。
DenseAV 最新流量情况
月总访问量
1731
跳出率
55.48%
平均页面访问数
2.1
平均访问时长
00:01:00