麻省理工学院(MIT)电气工程与计算机科学专业的博士生 Mark Hamilton 是 MIT 计算机科学与人工智能实验室(CSAIL)的成员,他希望利用机器理解动物的交流方式。为了达到这一目的,他首先着手创建了一个能够 “从零” 学习人类语言的系统。

image.png

产品入口:https://top.aibase.com/tool/denseav

这一算法名为 DenseAV,它通过关联音频和视频信号来学习语言的含义。Hamilton 和他的同事们训练 DenseAV 进行音视频匹配游戏后,观察了该模型在听到声音时关注的像素。例如,当有人说 “狗” 时,算法会立即在视频流中寻找狗。这种像素的选择能够帮助人们发现算法认为某个词的含义。

image.png

有趣的是,当 DenseAV 听到狗叫时,它也会寻找视频流中的狗。这引起了研究人员的兴趣,他们通过给 DenseAV “双面大脑” 来探索算法是否知道 “狗” 这个词和狗叫声的区别。他们发现,DenseAV 的一侧自然关注语言,如 “狗” 这样的词,另一侧关注声音,比如狗叫。这表明 DenseAV 不仅学会了词语的含义和声音的位置,还学会了区分这些跨模态连接的类型,而无需人工干预或任何文字输入。

 DenseAV核心功能特点:

1. DenseAV 是一种双编码器接地架构,通过观看视频学习高分辨率、语义意义和视听对齐的特征。

2. 它可以在没有明确定位监督的情况下发现单词的 “含义” 和声音的 “位置”。

3. DenseAV 可以在没有监督的情况下自动区分单词含义和声音位置的关联。

4. 它利用音视频对比学习将声音与视觉世界联系起来,实现无监督学习。

5. 该模型使用基于本地音频和视觉表示令牌之间内部积的对比相似性,显著提高其定位信息的能力。

6. DenseAV 可以在不知道什么是声音、什么是语言的情况下,自然地将其特征组织为声音特征和语言特征。

7. 在使用不到一半参数的情况下,DenseAV 在跨模态检索方面优于以前的最先进模型 ImageBind。

这一方法的一个应用领域是从每天发布到互联网的大量视频中学习。研究人员表示,他们希望这种方法可以用于理解没有书面交流形式的新语言,比如海豚或鲸鱼的交流方式。最终,他们希望这种方法可以用于发现其他信号之间的模式关联,比如地球发出的地震声和地质情况。

团队面临的一项艰巨挑战是在没有任何文本输入的情况下学习语言。他们的目标是避免使用预先训练的语言模型,从零重新发现语言的含义,这种方法受到了儿童通过观察和倾听环境来理解语言的启发。

论文地址:https://arxiv.org/abs/2406.05629