在AI的世界里,让机器看懂视频,可比看懂图片难多了。视频是动态的,有声音,有动作,还有一堆复杂的场景。以前的AI,看视频就跟看天书似的,经常是一头雾水。
但VideoPrism的出现,可能要改变这一切。这是一款由谷歌研究团队开发的视频编码器,它能在多种视频理解任务上,用一个模型就达到最先进的水平。不管是给视频分类,定位,还是生成字幕,甚至是回答关于视频的问题,VideoPrism都能轻松应对。
如何训练VideoPrism?
训练VideoPrism的过程,就像是在教一个小孩子学会观察世界。首先,你得给它看各种各样的视频,从日常生活到科学观察,什么都有。然后,你还要用一些“高质量”的视频-字幕对,以及一些带有噪声的平行文本(比如自动语音识别的文本),来训练它。
预训练方法
数据:VideoPrism 使用了3600万个高质量的视频-字幕对和5820百万个带有噪声平行文本的视频片段。
模型架构:基于标准视觉变换器(ViT),在空间和时间上采用因子化设计。
训练算法:包括视频-文本对比训练和掩蔽视频建模两个阶段。
训练过程中,VideoPrism会经历两个阶段。第一阶段,它通过对比学习和全局-局部蒸馏,来学习视频和文本之间的联系。第二阶段,它通过掩蔽视频建模,进一步提升对视频内容的理解。
研究人员在多个视频理解任务上测试了VideoPrism,结果让人眼前一亮。在33个基准测试中,VideoPrism在30个上都达到了最先进的水平。无论是在网络视频问题回答,还是在科学领域的计算机视觉任务,VideoPrism都表现出了强大的能力。
VideoPrism的诞生,为AI视频理解领域带来了新的可能性。它不仅可以帮助AI更好地理解视频内容,还可能在教育、娱乐、安全等多个领域发挥重要作用。
但VideoPrism也面临着一些挑战,比如如何处理长视频,以及如何避免在训练过程中引入偏见等。这些都是未来研究需要解决的问题。
论文地址:https://arxiv.org/pdf/2402.13217