视频理解新突破！谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽！

在AI的世界里，让机器看懂视频，可比看懂图片难多了。视频是动态的，有声音，有动作，还有一堆复杂的场景。以前的AI，看视频就跟看天书似的，经常是一头雾水。

但VideoPrism的出现，可能要改变这一切。这是一款由谷歌研究团队开发的视频编码器，它能在多种视频理解任务上，用一个模型就达到最先进的水平。不管是给视频分类，定位，还是生成字幕，甚至是回答关于视频的问题，VideoPrism都能轻松应对。

如何训练VideoPrism?

训练VideoPrism的过程，就像是在教一个小孩子学会观察世界。首先，你得给它看各种各样的视频，从日常生活到科学观察，什么都有。然后，你还要用一些“高质量”的视频-字幕对，以及一些带有噪声的平行文本（比如自动语音识别的文本），来训练它。

预训练方法

数据:VideoPrism 使用了3600万个高质量的视频-字幕对和5820百万个带有噪声平行文本的视频片段。

模型架构:基于标准视觉变换器（ViT），在空间和时间上采用因子化设计。

训练算法:包括视频-文本对比训练和掩蔽视频建模两个阶段。

训练过程中，VideoPrism会经历两个阶段。第一阶段，它通过对比学习和全局-局部蒸馏，来学习视频和文本之间的联系。第二阶段，它通过掩蔽视频建模，进一步提升对视频内容的理解。

研究人员在多个视频理解任务上测试了VideoPrism，结果让人眼前一亮。在33个基准测试中，VideoPrism在30个上都达到了最先进的水平。无论是在网络视频问题回答，还是在科学领域的计算机视觉任务，VideoPrism都表现出了强大的能力。

VideoPrism的诞生，为AI视频理解领域带来了新的可能性。它不仅可以帮助AI更好地理解视频内容，还可能在教育、娱乐、安全等多个领域发挥重要作用。

但VideoPrism也面临着一些挑战，比如如何处理长视频，以及如何避免在训练过程中引入偏见等。这些都是未来研究需要解决的问题。

论文地址:https://arxiv.org/pdf/2402.13217

AI新闻资讯