AI生成的视越来越逼真,让人类(以及现有的检测系统)难以区分真实视频和虚假视频。为解决这一问题,哥伦比亚大学工程学院的研究人员,由计算机科学教授杨Junfeng Yang领导,开发了一种名为 DIVID 新工具,用于检测 AI 生成视频,全称为 DIffusion-generated VIdeo Detector。DIVID 是该团队今年早些时候发布的 Raidar 的延伸,Raidar 通过分析文本本身而无需访问大型语言模型的内部工作原理来检测 AI 生成文本。

image.png

DIVID 改进了早期用于检测生成视频的方法,有效地识别了由旧的 AI 模型(如生成对抗网络 GAN)生成的视频。GAN 是一种具有两个神经网络的 AI 系统:一个用于创建虚假数据,另一个用于评估以区分真假。通过持续的反馈,两个网络不断改进,从而产生非常逼真的合成视频。当前的 AI 检测工具寻找的是一些显著迹象,比如异常的像素排列、不自然的动作或帧之间的不一致,这在真实视频中通常不会出现。

image.png

新一代生成 AI 视频工具,如 OpenAI 的 Sora、Runway Gen-2和 Pika,使用扩散模型创建视频。扩散模型是一种 AI 技术,通过逐渐将随机噪声转化为清晰、逼真的图片来创建图像和视频。对于视频来说,它会分别优化每一帧,同时确保平滑过渡,从而产生高质量、逼真的结果。这种日益复杂的 AI 生成视频的发展对其真实性的检测构成了重大挑战。

Bernadette Young的团队使用了一种称为 DIRE(DIffusion Reconstruction Error)的技术来检测扩散生成的图像。DIRE 是一种衡量输入图像与预训练扩散模型重建的对应输出图像之间差异的方法。

Junfeng Yang是软件系统实验室的联合主任,一直在探索如何检测 AI 生成文本和视频。今年早些时候,随着 Raidar 的发布,Junfeng Yang和合作者通过分析文本本身,无需访问诸如 chatGPT-4、Gemini 或 Llama 等大型语言模型的内部工作原理,实现了检测 AI 生成文本的方法。Raidar 使用语言模型重新表述或修改给定的文本,然后测量系统对给定文本所做的编辑次数。编辑次数多意味着文本可能由人类撰写,而编辑次数少意味着文本可能是机器生成的。

Junfeng Yang表示:“Raidar 的启发 —— 即另一个 AI 通常认为另一个 AI 的输出质量很高,因此它会进行较少的编辑 —— 这一洞察力非常强大,不仅限于文本。” 他说:“鉴于 AI 生成的视频变得越来越逼真,我们希望借助 Raidar 的洞察力,创建一个可以准确检测 AI 生成视频的工具。”

 研究人员利用相同的概念开发了 DIVID。这种新的生成视频检测方法可以识别由扩散模型生成的视频。该研究论文于2024年6月18日在西雅图举行的计算机视觉与模式识别会议(CVPR)上发表,同时发布了开源代码和数据集。

论文地址:https://arxiv.org/abs/2406.09601

划重点:

- 针对越来越逼真的 AI 生成视频,哥伦比亚大学工程学院的研究人员开发了一种新工具 DIVID,可以以93.7% 的准确率检测 AI 生成的视频。

- DIVID 是对先前的方法的改进,用于检测新一代生成 AI 视频,它可以识别由扩散模型生成的视频,这种模型可以逐渐将随机噪声转化为高质量、逼真的视频图像。

- 研究人员将从 Raidar 的 AI 生成文本的洞察力扩展到视频,利用语言模型对文本或视频进行重新表述或修改,然后测量系统对文本或视频所做的编辑次数,从而判断其真实性。