与Sora同架构，一致性文生视频模型Snap Video

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · Jul 15, 2024

273

在数字媒体时代，视频已成为我们表达自己、分享故事的主要方式。但高质量视频的创作通常需要专业技能和昂贵的设备。现在，通过Snap Video，你只需用文字描述你想要的场景，就能自动生成视频。

当前的图像生成模型已经展现出卓越的质量和多样性。受此启发，研究者开始将这些模型应用于视频生成。然而，视频内容的高度冗余性使得直接将图像模型应用于视频生成领域，会降低动作的真实性、视觉质量和可扩展性。

Snap Video是一个以视频为中心的模型，系统性地解决了这些挑战。首先，它扩展了EDM框架，考虑了空间和时间上的冗余像素，自然支持视频生成。其次，它提出了一种基于变换器的新型架构，比U-Net训练速度快3.31倍，推理速度快4.5倍。这使得Snap Video能够高效地训练具有数十亿参数的文本到视频模型，首次达到最先进的结果，并生成质量更高、时间一致性和动作复杂性显著的视频。

技术亮点:

时空联合建模:Snap Video能够合成具有大幅度运动的连贯视频，同时保留大规模文本到视频生成器的语义控制能力。

高分辨率视频生成:采用两阶段级联模型，先生成低分辨率视频，再进行高分辨率上采样，避免了潜在的时间不一致性问题。

基于FIT的架构:Snap Video利用了FIT（Far-reaching Interleaved Transformers）架构，通过学习压缩的视频表示，实现了高效的时空计算联合建模。

Snap Video在UCF101和MSR-VTT等广泛采用的数据集上进行了评估，表现出在生成动作质量方面的特别优势。用户研究也表明，Snap Video在视频文本对齐、动作数量和质量方面优于最新的方法。

论文还讨论了视频生成领域的其他研究工作，包括基于对抗训练或自回归生成技术的方法，以及最近在文本到视频生成任务中采用扩散模型的进展。

Snap Video通过将视频作为一等公民来对待，系统性地解决了扩散过程和架构在文本到视频生成中的常见问题。它提出的修改EDM扩散框架和基于FIT的架构，显著提高了视频生成的质量和可扩展性。

论文地址：https://arxiv.org/pdf/2402.14797

Grok 暂停大部分用户的图像生成功能

马斯克旗下AI工具Grok因生成性别化与暴力图像引发争议，现已暂停大部分用户的图像生成功能。此举是在面临全球监管压力及英国可能对X平台实施禁令的背景下作出的。此前，该功能曾被用于制作不雅女性图像。目前仅付费用户保留使用权限。

AI日报：千问Qwen3-VL双子星开源；腾讯内测“上头蛙”AI互动故事小程序；小鹏祭出“物理世界大模型”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、通义千问再下一城：Qwen3-VL双子星开源，多模态检索迎来新范式阿里通义实验室开源了Qwen3-VL-Embedding与Qwen3-VL-Reranker模型，标志着多模态信息检索进入语义对齐的新纪元。马斯克确认GrokCode将进入密集更新期，这预示着AI编程工具市场将迎来更激烈的竞争。