随着人工智能技术的飞速发展,图像到视频(I2V)的生成技术已成为研究的热点。最近,由Xiaoyu Shi、Zhaoyang Huang等研究者组成的团队推出了一种名为Motion-I2V的新型框架,该框架通过显式运动建模,实现了更为一致和可控的图像到视频生成。这一技术突破,不仅提升了视频生成的质量和一致性,还为用户带来了前所未有的控制体验。

在图像到视频的生成领域,如何保持生成视频的连贯性和控制性一直是技术难题。传统的I2V方法直接学习图像到视频的复杂映射,而Motion-I2V框架则创新性地将这一过程分解为两个阶段,并在两个阶段中都引入了明确的运动建模。

第一阶段,Motion-I2V提出了基于扩散的运动场预测器,专注于推导参考图像像素的轨迹。这一阶段的关键在于,通过参考图像和文本提示,预测参考帧与所有未来帧之间的运动场图。第二阶段则负责将参考图像的内容传播到合成帧中。通过引入一种新颖的运动增强时序层,增强了1-D时序注意力,扩大了时间感受野,并减轻了直接学习复杂时空模式的复杂性。

在与现有方法的比较中,Motion-I2V展现出了明显的优势。无论是在“快速行驶的坦克”、“蓝色宝马车快速行驶”、“三个清晰的冰块”还是“爬行的蜗牛”等场景下,Motion-I2V都能生成更加一致的视频,即使在大范围的运动和视角变化下也能保持高质量输出。

此外,Motion-I2V还支持用户通过稀疏轨迹和区域注释来精确控制运动轨迹和运动区域,提供了比仅依赖文本指令更多的控制能力。这不仅提升了用户的交互体验,也为视频生成的定制化和个性化提供了可能。

image.png

值得一提的是,Motion-I2V的第二阶段还自然支持零样本视频到视频的转换,这意味着在没有训练样本的情况下,也能实现不同风格或内容的视频转换。

image.png

 Motion-I2V框架的推出,标志着图像到视频生成技术迈入了一个新的阶段。它不仅在质量和一致性上取得了显著提升,更在用户控制性和个性化定制方面展现了巨大潜力。随着技术的不断成熟和完善,我们有理由相信,Motion-I2V将在影视制作、虚拟现实、游戏开发等多个领域发挥重要作用,为人们带来更加丰富和生动的视觉体验。

文档地址:https://xiaoyushi97.github.io/Motion-I2V/ 

github地址: https://github.com/G-U-N/Motion-I2V