在数字内容创作领域,能够根据文本描述生成视频的技术一直是研究的热点。如果我们能够从参考视频中克隆动作,然后无缝地应用到新的文本描述中,创造出全新的视频内容,这将是多么令人兴奋的事情!这就是MotionClone技术所实现的奇迹。

image.png

现有的文本到视频(Text-to-Video, T2V)生成模型虽然取得了一定的进展,但在动作合成方面仍面临挑战。传统的方法通常需要训练或微调模型来编码动作线索,但这些方法在处理未见过的动作类型时往往表现不佳。

MotionClone提出了一种无需训练的框架,它可以直接从参考视频中克隆动作,以控制文本到视频的生成。该框架利用时间注意力机制来捕捉参考视频中的动作,并引入了主要时间注意力引导,以减少噪声或微小动作对注意力权重的影响。此外,为了帮助生成模型合成合理的空间关系,并增强其遵循提示的能力,研究者们提出了一种位置感知的语义引导机制。

技术亮点:

时间注意力机制:通过视频反演表示参考视频中的动作。

主要时间注意力引导:只利用时间注意力权重中的主要组成部分进行动作引导的视频生成。

位置感知的语义引导:利用参考视频中的前景粗略位置和原始的无分类器引导特征来指导视频生成。

通过大量实验,MotionClone在全局摄像机动作和局部对象动作方面表现出了卓越的能力,在动作保真度、文本对齐和时间一致性方面都有显著的优势。

MotionClone技术的问世,为视频创作领域带来了革命性的变革。它不仅能够提升视频内容的生成质量,还能够大幅度提高创作效率。随着这项技术的不断发展和完善,我们有理由相信,未来的视频创作将更加智能、个性化,甚至能够实现“所想即所得”的创作愿景。

项目地址:https://top.aibase.com/tool/motionclone