站长之家(ChinaZ.com)6月17日 消息:北京大学与快手AI团队合作,成功攻克了复杂视频生成的难题。他们提出了一种名为VideoTetris的新框架,能够像拼图一样轻松组合各种细节,生成高难度、指令复杂的视频。该框架在复杂视频生成任务中超越了Pika、Gen-2等商用模型。

VideoTetris框架首次定义了组合视频生成任务,包括两个子任务:1) 跟随复杂组合指令的视频生成;2) 跟随递进的组合式多物体指令的长视频生成。团队发现,几乎所有现有的开源模型和商用模型都未能生成正确的视频。例如,输入"左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩",结果生成的视频往往融合了两个物体信息,显得怪异。

QQ截图20240617104639.jpg

相比之下,VideoTetris能够成功保留所有的位置信息和细节特征。在长视频生成中,它支持更复杂的指令,如"从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上"。生成的视频顺序与输入指令一致,两只松鼠还能自然地交换食物。

VideoTetris框架采用了时空组合扩散方法。它首先将文本提示按时间解构,为不同视频帧指定不同的提示信息。然后在每一帧上进行空间维度的解构,将不同物体对应到不同的视频区域。最后,通过时空交叉注意力进行组合,实现高效的组合指令生成。

为了生成更高质量的长视频,团队还提出了一种增强的训练数据预处理方法,使长视频生成更加动态稳定。此外,引入了参考帧注意力机制,使用原生VAE对之前的帧信息编码,区别于其他模型使用CLIP编码的方式,从而获得更好的内容一致性。

优化后的结果是,长视频不再有大面积偏色现象,能够更好地适应复杂指令,生成的视频更具有动感,更符合自然。团队还引入了新的评测指标VBLIP-VQA和VUnidet,首次将组合生成评价方法扩展到视频维度。

实验测试表明,在组合视频生成能力上,VideoTetris模型的表现超过了所有开源模型,甚至是商用模型如Gen-2和Pika。据悉,该代码将完全开源。

项目地址:https://top.aibase.com/tool/videotetris