DiTCtrl
探索多模态扩散变换器中的注意力控制,实现无需调优的多提示长视频生成
普通产品视频视频生成多模态
DiTCtrl是一种基于多模态扩散变换器(MM-DiT)架构的视频生成模型,它专注于无需额外训练即可生成具有多个连续提示的连贯场景视频。该模型通过分析MM-DiT的注意力机制,实现了在不同提示间精确的语义控制和注意力共享,从而生成具有平滑过渡和一致对象运动的视频。DiTCtrl的主要优点包括无需训练、能够处理多提示视频生成任务,并能展示电影风格的过渡效果。此外,DiTCtrl还提供了一个新基准MPVBench,专门用于评估多提示视频生成的性能。