HOI-Swap是一个基于扩散模型的视频编辑框架,专注于处理视频编辑中手与物体交互的复杂性。该模型通过自监督训练,能够在单帧中实现物体交换,并学习根据物体属性变化调整手的交互模式,如手的抓握方式。第二阶段将单帧编辑扩展到整个视频序列,通过运动对齐和视频生成,实现高质量的视频编辑。