Video-Foley
视频到声音的同步生成系统
普通产品生产力视频声音合成自监督学习
Video-Foley是一个创新的视频到声音生成系统,它通过使用均方根(RMS)作为时间事件条件,结合语义音色提示(音频或文本),实现高控制性和同步性的视频声音合成。该系统采用无需标注的自监督学习框架,包括Video2RMS和RMS2Sound两个阶段,结合了RMS离散化和RMS-ControlNet等新颖概念,与预训练的文本到音频模型相结合。Video-Foley在声音时间、强度、音色和细节的音视频对齐和控制性方面达到了最先进的性能。