FLOAT
基于流匹配的音频驱动说话人像视频生成方法
普通产品图像人像动画音频驱动
FLOAT是一种音频驱动的人像视频生成方法,它基于流匹配生成模型,将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间,实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器,并具有简单而有效的逐帧条件机制。此外,FLOAT支持语音驱动的情感增强,能够自然地融入富有表现力的运动。广泛的实验表明,FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。
FLOAT 最新流量情况
月总访问量
59
跳出率
44.35%
平均页面访问数
1.0
平均访问时长
00:00:00