FLOAT

基于流匹配的音频驱动说话人像视频生成方法

普通产品图像人像动画音频驱动
FLOAT是一种音频驱动的人像视频生成方法,它基于流匹配生成模型,将生成建模从基于像素的潜在空间转移到学习到的运动潜在空间,实现了时间上一致的运动设计。该技术引入了基于变换器的向量场预测器,并具有简单而有效的逐帧条件机制。此外,FLOAT支持语音驱动的情感增强,能够自然地融入富有表现力的运动。广泛的实验表明,FLOAT在视觉质量、运动保真度和效率方面均优于现有的音频驱动说话人像方法。
打开网站

FLOAT 最新流量情况

月总访问量

59

跳出率

44.35%

平均页面访问数

1.0

平均访问时长

00:00:00

FLOAT 访问量趋势

FLOAT 访问地理位置分布

FLOAT 流量来源

FLOAT 替代品