比原声还原生！字节新项目Loopy让数字人声音完美匹配画面该死的割裂感终于消失了

在这个数字化浪潮席卷全球的时代，虚拟形象已悄然成为我们日常生活中不可或缺的一部分。

然而比较常玩图生视频+对口型的用户都碰到过一个尴尬的问题，你的“人物”无论生成得多逼真，但她一张嘴就露馅了。

证件照写真 (1)

图源备注：图片由AI生成，图片授权服务商Midjourney

简单来说，就是声音和画面完全是割裂的，大家一听就知道这个声音不是她发出的，或者说，在那个场景下，人们听到的声音不该是这样的。

现在，这个尴尬的问题终于有人给解决了!

近日，一项名为LOOPY的创新技术横空出世，它不仅突破了传统虚拟形象动画的局限，更为数字世界注入了前所未有的活力。

LOOPY是由字节跳动和浙江大学的科研团队联合开发的一款基于音频驱动的视频扩散模型。与以往需要复杂空间信号辅助的技术不同，LOOPY仅需一帧图像和音频输入，就能让虚拟形象展现出令人惊艳的动态效果。

这项技术的核心在于其独特的长期运动信息捕捉模块，Loopy 支持各种视觉和音频风格，它就像一位经验丰富的编舞者，能够根据音频的节奏和情感，精准地"指挥"虚拟形象的每一个细微动作。例如叹息等非语音动作、情绪驱动的眉毛和眼睛运动以及自然的头部运动。

比如这个视频中，泰勒说话时候的眼部以及颈部的动作，都完美符合大家的预期。让你盯着看她说话的时候，很自然的就觉的她说话的时候就是这个样子的。包括人物说话当下的环境音，场景音，都让你觉得“理所当然”。

包括这种非现实人物，LOOPY也表现惊艳。无论是歌手演唱时的细腻表情，还是与情绪同步的眉眼变化，甚至是一声轻柔的叹息，LOOPY都能完美呈现。

更令人惊喜的是，它还能根据不同的音频为同一张参考图像生成多样化的动作效果，从激情四射到温柔婉约，应有尽有。这种灵活性为创作者提供了无限的想象空间。

在实际应用中，LOOPY展现出了卓越的性能。通过在多个真实世界数据集上的测试，它不仅在自然度上远超现有的音频驱动肖像扩散模型，还能在各种复杂场景下生成高质量、高真实度的结果。

特别值得一提的是，LOOPY在处理侧面肖像时也表现出色，这无疑将推动虚拟形象的表现力再上新台阶。

LOOPY的出现，无疑为虚拟世界打开了一扇新的大门。它不仅能够在游戏、电影制作和虚拟现实等领域大显身手，提升用户体验，还为创作者们提供了更广阔的创作平台。随着技术的不断进步，LOOPY的潜力正在被进一步挖掘，它很可能成为引领未来虚拟形象技术发展的新标杆。

项目地址：https://loopyavatar.github.io/

AI新闻资讯