阿里巴巴团队发布了肖像视频生成框架 EMO,能够生成具有丰富面部表情和头部姿势的声音肖像视频。EMO利用参考网络从参考图像和动作帧中提取特征,通过预训练的音频编码器处理声音并嵌入,结合多帧噪声和面部区域掩码生成视频。实验结果表明,EMO在表现力和真实感方面优于现有方法。该模型潜在应用方向将提高数字媒体和虚拟内容生成技术水平,但也可能被用作犯罪工具。