阿里EMO框架增强视频生成技术，实现角色化身唱歌和口型视频生成

机器之心

发布于AI新闻资讯 · 1 分钟阅读 · 2024年2月29号 16:11

阿里的EMO框架通过关注音频提示和面部动作之间的联系，增强了头部视频生成的真实度、自然度和表现力。EMO支持不同语言的歌曲和口语音频生成，可以让角色化身具有丰富的表情和动态。此外，EMO还能实现不同角色之间的联动，为视频生成带来更多可能性。

苹果智能简体中文支持将于4月上线随iOS 18.4发布

苹果公司于今日凌晨通过官方网站发布消息，透露Apple智能功能即将迎来重大更新，支持语言范围显著扩大。此次新增支持的语言包括法语、德语、意大利语、葡萄牙语（巴西）、西班牙语、日语、韩语以及简体中文，同时还将推出新加坡与印度本地化英语版本。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

Veo 2震撼登场！Freepik携手谷歌全球首发AI视频新体验

全球知名创意资源平台Freepik宣布与科技巨头谷歌合作，率先在全球范围内推出最新一代AI视频模型——Veo 2。这一重磅消息迅速引发了广泛关注，不少用户纷纷表示，这可能是目前最先进的AI视频生成工具。据介绍，Veo2 由谷歌DeepMind团队研发，是其前代模型Veo的全面升级版。它不仅能生成高达4K分辨率的视频，还能实现长达数分钟的画面内容。更令人惊叹的是，Veo2 在真实感和动画流畅性上达到了新的高度。无论是模拟真实世界的物理效果，还是呈现细腻的人物动作和表情，这款工具都能做

Freepik 率先推出 Veo 2，开启 AI 视频生成新篇章

北京时间，2025 年 2 月 21 日：知名创意平台 Freepik 宣布，其已正式在其平台上推出 Google DeepMind 研发的最新 AI 视频生成模型 Veo 2。这一举措不仅标志着 Freepik 成为全球首家整合 Veo 2 的平台，更打破了地域限制，让非美国居民也能使用这一尖端技术。据 Freepik 官方消息，Veo 2 拥有无与伦比的真实感、精准度和流畅的动画效果，被认为是目前最先进的 AI 视频生成模型。此次与 Google 的合作，使 Freepik 在 AI 创意工具领域再次走在前沿。此前，Veo 2 的使用主要局限于特定地区，而 Freepik 的这一步

AI新闻资讯

阿里EMO框架增强视频生成技术，实现角色化身唱歌和口型视频生成

机器之心

相关AI新闻推荐

苹果智能简体中文支持将于4月上线 随iOS 18.4发布

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

Veo 2震撼登场！Freepik携手谷歌全球首发AI视频新体验

Freepik 率先推出 Veo 2，开启 AI 视频生成新篇章

苹果智能简体中文支持将于4月上线随iOS 18.4发布

阿里国际开源Ovis2系列多模态大语言模型共有六个版本