阿里推出基于音频驱动的AI视频生成器EMO

量子位

发布于AI新闻资讯 · 1 分钟阅读 · 2024年2月29号 13:39

阿里最新推出的基于音频驱动的肖像视频生成框架EMO，可以根据输入音频生成任意持续时间的视频。该框架由阿里巴巴智能计算研究院团队开发，是一种富有表现力的视频生成技术。EMO与之前的AI视频生成方法相比有较大提升，但也存在耗时较长的缺点。团队成员包括薄列峰等人，他们在论文中详细介绍了EMO的技术路线和特性。这一新技术为AI领域带来了新的突破，让人们对未来的发展充满期待。

大模型新突破：从教学视频中提炼高质量多模态教科书

近日，浙江大学与阿里巴巴达摩院联合发布了一项引人瞩目的研究，旨在通过教学视频创建高质量的多模态教科书。这一创新的研究成果不仅为大规模语言模型（VLMs）的训练提供了新的思路，也可能改变教育资源的利用方式。随着人工智能技术的迅猛发展，VLMs 的预训练语料主要依赖图文对数据与图文交织语料。然而，当前的这些数据多来自网页，文本与图像的关联性较弱，知识密度也相对较低，无法有效支持复杂的视觉推理。为了应对这一挑战，研究团队决定从互联网上海量的教学视频

阿里智能互联并入夸克:布局AI眼镜整合通义能力

据智能涌现报道，阿里巴巴智能互联事业群近期正式并入智能信息事业群，由后者总裁吴嘉统一管理。此次整合中，天猫精灵硬件团队与夸克产品团队已开始融合运作，重点布局新一代AI产品规划及能力整合。智能互联作为阿里在2022年成立的一级业务部门，以天猫精灵为核心品牌，是集团重要的To C硬件业务。本次调整后，智能互联将保持独立运作，其业务中心负责人宋刚直接向吴嘉汇报。这一调整紧随去年12月通义业务的架构变动。当时，通义的To C产品及工程团队从阿里云分拆，并入智能

阿里云发布全新数学推理模型Qwen2.5-Math-PRM，7B 版本超越 GPT-4o

今天，阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸，性能表现均显著优于同类的开源过程奖励模型，尤其是在识别推理错误方面表现突出。Qwen2.5-Math-PRM 的7B 版本令人惊讶地超越了业界广受欢迎的 GPT-4o，这一成就标志着阿里云在推理模型的研发上迈出了重要的一步。为了全面评估模型在数学推理中的表现，通义团队还开源了首个步骤级的评估标准 ——ProcessBench。这个评估标准涵盖了3400个数学问题测试案例，其中还包括国际奥林匹

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

阿里巴巴 Qwen 团队近日发布了题为《数学推理中过程奖励模型的开发经验教训》的论文，并推出了 Qwen2.5-Math-PRM 系列中的两个新模型，分别具有7B 和72B 参数。这些模型在数学推理中突破了现有 PRM 框架的限制，通过创新技术显著提高了推理模型的准确性和泛化能力。数学推理一直是大型语言模型（LLM）面临的重大挑战，尤其是在中间推理步骤中，错误往往会影响最终输出的准确性，这对于教育、科学计算等对精确度要求高的领域尤其成问题。传统评估方法，如 Best-of-N(BoN)策略，无法充分捕

AI新闻资讯

阿里推出基于音频驱动的AI视频生成器EMO

量子位

相关AI新闻推荐

大模型新突破：从教学视频中提炼高质量多模态教科书

阿里智能互联并入夸克:布局AI眼镜 整合通义能力

阿里云发布全新数学推理模型Qwen2.5-Math-PRM，7B 版本超越 GPT-4o

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

阿里智能互联并入夸克:布局AI眼镜整合通义能力