阿里通义团队开源 R1-Omni：多模态模型实现音视频信息透明化

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Mar 12, 2025

237

在人工智能领域，阿里通义实验室团队近日宣布开源其最新研发的多模态模型 ——R1-Omni。这一模型结合了强化学习与可验证奖励（RLVR）方法，展现出了在处理音频和视频信息方面的卓越能力。R1-Omni 的亮点在于其透明性，让我们得以更清晰地理解各模态在决策过程中的作用，尤其是在情绪识别等任务中。

随着 DeepSeek R1的推出，强化学习在大模型的应用潜力被不断挖掘。RLVR 方法为多模态任务带来了新的优化思路，能够有效处理几何推理、视觉计数等复杂任务。尽管目前的研究多集中于图像和文本的结合，但通义实验室的最新探索则拓展了这一领域，将 RLVR 与视频全模态模型结合，充分展示了技术的广泛应用前景。

R1-Omni 通过 RLVR 方法，使音频和视频信息的影响变得更加直观。例如，在情绪识别任务中，模型能够清晰展示哪些音视频信号对情绪判断起到了关键作用。这种透明性不仅提高了模型的可靠性，也为研究人员和开发者提供了更好的洞察。

在性能验证方面，通义实验室团队将 R1-Omni 与原始 HumanOmni-0.5B 模型进行了对比实验。结果表明，R1-Omni 在 DFEW 和 MAFW 数据集上的表现均有显著提升，平均提高超过35%。此外，相较于传统的监督微调（SFT）模型，R1-Omni 在无监督学习(UAR)上也提升了超过10%。在不同分布测试集(如 RAVDESS)上，R1-Omni 展现出了卓越的泛化能力，WAR 和 UAR 均提高超过13%。这些成果不仅证明了 RLVR 在提升推理能力上的优势，也为未来的多模态模型研究提供了新的思路和方向。

R1-Omni 的开源将为更多研究人员和开发者提供便利，期待这一模型在未来的应用中能够带来更多创新和突破。

R1-Omni 阿里通义实验室强化学习多模态模型

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

GPT-4o图像生成功能现已集成至自定义GPTs

2025年4月26日 AIbase报道：OpenAI近日宣布，其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像，为内容创作、设计和教育等领域带来更多可能性。无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。与过去依赖DALL-E3等外部模型不同，GPT-4o的图像生成能力内嵌于模型本身，支持直接根据文本提示生成高质量图像。如今，这一功能

2025年4月27号 8:36

1.2k

字节跳动推出Vidi多模态模型，引领超长视频理解与编辑新潮流

字节跳动宣布推出全新多模态模型Vidi，专注于视频理解与编辑，首版核心能力为精准的时间检索功能。据AIbase了解，Vidi能够处理视觉、音频和文本输入，支持长达一小时的超长视频分析，在时间检索任务上性能超越GPT-4o与Gemini等主流模型。这一突破性技术已在AI社区引发热烈讨论，相关细节通过字节跳动官方渠道与GitHub公开。核心功能:精准时间检索与多模态协同Vidi以其强大的时间检索与多模态处理能力，为视频理解与编辑提供了全新解决方案。AIbase梳理了其主要功能: 时间检索精准定位

2025年4月23号 16:51

23.4k

学术打假！清华上交大研究颠覆认知：强化学习竟是大模型推理的"绊脚石"

清华大学与上海交通大学联合发表的最新论文，对业界普遍认为"纯强化学习（RL）能提升大模型推理能力"的观点提出了挑战性反驳。研究发现，引入强化学习的模型在某些任务中的表现，反而逊色于未使用强化学习的原始模型。

2025年4月23号 13:51

5.4k

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

在人工智能的不断发展中，扩散模型在推理能力上逐渐崭露头角，现如今，它们不再是自回归模型的 “跟随者”。近日，来自加州大学洛杉矶分校（UCLA）和 Meta 的研究者们联合推出了一种名为 d1的新框架，该框架结合了监督微调(SFT)和强化学习(RL)，使扩散模型具备更强的推理能力，包括数学理解、逻辑推理等。这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型（dLLM）的性能。在第一阶段，模型通过高质量的推理轨迹进行监督微调，从而掌握基础知识和逻辑推理能力。接着

2025年4月21号 11:52

6.0k

AI日报：字节发布豆包1.5深度思考模型；微信首个AI助手 “元宝” 上线；OpenAI发布o4-mini、满血版o3

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3，这两款模型具备同时处理文本、图像和音频的能力，并能调用外部工具进行复杂任务的处理。o4-mini在各项测试中表现优异，准确率高于o3，并在编程竞赛中名列前茅。【AiBase提要:】🛠

2025年4月17号 16:06

9.4k

月之暗面Kimi开源数学定理证明模型Kimina-Prover

Kimi 技术团队近日发布了 Kimina-Prover 预览版的技术报告，并开源了1.5B 和7B 参数的模型蒸馏版本、用于数据生成的 Kimina-Autoformalizer-7B 模型以及修订过的 miniF2F 基准测试数据集。Kimina-Prover 是由 Numina 和 Kimi 团队联合研发的一款数学定理证明模型，它在形式化定理证明领域采用了一种新颖的、由推理驱动的探索范式，展现出极佳的性能。

2025年4月17号 8:31

2.1k

OpenAI发布两款多模态推理模型o4-mini、满血版o3

在今天凌晨1点的技术直播中，OpenAI正式推出其最新且最强大的多模态模型o4-mini和满血版o3。这两款模型具备独特优势，不仅能同时处理文本、图像和音频，还可作为智能体自动调用网络搜索、图像生成、代码解析等工具，并且拥有深度思考模式，能在思维链中思考图像。

2025年4月17号 7:49

7.4k

字节跳动开源Liquid多模态模型，革新视觉与语言统一生成

人工智能领域迎来一项重大突破。AIbase从社交媒体获悉，字节跳动于近日宣布开源其全新多模态生成模型Liquid，该模型以创新的统一编码方式和单一大语言模型（LLM）架构，实现了视觉理解与生成任务的无缝整合。这一发布不仅展示了字节在多模态AI上的技术雄心，也为全球开发者提供了强大的开源工具。以下是AIbase对Liquid模型的深度解析，探索其技术创新、核心发现及行业影响。Liquid模型亮相:统一多模态生成新范式Liquid是一个基于自回归生成的多模态模型，其核心创新在于将图像和文本

2025年4月16号 17:03

7.2k

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频，实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程，OmniTalker 显著降低了制作成本，同时提升了生成内容的真实感和互动体验，满足了广泛的应用需求。OmniTalker 的使用十分简便，用户只需在平台上上传一段参考视频，就能生成与之同步的音频和视频内容。目前，该项目已在魔搭社区和 HuggingFace 等平台开放体验，并提

2025年4月15号 13:56

8.5k

小鹏汽车推新物理大模型，定位AI汽车公司

近日，小鹏汽车创始人何小鹏在社交媒体上透露，作为将 “智能化” 作为核心的车企之一，小鹏汽车的本质定位在于 “AI 汽车公司”。他强调，人工智能（AI）最大的价值不仅在于数字世界的应用，更在于能够改变我们的物理世界。这一观点引发了行业内外的关注与讨论。何小鹏表示，小鹏汽车坚持全栈自研的理念，去年首次在自动驾驶领域引入了强化学习与模型蒸馏的技术路线，这一创新举措使得小鹏在行业内具备了独特竞争力。他透露，小鹏正在训练一个超大规模的物理世界模型，

2025年4月14号 10:21

2.0k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图