阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Mar 27, 2025

324

3月27日，阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

Qwen2.5-Omni采用了创新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本、图像、音频、视频的跨模态理解，并以流式方式生成文本和自然语音响应。其中，Thinker模块如同大脑，负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官，以流式方式接收Thinker实时输出的语义表征与文本，流畅合成离散语音单元。此外，该模型还提出了一种新的位置编码技术TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

微信截图_20250327082050.png

该模型在实时音视频交互方面表现出色，支持分块输入和即时输出，能够实现完全实时的交互。在语音生成的自然性和稳定性方面，Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。在全模态性能方面，Qwen2.5-Omni在同等规模的单模态模型进行基准测试时，表现出卓越的性能，其音频能力优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。此外，Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中，Qwen2.5-Omni达到了SOTA的表现。在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

目前，Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放，用户可以通过Demo体验互动功能，或是通过Qwen Chat直接发起语音或视频聊天，沉浸式体验全新的Qwen2.5-Omni模型强大性能。

Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub:https://github.com/QwenLM/Qwen2.5-Omni

Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

Qwen2.5-Omni 阿里云通义千问多模态 Thinker-Talker架构

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Meta 发布 WebSSL 模型：无语言视觉学习的新探索

在人工智能领域，Meta 公司最近推出了 WebSSL 系列模型，这一系列模型的参数规模从3亿到70亿不等，基于纯图像数据进行训练，旨在探索无语言监督的视觉自监督学习（SSL）的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性，也为我们理解视觉表征的学习方式提供了新的视角。过去，OpenAI 的 CLIP 模型因其在视觉问答（VQA）和文档理解等多模态任务中的优异表现而备受关注。然而，由于数据集的获取复杂性及其规模限制，基于语言的学习方法面临诸多挑战。为了应对这一问题，

2025年4月25号 13:49

2.7k

共同阶跃星辰与原力灵机达成战略合作

阶跃星辰与原力灵机在北京签署了战略合作协议，双方将利用各自的技术优势，在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。此次合作的目标是实现 “实现在物理世界的推理”，共同开发一种名为 “RoboAgent” 的智能机器人，推动通用人工智能（AGI）在实际应用中的落地。签约仪式上，阶跃星辰的创始人兼 CEO 姜大昕博士和原力灵机的联合创始人范浩强共同见证了这一重要时刻。阶跃星辰的 COO 曹志敏和原力灵机的 CTO 周而进分别代表双方签署了协议。根据协议内

2025年4月24号 13:43

9.7k

昆仑万维开源Skywork-R1V 2.0版本视觉与文本推理能力提升

4月24日，昆仑万维宣布正式开源其多模态推理模型Skywork-R1V2.0（以下简称R1V2.0）。这一升级版本在视觉与文本推理能力上均实现了显著提升，特别是在高考理科难题的深度推理和通用任务场景中表现出色，堪称当前最均衡兼顾视觉与文本推理能力的开源多模态模型。

2025年4月24号 10:31

2.5k

英伟达推多模态LLM Describe Anything：指定特定区域生成详细的描述

NVIDIA AI团队发布了一款革命性的多模态大语言模型——Describe Anything3B（DAM-3B），专为图像和视频的精细化、区域化描述而设计。这款模型凭借创新技术和卓越性能，在多模态学习领域掀起热议，成为AI技术发展的又一里程碑。以下，AIbase为您梳理这款模型的核心亮点与行业影响。区域化描述的突破DAM-3B以其独特的能力脱颖而出:能够根据用户指定的图像或视频区域（如点、框、涂鸦或掩码），生成高度详细的描述。这种区域化描述超越了传统图像标注的局限，结合全局图像/视频上下文与局

2025年4月24号 9:58

1.6k

字节跳动推出Vidi多模态模型，引领超长视频理解与编辑新潮流

字节跳动宣布推出全新多模态模型Vidi，专注于视频理解与编辑，首版核心能力为精准的时间检索功能。据AIbase了解，Vidi能够处理视觉、音频和文本输入，支持长达一小时的超长视频分析，在时间检索任务上性能超越GPT-4o与Gemini等主流模型。这一突破性技术已在AI社区引发热烈讨论，相关细节通过字节跳动官方渠道与GitHub公开。核心功能:精准时间检索与多模态协同Vidi以其强大的时间检索与多模态处理能力，为视频理解与编辑提供了全新解决方案。AIbase梳理了其主要功能: 时间检索精准定位

2025年4月23号 16:51

23.1k

xAI推出Grok Vision，开启视觉与多语言智能交互新篇章

xAI宣布为其旗舰AI助手Grok推出全新Grok Vision功能，标志着Grok在多模态交互领域的重大突破。据AIbase了解，Grok Vision通过智能手机摄像头实时分析现实世界的物体、文本和环境，并结合多语言语音支持与实时搜索功能，为用户提供无缝的智能交互体验。相关细节已在xAI官网与社交平台公布，引发了全球AI社区的广泛热议。核心功能:视觉分析与多语言语音无缝融合Grok Vision将视觉处理、多语言语音与实时搜索整合，显著提升了Grok的实用性与用户体验。AIbase梳理了其主要功能: 实时视觉分析:通过

2025年4月23号 16:22

14.3k

Grok大更新！视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新，其功能全面升级，不仅新增了视觉处理能力，还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破，为用户提供了更智能、更便捷的交互体验。以下，AIbase将为您详细解析此次更新的亮点与意义。视觉能力突破Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月，xAI曾宣布Grok-1.5Vision（Grok-1.5V）具备处理文档、图表、截图和照片等视觉信息的能力，但该版

2025年4月23号 8:54

4.2k

AI日报：昆仑万维开源SkyReels-V2；讯飞星火X1全新升级；扣子空间Coze Space内测

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、昆仑万维开源SkyReels-V2：无限时长电影生成模型昆仑万维的SkyReels团队推出了SkyReels-V2，这是全球首个基于扩散强迫框架的无限时长电影生成模型。该模型通过结合多模态大语言模型、强化学习等技术，显著提升了视频生成的质量和效率。SkyReels-V2不仅在技术上取得突破，还拓展了应用场景，

2025年4月21号 15:45

7.5k

昆仑万维开源SkyReels-V2：无限时长电影生成模型

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2，这是全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化，标志着视频生成技术迈入了一个新的阶段。

2025年4月21号 11:01

6.4k

Interview Kickstart 推出应用生成式 AI 课程，助力科技人才把握未来机遇

在人工智能（AI）领域的快速发展中，技术人才的专业知识变得愈发重要。位于加利福尼亚圣克拉拉的 Interview Kickstart 近日宣布更新其 “应用生成式 AI” 课程，旨在帮助技术专业人士适应这一快速演变的市场。这个消息恰逢中国科技巨头百度推出其新一代 AI 模型 ——Ernie4.5和 Ernie X1，引发了业界的广泛关注。百度的这两款多模态基础模型声称在多个基准平台上超过了竞争对手，如 DeepSeek 和 OpenAI。这一突破标志着中国 AI 市场竞争的加剧，DeepSeek、阿里巴巴、腾讯和字节跳动等公司都在争夺

2025年4月18号 10:04

1.4k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图