阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年3月25号 10:03

172

在人工智能领域，阿里巴巴再次带来了重磅消息。近日，阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。这款新模型是 Qwen2.5系列中的一员，其他版本包括3B、7B 和72B，而32B 版本在保持性能的同时，更加注重便捷的本地运行体验。

Qwen2.5-VL-32B 经过强化学习的优化，在多个方面表现出色。首先，它的回答更加符合人类的认知习惯，这意味着用户在与模型互动时，将能获得更自然和流畅的交流体验。其次，这款模型在数学推理能力方面的提升也十分显著。无论是复杂的数学题还是几何体分析，Qwen2.5-VL-32B 都能准确而清晰地进行分析与推理。此外，该模型在图像解析、内容识别和视觉逻辑推导等任务中的准确性也得到了明显改善，使得其在处理多模态数据时，能够提供更加细致入微的分析。

在与同类模型的对比中，如 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT，Qwen2.5-VL-32B 在纯文本能力上已达到同规模的最佳表现，甚至在多个基准测试中超过了72B 的版本。这一成就充分展示了阿里在多模态 AI 技术领域的领先地位。

例如，当用户向 Qwen2.5-VL-32B 展示一张交通指示牌的照片，并询问能否在一个小时内到达110公里外的目的地时，模型将分析时间、距离及卡车的限速，逐步清晰地推导出正确答案。这种复杂的推理能力让人惊叹不已。

目前，Qwen2.5-VL-32B 已经在 Hugging Face 上开源，用户可直接在 Qwen Chat 平台体验其强大的功能。随着开源活动的深入，越来越多的开发者和用户积极参与并在 MLX Community 中进行试验，讨论也在 Hacker News 等社交平台上热烈展开。

显然，阿里的这次发布再次引发了业内的热议，许多人认为开源的力量正不断突破边界，为人工智能的未来发展提供了无限可能。

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

近日，清华大学的研究团队开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性，而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。何为“测试时缩放”?在大型语言模型（LLMs）领域，研究人员已经发现，通过在测试阶段增加计算量可以有效提升模型性能。Video-T1借鉴了这一思路，并将其应用于视频生成

蔡崇信警示AI数据中心泡沫!阿里重启招聘并定义AI战略三分类

3月25日，阿里巴巴集团董事会主席蔡崇信在汇丰全球投资峰会上发表观点，指出当前人工智能（AI）数据中心建设已初现泡沫迹象，他认为美国许多数据中心的投资公告存在“重复”或相互重叠的情况。与此同时，蔡崇信透露，阿里巴巴的员工数量已经触底，公司将重启招聘计划。针对当前蓬勃发展的AI浪潮，蔡崇信将参与其中的公司大致划分为三类:第一类是专注于模型研究与开发的企业，例如OpenAI和DeepSeek等;第二类是投资于基础设施建设的公司，例如数据库企业;而阿里巴巴则定位为第三

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1，并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。据腾讯介绍，混元-T1在开发过程中高度依赖强化学习，高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。在多项基准测试中，混元-T1展现出强大的性能。在测试14个学科知识的MMLU-PRO评估中，该模型取得了87.2分，仅略低于OpenAI的o1模型。在科学推理方面，浑元-T1在GPQA-diamond测试中获得了69.3分。尤其值得一提的是，腾讯强调混元-T1在数学方面的卓越