阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月25号 13:56

618

阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型，该模型基于Qwen2-VL-72B构建，融合了强大的语言和视觉能力，能够处理更为复杂的推理和分析任务，标志着阿里巴巴在多模态AI领域取得了新的突破。

QVQ-72B在视觉推理、数学和科学问题上表现出了显著的提升，尤其是在多步推理任务中。这意味着该模型不仅能够理解文字信息，还能理解图像信息，并通过多步推理来解决复杂问题，这是传统AI模型难以企及的。

该模型的一大亮点是其在物理问题中结合文字和视觉信息推导因果关系的能力。例如，它可以根据物理场景的图片和相关的文字描述，推理出事件发生的因果关系，展现出更深层次的理解能力。

在数学推理任务（如代数、微积分）中，QVQ-72B通过分步推理显著减少了错误率。这表明该模型不仅能够进行简单的计算，还能进行复杂的数学推理，并提供清晰的解题步骤，为解决复杂的数学问题提供了新的工具。

此外，QVQ-72B在技术报告、复杂图表分析中提取关键信息的准确率和效率也较高。它能够快速准确地从复杂的文档和图表中提取出关键信息，为科研人员、分析师等专业人士提供了强大的辅助工具。

在图像识别方面，QVQ-72B能够精准识别图片中的细节，例如物体位置、颜色、空间关系，以及复杂情景。这意味着该模型可以应用于更广泛的场景，如智能监控、自动驾驶等。

总而言之，阿里巴巴推出的QVQ-72B多模态推理模型，凭借其强大的视觉、语言和推理能力，为解决复杂问题提供了新的思路和工具。它的出现，无疑将推动人工智能在各个领域的应用，为各行各业的智能化升级注入新的动力。

在线试玩:https://huggingface.co/spaces/Qwen/QVQ-72B-preview

详细介绍:https://qwenlm.github.io/blog/qvq-72b-preview/

Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本

人工智能初创公司 Cohere 的非营利研究实验室本周发布了一款多模态 “开放” AI 模型 ——Aya Vision。该实验室声称，该模型在行业内处于领先地位。Aya Vision 能够执行多项任务，包括撰写图片说明、回答与照片相关的问题、翻译文本以及生成23种主要语言的摘要。Cohere 表示，他们通过 WhatsApp 免费提供 Aya Vision，希望能让世界各地的研究人员更方便地获取技术突破。Cohere 在其博客中指出，尽管人工智能已经取得了显著进展，但在不同语言之间的模型表现仍存在很大差距，尤其是在涉及文本和

无需高攀云端！阿里开源全新的推理模型通义千问QwQ-32B，消费级显卡也能跑出S级性能！

AI圈再掀巨浪!阿里巴巴震撼发布并全面开源了其最新力作——通义千问QwQ-32B推理模型。这款被寄予厚望的新模型，并非徒有虚名，而是经过大规模强化学习的千锤百炼，在硬核的数学运算、复杂的代码编写以及通用的AI能力上实现了质的飞跃，整体性能已经能够正面硬刚行业标杆DeepSeek-R1，实力不容小觑。更令人兴奋的是，通义千问QwQ-32B一举打破了高性能AI模型“高价难用”的魔咒。它如同AI界的“平民英雄”，大幅降低了部署和使用门槛，即使是普通玩家的消费级显卡，也能轻松驾驭，实

微软开源多模态AI Agent “Magma”：为购物和机器人操作带来新体验

微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”，并进行了开源。这一新兴技术相较于传统的智能助手，展现出了更为强大的多模态能力，能够处理图像、视频、文本等多种数据形式，打破了数字与物理世界之间的壁垒。Magma 不仅可以帮助用户在电商平台上自动下单，查询天气等日常事务，还能与实体机器人协作，执行更复杂的操作。比如，在下真实象棋时，Magma 能够为用户提供实时的策略建议，大大增强了游戏体验。同时，它具备心理预测功能，能够推测视频中的人物或物体