8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-VL新增了视觉定位、图像中文字理解等能力。Qwen-VL已在GitHub获得3400多星,下载量超过40万。视觉语言模型被视为通用AI的重要演进方向。业界认为,支持多模态输入的模型能提升对世界的理解能力,拓展使用场景。阿里云通过Qwen-VL的开源,进一步推动通用AI技术的进步。
8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-VL新增了视觉定位、图像中文字理解等能力。Qwen-VL已在GitHub获得3400多星,下载量超过40万。视觉语言模型被视为通用AI的重要演进方向。业界认为,支持多模态输入的模型能提升对世界的理解能力,拓展使用场景。阿里云通过Qwen-VL的开源,进一步推动通用AI技术的进步。
在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。否定在许多应用中至关重要,例如区分 “没有窗户的房间” 和 “有窗户的房间”。尽管 VLMs 取得了显著进展,但在处理否定陈述时,现有模型的表现却大幅下降。这种限制尤其在安全监控和医疗保健等高风险领域中显得尤为重要。现有的 VLMs,如 CLIP,采用共
今天,阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸,性能表现均显著优于同类的开源过程奖励模型,尤其是在识别推理错误方面表现突出。Qwen2.5-Math-PRM 的7B 版本令人惊讶地超越了业界广受欢迎的 GPT-4o,这一成就标志着阿里云在推理模型的研发上迈出了重要的一步。为了全面评估模型在数学推理中的表现,通义团队还开源了首个步骤级的评估标准 ——ProcessBench。这个评估标准涵盖了3400个数学问题测试案例,其中还包括国际奥林匹
阿里云正式上线了其全新的通义灵码 AI 程序员 ,标志首个能够同时支持 VS Code 和 JetBrains IDEs 开发工具的 AI 编程产品的问世。这款 AI 程序员工具,拥有比传统辅助编程工具更强大的能力,帮助开发者以更高效的方式完成编码任务。通义灵码 AI 程序员通过全程对话协作的方式,能够轻松实现从零开始的业务需求开发、问题修复以及单元测试批量生成等复杂的编码任务。开发者可以与 AI 程序员进行互动,轻松指令并修改代码。该工具的底层模型已升级至 Qwen2.5-coder,其代码生成的准确性和速
近日,阿里云宣布与传音控股达成战略合作,旗下科技品牌 TECNO 将首款搭载通义千问大模型的 AI 手机 PHANTOM V Fold2正式上市。这款手机的亮点在于其独特的 AI 按键设计,用户可通过该按键一键召唤强大的 AI 助手,即使在离线环境下,仍能实现流畅的多轮对话,支持文档和通话的智能摘要功能。传音控股是一家在非洲市场颇具影响力的中国手机制造商,产品涵盖 TECNO、iTel 和 Infinix 三个主要品牌。根据数据显示,传音在2023年的全球智能手机市场占有率达8.1%,位列第五,在非洲、巴基斯坦、