8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-VL新增了视觉定位、图像中文字理解等能力。Qwen-VL已在GitHub获得3400多星,下载量超过40万。视觉语言模型被视为通用AI的重要演进方向。业界认为,支持多模态输入的模型能提升对世界的理解能力,拓展使用场景。阿里云通过Qwen-VL的开源,进一步推动通用AI技术的进步。
8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-VL新增了视觉定位、图像中文字理解等能力。Qwen-VL已在GitHub获得3400多星,下载量超过40万。视觉语言模型被视为通用AI的重要演进方向。业界认为,支持多模态输入的模型能提升对世界的理解能力,拓展使用场景。阿里云通过Qwen-VL的开源,进一步推动通用AI技术的进步。
阿里云百炼大模型服务平台最近推出了“音视频实时互动”功能,使用户能够轻松搭建多模态AI应用,无需编程知识。这一新功能使得用户可以快速将AI模型集成到Web、iOS和Android应用中,并与他人分享。用户可以通过简单的步骤来搭建智能体应用:首先新建智能体应用,然后在阿里云百炼平台上选择并配置所需的文本、语音或视觉理解大模型。平台提供了200多种大模型,包括具备强大视觉智能体能力的阿里云Qwen2-VL大模型。接下来,用户需要编写提示词,设置音视频API-KEY,并发布自己的专属AI应用。
近日,《智能涌现》消息,阿里巴巴旗下的人工智能(AI)应用“通义”已正式从阿里云分拆,并入阿里智能信息事业群。这一调整被视为阿里内部优化AI To C(面向消费者)应用布局的重要一步。据知情人士透露,此次调整涉及“通义”To C方向的产品经理和相关工程团队,这些团队将整体转移至阿里智能信息事业群。调整后,“通义”在PC端及App端的团队与阿里旗下智能搜索产品“夸克”平级,而“通义实验室”则仍然保留在阿里云体系内。这一举措反映了阿里在AI应用层面的战略梳理。此前
随着人工智能的快速发展,视觉与语言能力的整合引发了视觉语言模型(VLMs)的突破性进展。这些模型旨在同时处理和理解视觉与文本数据,广泛应用于图像描述、视觉问答、光学字符识别以及多模态内容分析等场景。VLMs 在开发自主系统、增强人机交互以及高效文档处理工具方面发挥了重要作用,成功地弥合了这两种数据模态之间的差距。然而,在高分辨率视觉数据和多样化文本输入的处理上,仍然存在许多挑战。目前的研究已经部分解决了这些限制,但大多数模型采用的静态视觉编码
近日,NVIDIA 推出了新一代开放视觉语言模型 ——NVILA。该旨在优化准确性和效率,凭借出色的性能,成为视觉 AI 领域的佼者。根据 NVIDIA 的介绍,NVILA 在训练成本上降低了4.5倍微调所需内存减少了3.4倍,并且在预填充和解码的延迟上几乎降低了2倍。这些数据是与另一种大型视觉模型 LLaVa OneVision 进行比较得出的。在视频基准测试中,NVILA 的表现超过了 GPT4o Mini,并且在与 GPT4o、Sonnet3.5和 Gemini1.5Pro 的比较中也表现出色。此外,NVILA 还在与 Llama3.2的对比中取得了微弱胜利。尽管如此,NVIDIA 表