8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-VL新增了视觉定位、图像中文字理解等能力。Qwen-VL已在GitHub获得3400多星,下载量超过40万。视觉语言模型被视为通用AI的重要演进方向。业界认为,支持多模态输入的模型能提升对世界的理解能力,拓展使用场景。阿里云通过Qwen-VL的开源,进一步推动通用AI技术的进步。