阿里巴巴达摩院的通义千问团队在2024年8月30日宣布了其最新成果——Qwen2-VL模型的重大更新。Qwen2-VL模型在图像理解、视频处理和多语言支持方面均实现了显著提升,为关键性能指标设定了新的基准。

Qwen2-VL模型的新功能包括增强的图像理解能力,能够更准确地理解和解释视觉信息;高级视频理解能力,使得模型能够实时分析动态视频内容;集成的可视化agent功能,将模型转变为能够进行复杂推理和决策的强大代理;以及扩展的多语言支持,使其在不同语言环境中更易于访问和有效。

微信截图_20240830075330.png

在技术架构上,Qwen2-VL实现了动态分辨率支持,能够处理任意分辨率的图像,无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。此外,Multimodal Rotary Position Embedding (M-ROPE) 的创新,使得模型能够同时捕获和集成1D文本、2D视觉和3D视频位置信息。

Qwen2-VL-7B模型在7B规模下成功保留了对图像、多图像和视频输入的支持,并在文档理解任务和图像多语言文本理解方面表现出色。

同时,团队还推出了针对移动部署优化的2B模型,尽管参数量只有2B,但在图像、视频和多语言理解方面表现突出。

模型链接:

Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct