Qwen2-VL-72B

最新的视觉语言模型,支持多语言和多模态理解

普通产品图像视觉理解视频问答
Qwen2-VL-72B是Qwen-VL模型的最新迭代,代表了近一年的创新成果。该模型在视觉理解基准测试中取得了最新的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。它能够理解超过20分钟的视频,并可以集成到手机、机器人等设备中,进行基于视觉环境和文本指令的自动操作。除了英语和中文,Qwen2-VL现在还支持图像中不同语言文本的理解,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。模型架构更新包括Naive Dynamic Resolution和Multimodal Rotary Position Embedding (M-ROPE),增强了其多模态处理能力。
打开网站

Qwen2-VL-72B 最新流量情况

月总访问量

20899836

跳出率

46.04%

平均页面访问数

5.2

平均访问时长

00:04:57

Qwen2-VL-72B 访问量趋势

Qwen2-VL-72B 访问地理位置分布

Qwen2-VL-72B 流量来源

Qwen2-VL-72B 替代品