Aquila-VL-2B-llava-qwen

视觉语言模型,结合图像和文本信息进行智能处理。

普通产品图像视觉语言模型多模态
Aquila-VL-2B模型是一个基于LLava-one-vision框架训练的视觉语言模型(VLM),选用Qwen2.5-1.5B-instruct模型作为语言模型(LLM),并使用siglip-so400m-patch14-384作为视觉塔。该模型在自建的Infinity-MM数据集上进行训练,包含约4000万图像-文本对。该数据集结合了从互联网收集的开源数据和使用开源VLM模型生成的合成指令数据。Aquila-VL-2B模型的开源,旨在推动多模态性能的发展,特别是在图像和文本的结合处理方面。
打开网站

Aquila-VL-2B-llava-qwen 最新流量情况

月总访问量

19075321

跳出率

45.07%

平均页面访问数

5.5

平均访问时长

00:05:32

Aquila-VL-2B-llava-qwen 访问量趋势

Aquila-VL-2B-llava-qwen 访问地理位置分布

Aquila-VL-2B-llava-qwen 流量来源

Aquila-VL-2B-llava-qwen 替代品