Aquila-VL-2B-llava-qwen
Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.
Producto ComúnImagenModelo de lenguaje visualMultimodal
El modelo Aquila-VL-2B es un modelo de lenguaje visual (VLM) entrenado con el framework Llava-one-vision, utilizando el modelo Qwen2.5-1.5B-instruct como modelo de lenguaje (LLM) y siglip-so400m-patch14-384 como torre visual. Se entrenó en el conjunto de datos Infinity-MM de creación propia, que contiene aproximadamente 40 millones de pares imagen-texto. Este conjunto de datos combina datos de código abierto recopilados de internet y datos de instrucciones sintéticas generados utilizando modelos VLM de código abierto. La publicación de código abierto del modelo Aquila-VL-2B tiene como objetivo impulsar el desarrollo del rendimiento multimodal, especialmente en el procesamiento combinado de imágenes y texto.
Aquila-VL-2B-llava-qwen Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44