El modelo Aquila-VL-2B es un modelo de lenguaje visual (VLM) entrenado con el framework Llava-one-vision, utilizando el modelo Qwen2.5-1.5B-instruct como modelo de lenguaje (LLM) y siglip-so400m-patch14-384 como torre visual. Se entrenó en el conjunto de datos Infinity-MM de creación propia, que contiene aproximadamente 40 millones de pares imagen-texto. Este conjunto de datos combina datos de código abierto recopilados de internet y datos de instrucciones sintéticas generados utilizando modelos VLM de código abierto. La publicación de código abierto del modelo Aquila-VL-2B tiene como objetivo impulsar el desarrollo del rendimiento multimodal, especialmente en el procesamiento combinado de imágenes y texto.