Aquila-VL-2B-llava-qwen

Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.

Producto ComúnImagenModelo de lenguaje visualMultimodal
El modelo Aquila-VL-2B es un modelo de lenguaje visual (VLM) entrenado con el framework Llava-one-vision, utilizando el modelo Qwen2.5-1.5B-instruct como modelo de lenguaje (LLM) y siglip-so400m-patch14-384 como torre visual. Se entrenó en el conjunto de datos Infinity-MM de creación propia, que contiene aproximadamente 40 millones de pares imagen-texto. Este conjunto de datos combina datos de código abierto recopilados de internet y datos de instrucciones sintéticas generados utilizando modelos VLM de código abierto. La publicación de código abierto del modelo Aquila-VL-2B tiene como objetivo impulsar el desarrollo del rendimiento multimodal, especialmente en el procesamiento combinado de imágenes y texto.
Abrir sitio web

Aquila-VL-2B-llava-qwen Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Aquila-VL-2B-llava-qwen Tendencia de visitas

Aquila-VL-2B-llava-qwen Distribución geográfica de las visitas

Aquila-VL-2B-llava-qwen Fuentes de tráfico

Aquila-VL-2B-llava-qwen Alternativas