Aquila-VL-2B-llava-qwen

Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.

Producto ComúnImagenModelo de lenguaje visualMultimodal

El modelo Aquila-VL-2B es un modelo de lenguaje visual (VLM) entrenado con el framework Llava-one-vision, utilizando el modelo Qwen2.5-1.5B-instruct como modelo de lenguaje (LLM) y siglip-so400m-patch14-384 como torre visual. Se entrenó en el conjunto de datos Infinity-MM de creación propia, que contiene aproximadamente 40 millones de pares imagen-texto. Este conjunto de datos combina datos de código abierto recopilados de internet y datos de instrucciones sintéticas generados utilizando modelos VLM de código abierto. La publicación de código abierto del modelo Aquila-VL-2B tiene como objetivo impulsar el desarrollo del rendimiento multimodal, especialmente en el procesamiento combinado de imágenes y texto.

Best AI Websites & Tools

Aquila-VL-2B-llava-qwen

Aquila-VL-2B-llava-qwen Situación del tráfico más reciente

Aquila-VL-2B-llava-qwen Tendencia de visitas

Aquila-VL-2B-llava-qwen Distribución geográfica de las visitas

Aquila-VL-2B-llava-qwen Fuentes de tráfico

Aquila-VL-2B-llava-qwen Alternativas

Aquila-VL-2B-llava-qwen — Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.

InternVL2_5-1B — Modelo de lenguaje grande multimodal, admite la comprensión de imágenes y texto

Qwen2-VL-7B — Qwen2-VL-7B es el último modelo de lenguaje visual, que admite la comprensión multimodal y la generación de texto.

Qwen2-VL-2B — Modelo de lenguaje visual líder en el sector, que admite la comprensión multimodal y la generación de texto.

PaliGemma 2 — PaliGemma 2 es un potente modelo de lenguaje visual, fácil de ajustar.

Molmo — Familia de modelos de IA multimodal de vanguardia

Phi-3.5-vision — Modelo multimodal avanzado que admite la comprensión de imágenes y texto.

Falcon 2 — Falcon 2 es un modelo multimodal y multilingüe de código abierto con capacidad de conversión de imagen a texto.

Gemini 1.5 Flash — Modelo de IA ligero y eficiente de Google, diseñado para tareas de alta frecuencia y gran escala.

PaliGemma — Modelo de lenguaje visual abierto de vanguardia de Google

Magma-8B — Magma-8B es un modelo de IA multimodal desarrollado por Microsoft que puede procesar entradas de imagen y texto y generar salidas de texto.

SmolVLM-256M-Instruct — SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

InternVL2.5-38B-MPO — Modelo de la serie InternVL2.5-MPO, basado en InternVL2.5 y optimización de preferencias mixtas, que demuestra un rendimiento excepcional.

InternVL2.5-8B-MPO — Modelo lingüístico grande multimodales que muestra un rendimiento general excelente.

Llama-3.1-70B-Instruct-AWQ-INT4 — Modelo de generación de texto con 70 mil millones de parámetros

InternVL2_5-4B-MPO-AWQ — Modelo de lenguaje grande multimodal, optimizado para la interacción entre imágenes y texto.

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

Llama-lynx-70b-4bitAWQ — Modelo de generación de texto de 7000 millones de parámetros

DeepSeek-VL2-Tiny — Modelo de lenguaje visual avanzado de gran tamaño y experto mixto

POINTS-Yi-1.5-9B-Chat — Los últimos avances en modelos de lenguaje visual, integrando la nueva tecnología de WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Los últimos avances en modelos de lenguaje visual

InternVL 2.5 — Serie de modelos lingüísticos grandes multimodales de código abierto

OLMo-2-1124-7B-RM — Modelo de lenguaje grande para generación y clasificación de texto

InternViT-6B-448px-V2_5 — Versión mejorada del modelo de visión basado en InternViT-6B-448px-V1-5

InternVL2_5-78B — Serie de modelos lingüísticos grandes multimodales avanzados

OpenGVLab InternVL — Un modelo de lenguaje visual de IA que proporciona servicios de análisis y descripción de imágenes.

Florence-VL — Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.

Amazon Nova — Amazon Nova es el modelo base de nueva generación de Amazon, que ofrece inteligencia de vanguardia y una relación calidad-precio líder en el sector.

OLMo-2-1124-7B-SFT — Modelo de generación de texto en inglés de alto rendimiento