DeepSeek-VL2

Modelo de comprensión multimodal avanzado que integra capacidades visuales y lingüísticas.

Producto ComúnImagenModelo de lenguaje visualComprensión multimodal

DeepSeek-VL2 es una serie de grandes modelos de lenguaje visual Mixture-of-Experts (MoE), con mejoras significativas respecto a su predecesor, DeepSeek-VL. Esta serie de modelos demuestra una capacidad excepcional en tareas como respuesta a preguntas visuales, reconocimiento óptico de caracteres (OCR), comprensión de documentos/tablas/gráficos y localización visual. DeepSeek-VL2 incluye tres variantes: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small y DeepSeek-VL2, con 1.0B, 2.8B y 4.5B parámetros de activación, respectivamente. DeepSeek-VL2 alcanza un rendimiento competitivo o de vanguardia en comparación con los modelos base de MoE y densos de código abierto existentes, con un número similar o menor de parámetros de activación.

Best AI Websites & Tools

DeepSeek-VL2

DeepSeek-VL2 Situación del tráfico más reciente

DeepSeek-VL2 Tendencia de visitas

DeepSeek-VL2 Distribución geográfica de las visitas

DeepSeek-VL2 Fuentes de tráfico

DeepSeek-VL2 Alternativas

DeepSeek-VL2 — Modelo de comprensión multimodal avanzado que integra capacidades visuales y lingüísticas.

DeepSeek-VL2-Tiny — Modelo de lenguaje visual avanzado de gran tamaño y experto mixto

InternLM-XComposer2 — Modelo de lenguaje visual de gran formato para la síntesis e interpretación de imágenes a partir de texto de forma libre.

Aya Vision 8B — Modelo de lenguaje visual multilingüe de 800 millones de parámetros, compatible con OCR, descripción de imágenes, razonamiento visual, etc.

VLM-R1 — VLM-R1 es un modelo de lenguaje visual reforzado estable y versátil, enfocado en tareas de comprensión visual.

Ollama OCR para web — Un potente paquete OCR que utiliza modelos de lenguaje visual de vanguardia para extraer texto de imágenes.

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

PaliGemma2-3b-pt-224 — PaliGemma 2 es un potente modelo de lenguaje visual que admite tareas de procesamiento de imágenes y texto en varios idiomas.

PaliGemma2-3b-pt-448 — PaliGemma 2 es un potente modelo de lenguaje visual que admite diversas tareas de lenguaje visual.

cogagent-9b-20241220 — CogAgent-9B-20241220 es un modelo de agente GUI basado en un modelo de lenguaje visual.

CogAgent — Agente GUI basado en el modelo de lenguaje visual de extremo a extremo (VLM) de código abierto

Megrez-3B-Omni — Modelo de comprensión multimodal de extremo a extremo de código abierto

POINTS-Yi-1.5-9B-Chat — Los últimos avances en modelos de lenguaje visual, integrando la nueva tecnología de WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Los últimos avances en modelos de lenguaje visual

POINTS-1-5-Qwen-2-5-7B-Chat — Modelo de lenguaje visual líder, admite bilingüismo y control de alta calidad, gratuito.

OpenGVLab InternVL — Un modelo de lenguaje visual de IA que proporciona servicios de análisis y descripción de imágenes.

Florence-VL — Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.

Qwen2-VL-7B — Qwen2-VL-7B es el último modelo de lenguaje visual, que admite la comprensión multimodal y la generación de texto.

Qwen2-VL-2B — Modelo de lenguaje visual líder en el sector, que admite la comprensión multimodal y la generación de texto.

PaliGemma 2 — PaliGemma 2 es un potente modelo de lenguaje visual, fácil de ajustar.

SmolVLM — Modelo de lenguaje visual eficiente y de código abierto

LLaVA-o1 — Modelo de lenguaje visual capaz de realizar razonamiento paso a paso.

Aquila-VL-2B-llava-qwen — Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.

ROCKET-1 — Modelo de indicaciones visuales-temporales contextuales que domina la interacción en mundos abiertos.

OmniParser — Analizador de interfaces de usuario basado en una interfaz gráfica de usuario puramente visual.

VisRAG — Modelo de generación aumentado por recuperación basado en un modelo de lenguaje visual (VLM)

Helpful DoggyBot — Sistema operativo de movilidad interior para robots cuadrúpedos

Qwen2-VL — Modelo de lenguaje visual de nueva generación, que ve el mundo con mayor claridad.

InternLM-XComposer-2.5 — Un modelo de lenguaje visual grande y multifuncional

PixelProse — Conjunto de datos de descripción de imágenes a gran escala, que proporciona más de 16 millones de descripciones de imágenes sintéticas.