DeepSeek-VL2 es una serie de grandes modelos de lenguaje visual Mixture-of-Experts (MoE), con mejoras significativas respecto a su predecesor, DeepSeek-VL. Esta serie de modelos demuestra una capacidad excepcional en tareas como respuesta a preguntas visuales, reconocimiento óptico de caracteres (OCR), comprensión de documentos/tablas/gráficos y localización visual. DeepSeek-VL2 incluye tres variantes: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small y DeepSeek-VL2, con 1.0B, 2.8B y 4.5B parámetros de activación, respectivamente. DeepSeek-VL2 alcanza un rendimiento competitivo o de vanguardia en comparación con los modelos base de MoE y densos de código abierto existentes, con un número similar o menor de parámetros de activación.