DeepSeek-VL2 es una serie de modelos de lenguaje visual avanzados de gran tamaño y expertos mixtos (MoE) que presentan mejoras significativas con respecto a la generación anterior, DeepSeek-VL. Esta serie de modelos demuestra una capacidad excepcional en diversas tareas, incluyendo preguntas y respuestas visuales, reconocimiento óptico de caracteres (OCR), comprensión de documentos/tablas/gráficos y localización visual. DeepSeek-VL2 consta de tres variantes: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small y DeepSeek-VL2, con 1.000 millones, 2.800 millones y 4.500 millones de parámetros activados, respectivamente. DeepSeek-VL2 alcanza un rendimiento competitivo o de vanguardia en comparación con los modelos existentes de código abierto, tanto densos como basados en MoE, con un número similar o menor de parámetros activados.