DeepSeek-VL2は、大規模なMixture-of-Experts (MoE) 方式の視覚言語モデルシリーズであり、前世代のDeepSeek-VLから大幅な性能向上を実現しています。このモデルシリーズは、視覚的な質問応答、光学文字認識 (OCR)、文書・表・グラフの理解、および視覚的局所化などのタスクにおいて卓越した能力を示します。DeepSeek-VL2には、活性化パラメータ数がそれぞれ10億、28億、45億の3つのバリエーションがあります: DeepSeek-VL2-Tiny、DeepSeek-VL2-Small、およびDeepSeek-VL2。活性化パラメータ数が同等またはそれ以下である既存のオープンソースの密集型およびMoEベースのモデルと比較して、DeepSeek-VL2は競争力のある、あるいは最先端の性能を達成しています。