DeepSeek-VL2 ist eine Reihe fortschrittlicher, großer visueller Sprachmodelle mit Mixture-of-Experts (MoE)-Architektur, die im Vergleich zu DeepSeek-VL erhebliche Verbesserungen aufweisen. Die Modellreihe zeigt herausragende Leistung in verschiedenen Aufgaben wie visuelle Fragebeantwortung, optische Zeichenerkennung, Dokument-/Tabellen-/Diagrammverständnis und visuelle Lokalisierung. DeepSeek-VL2 besteht aus drei Varianten: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small und DeepSeek-VL2, mit jeweils 1 Milliarde, 2,8 Milliarden und 4,5 Milliarden Aktivierungsparametern. DeepSeek-VL2 erreicht bei vergleichbarer oder geringerer Anzahl an Aktivierungsparametern eine wettbewerbsfähige oder sogar state-of-the-art Leistung im Vergleich zu bestehenden Open-Source-Modellen mit dichter Architektur und MoE-basierten Modellen.