CogVLM2 ist ein von einem Team der Tsinghua-Universität entwickeltes zweitgeneratives multimodal prätrainiertes Dialogmodell. Es erzielt in mehreren Benchmark-Tests deutliche Verbesserungen und unterstützt eine Inhaltslänge von 8K sowie eine Bildauflösung von 1344*1344. Die CogVLM2-Modellreihe bietet Open-Source-Versionen mit Unterstützung für Chinesisch und Englisch und erreicht eine mit einigen nicht Open-Source-Modellen vergleichbare Leistung.