CogVLM2 est un modèle de dialogue pré-entraîné multi-modal de deuxième génération développé par l'équipe de l'Université Tsinghua. Il a montré des améliorations significatives dans plusieurs tests de référence, prenant en charge une longueur de contenu de 8K et une résolution d'image de 1344*1344. Les modèles de la série CogVLM2 offrent des versions open source en chinois et en anglais, atteignant des performances comparables à certains modèles non open source.