CogVLM2 es un modelo de diálogo de preentrenamiento multimodal de segunda generación desarrollado por el equipo de la Universidad Tsinghua. Ha mostrado mejoras significativas en varias pruebas de referencia, admite una longitud de contenido de 8K y una resolución de imagen de 1344*1344. La serie de modelos CogVLM2 ofrece versiones de código abierto que admiten chino e inglés, alcanzando un rendimiento comparable a algunos modelos no de código abierto.