CogAgent es un agente GUI basado en un modelo de lenguaje visual (VLM) que permite la interacción bilingüe (chino e inglés) a través de capturas de pantalla y lenguaje natural. CogAgent ha logrado avances significativos en la percepción de la GUI, la precisión de la predicción de inferencia, la integridad del espacio de operación y la generalización de tareas. Este modelo ya se ha aplicado en el producto GLM-PC de ZhipuAI, con el objetivo de ayudar a investigadores y desarrolladores a impulsar la investigación y la aplicación de agentes GUI basados en modelos de lenguaje visual.