CogAgent est un agent GUI basé sur un modèle linguistique visuel (VLM). Il permet une interaction bilingue (chinois et anglais) via des captures d'écran et du langage naturel. CogAgent a réalisé des progrès significatifs en termes de perception de l'interface graphique, de précision des prédictions d'inférence, d'exhaustivité de l'espace d'action et de généralisation des tâches. Ce modèle est déjà utilisé dans le produit GLM-PC de ZhipuAI, visant à aider les chercheurs et les développeurs à faire progresser la recherche et les applications des agents GUI basés sur des modèles linguistiques visuels.