CogAgent : Un Modèle de Langue Visuel Open Source

智谱 AI vient de rendre open source CogAgent, un modèle de langage visuel comptant 18 milliards de paramètres. CogAgent excelle dans la compréhension et la navigation des interfaces graphiques (GUI), obtenant des performances générales de pointe (SOTA) sur plusieurs benchmarks. Le modèle prend en charge les entrées visuelles haute résolution et les questions-réponses conversationnelles, et peut répondre à des questions concernant n'importe quelle capture d'écran d'interface graphique.

De plus, CogAgent prend en charge les tâches liées à la reconnaissance optique de caractères (OCR). Grâce à la pré-formation et au réglage fin, ses capacités ont été considérablement améliorées. Les utilisateurs peuvent télécharger une capture d'écran pour effectuer un raisonnement sur une tâche et obtenir des informations sur la planification, l'action suivante et les coordonnées de l'opération spécifique.