Le modèle CogAgent-9B, basé sur le modèle GLM-PC de Zhipu AI, est désormais open source afin de promouvoir le développement de l'écosystème des agents de grands modèles. CogAgent-9B, entraîné sur GLM-4V-9B, est un modèle d'agent spécialisé dans les tâches. Il est capable de prédire l'opération GUI suivante en se basant uniquement sur une capture d'écran comme entrée, en combinant les instructions de l'utilisateur et l'historique des actions. Sa polyvalence permet son utilisation sur divers appareils à interface graphique utilisateur (GUI), tels que les ordinateurs personnels, les téléphones portables et les systèmes embarqués.

微信截图_20241227091131.png

Par rapport à la première version de CogAgent, open source en décembre 2023, CogAgent-9B-20241220 présente des améliorations significatives en termes de perception GUI, de précision des prédictions, d'exhaustivité de l'espace d'action, d'adaptabilité et de généralisation des tâches. Il prend en charge les captures d'écran et les interactions linguistiques en chinois et en anglais. L'entrée de CogAgent se limite aux instructions de l'utilisateur en langage naturel, à l'historique des actions exécutées et à la capture d'écran GUI, sans nécessiter d'informations de disposition textuelles ou d'étiquettes d'éléments supplémentaires. La sortie comprend le processus de réflexion, la description en langage naturel de l'action suivante, une description structurée de l'action suivante et une évaluation de la sensibilité de l'action suivante.

Lors des tests de performance, CogAgent-9B-20241220 a obtenu des résultats de pointe sur plusieurs ensembles de données, démontrant ses avantages en matière de localisation GUI, d'opérations pas à pas, de classements pas à pas en chinois et d'opérations multi-étapes. Cette initiative de Zhipu AI non seulement stimule le développement des grands modèles, mais offre également de nouveaux outils et possibilités aux professionnels de l'informatique malvoyants.

Code :

https://github.com/THUDM/CogAgent

Modèle :

Huggingface : https://huggingface.co/THUDM/cogagent-9b-20241220

Communauté Modèlescope : https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220