Le 23 janvier 2025, GLM-PC, le premier agent informatique intelligent au monde accessible au public et prêt à l'emploi, a fait l'objet d'une nouvelle mise à jour, suscitant un vif intérêt. Basé sur le grand modèle multi-modal CogAgent de Zhipu AI, GLM-PC peut « observer » et « manipuler » un ordinateur comme un humain, aidant les utilisateurs à accomplir efficacement diverses tâches informatiques.
Depuis le lancement de GLM-PC v1.0 et l'ouverture de sa phase de test le 29 novembre 2024, cet agent intelligent a subi des optimisations et mises à jour continues. Le mode « Réflexion approfondie » récemment introduit a ajouté des fonctionnalités de raisonnement logique et de génération de code, permettant à GLM-PC de gérer plus facilement les tâches complexes. De plus, GLM-PC est désormais compatible avec le système Windows, élargissant ainsi son champ d'application.
La conception architecturale de GLM-PC tient pleinement compte de l'amélioration des capacités du modèle Agent et de l'optimisation de l'architecture de collaboration. Un Agent complet doit pouvoir, au niveau perceptif, recevoir des signaux multiformes tels que du texte, des images, des vidéos et de l'audio ; au niveau cognitif, il doit posséder des capacités de raisonnement logique, de planification des tâches et de perception et de manipulation efficaces et flexibles ; au niveau exécutif, il doit pouvoir effectuer des opérations complètes dans l'espace GUI, recevoir des retours d'environnement et s'autocorriger. GLM-PC s'inspire de la division du travail entre « hémisphère gauche » et « hémisphère droit » du cerveau humain. Grâce à la génération de code et à la compréhension des interfaces graphiques, il réalise une combinaison profonde entre le raisonnement logique et la perception cognitive, lui conférant un équilibre entre logique et créativité.
En pratique, GLM-PC a démontré de puissantes fonctionnalités. Son « hémisphère gauche » est responsable du raisonnement logique rigoureux et de l'exécution des tâches. Il est capable d'élaborer rapidement des plans de tâches détaillés et, grâce à un mécanisme d'exécution cyclique, d'assurer l'exécution précise et l'automatisation élevée des tâches. Par exemple, GLM-PC peut extraire automatiquement les données des produits à partir d'images, les stocker dans un fichier Excel et ajouter automatiquement les produits au panier d'achat Taobao, réalisant ainsi un processus d'achat complet. Son « hémisphère droit » se concentre sur la perception approfondie et l'expérience interactive. Il est capable d'identifier précisément les éléments de l'interface graphique, de comprendre les comportements des utilisateurs, d'effectuer une analyse sémantique approfondie des images complexes et de fusionner les informations images et texte pour former un résultat de perception complet. Cela permet à GLM-PC d'exceller dans l'organisation des données et l'extraction d'informations.
Il est important de noter que GLM-PC a également démontré la puissance de la collaboration entre les hémisphères gauche et droit. Tout en gérant des tâches logiques complexes, GLM-PC peut également faire preuve d'une plus grande adaptabilité, créativité et capacité de généralisation face à des problèmes ouverts. Grâce à l'optimisation dynamique et à la perception contextuelle, GLM-PC peut aider les utilisateurs à explorer des solutions plus efficaces, notamment dans le traitement des tâches cycliques, l'exécution du raisonnement en plusieurs étapes et la gestion des tâches à longue chaîne.
En outre, Zhipu AI encourage activement la collaboration entre GLM-PC et les fabricants de PC renommés afin de promouvoir l'innovation et le développement des AIPC (ordinateurs personnels IA). Un AIPC n'est pas seulement un ordinateur, mais aussi une nouvelle application des agents IA dans le domaine du calcul personnel, capable d'offrir aux utilisateurs une expérience de travail et de vie plus efficace et plus intelligente.
Téléchargement & Expérience : https://cogagent.aminer.cn