L'équipe technique de Zhipu a récemment lancé un nouveau produit basé sur les résultats de recherche de l'équipe technique GLM : AutoGLM. Il s'agit d'un agent intelligent capable de simuler l'utilisation d'un téléphone portable par un humain et d'exécuter diverses tâches. Le lancement d'AutoGLM marque une avancée de l'intelligence artificielle dans le domaine de « l'utilisation du téléphone », rapprochant ainsi les applications de l'IA de la vie quotidienne.
AutoGLM peut exécuter de nombreuses tâches, telles que liker et commenter des publications sur WeChat, acheter des produits précédemment commandés sur Taobao, réserver des hôtels sur Ctrip, acheter des billets de train sur 12306, commander des plats à emporter sur Meituan, etc. Ses applications ne se limitent pas à cela ; théoriquement, AutoGLM peut accomplir tout ce qu'un humain peut faire sur un appareil électronique visuel, avec une logique d'opération similaire à celle d'un humain, sans nécessiter de workflow complexe.
Actuellement, les utilisateurs peuvent tester AutoGLM-Web en installant le plugin « Zhipu Qingyan ». Il s'agit d'un assistant de navigateur capable de simuler la navigation et les clics des utilisateurs sur des pages web, et d'effectuer automatiquement des recherches avancées, des résumés et la génération de contenu sur les sites web. De plus, AutoGLM est également disponible en version bêta sur Android et a établi des collaborations approfondies avec des fabricants de téléphones tels que Honor.
La technologie d'AutoGLM est basée sur l'« interface intermédiaire de découplage d'agent intelligent de base » et le « cadre d'apprentissage par renforcement de cours en ligne auto-évolutif » développés par Zhipu. Elle résout les problèmes d'antagonisme des capacités, de rareté des tâches et des données d'entraînement, de faiblesse des signaux de rétroaction et de dérive de la distribution des stratégies dans la planification des tâches et l'exécution des actions des agents intelligents de grands modèles. AutoGLM peut s'améliorer continuellement et améliorer ses performances de manière stable, de manière similaire à la façon dont une personne acquiert de nouvelles compétences tout au long de sa vie.
En termes de défis techniques, AutoGLM a résolu le manque de précision de « l'exécution des actions » et le manque de flexibilité de « la planification des tâches ». Grâce à la conception de l'« interface intermédiaire de découplage d'agent intelligent de base », les deux phases « planification des tâches » et « exécution des actions » sont découplées via une interface intermédiaire en langage naturel, ce qui permet une amélioration significative des capacités de l'agent intelligent. Simultanément, AutoGLM utilise le « cadre d'apprentissage par renforcement de cours en ligne auto-évolutif » pour apprendre et améliorer les capacités des agents intelligents de grands modèles dans les environnements Web et Phone en temps réel.
AutoGLM a obtenu des améliorations de performances significatives sur l'utilisation des téléphones et des navigateurs web, et a surpassé les performances de GPT-4o et de Claude-3.5-Sonnet sur le référentiel de tests AndroidLab. Sur le référentiel de tests WebArena-Lite, AutoGLM a obtenu une amélioration des performances d'environ 200 % par rapport à GPT-4o, réduisant ainsi l'écart de taux de réussite entre les humains et les agents intelligents de grands modèles dans le contrôle de l'interface graphique.
Adresse du projet : https://xiao9905.github.io/AutoGLM