Kunlun Wanwei, en collaboration avec l'Institut de recherche sur l'intelligence artificielle de Beijing Zhiyuan, l'Université technologique de Nanyang à Singapour, l'Université de Pékin et d'autres institutions, a publié un framework de contrôle informatique universel nommé Cradle. Ce framework IA permet aux agents intelligents (AI Agent) de contrôler le clavier et la souris comme un humain, sans formation spécifique, et d'interagir avec n'importe quel logiciel open source ou propriétaire, sans dépendre d'API internes. Cradle est le premier framework IA capable de gérer simultanément plusieurs jeux commerciaux et applications logicielles ; son article de recherche, son projet et son code sont open source.
Cradle a démontré d'excellentes capacités dans plusieurs jeux, notamment en accomplissant une mission principale de 40 minutes dans Red Dead Redemption 2, en nettoyant une ferme et en faisant des achats dans Stardew Valley, en construisant une ville de mille habitants dans Cities: Skylines, en négociant avec des clients dans Pawn Shop Life 2, et en utilisant des logiciels courants comme Chrome, Outlook et Feishu. Il peut également retoucher des photos, monter des vidéos, devenant ainsi un agent IA polyvalent.
Cradle se compose de six modules : collecte d'informations, autoréflexion, inférence de tâches, gestion des compétences, planification des actions et mémoire. Grâce à une encapsulation et une abstraction raisonnables des entrées/sorties brutes, il assure l'interaction avec l'ordinateur. Il utilise les images vidéo affichées à l'écran comme entrée, extrait les informations textuelles et visuelles pour prendre des décisions, et génère des signaux pour contrôler le clavier et la souris. Le module de raisonnement décisionnel de Cradle peut interagir spontanément avec les logiciels et accomplir des tâches en réfléchissant au passé, en résumant le présent et en planifiant l'avenir.
De plus, les performances de Cradle dans les jeux et les applications logicielles démontrent sa polyvalence. Il est capable d'accomplir des tâches complexes dans des jeux de styles et de mécaniques variés, et d'exécuter diverses tâches dans les logiciels courants, comme télécharger des articles de recherche, envoyer des e-mails, retoucher des photos et monter des vidéos. Cradle a également surpassé les méthodes de référence utilisant des étiquettes de vérité dans le benchmark OSWorld, un défi de taille.
La publication de Cradle ouvre de nouvelles possibilités pour la construction d'agents intelligents de contrôle informatique universel (GCC Agents). Elle favorise le développement d'interfaces d'entrée/sortie unifiées et jette les bases de l'interaction et de l'amélioration autonome des agents intelligents dans différents environnements, marquant une étape importante vers l'intelligence artificielle générale (AGI).
Page du projet : https://baai-agents.github.io/Cradle
Lien du code : https://github.com/BAAI-Agents/Cradle