A Kunlun Wanwei, em colaboração com o Instituto de Pesquisa de Inteligência Artificial de Pequim (BAAI), a Universidade Tecnológica de Nanyang de Cingapura e a Universidade de Pequim, lançou uma estrutura de controle de computador universal chamada Cradle. Esta estrutura de IA permite que agentes de IA (AI Agents) controlem teclados e mouses como humanos, sem treinamento específico, interagindo com qualquer software de código aberto ou fechado, sem depender de nenhuma API interna. O Cradle é a primeira estrutura de IA capaz de operar simultaneamente vários jogos comerciais e aplicativos de software, com sua pesquisa, projeto e código disponíveis publicamente.
O Cradle demonstrou capacidades excepcionais em vários jogos, incluindo a conclusão de missões principais de 40 minutos em Red Dead Redemption 2, limpeza de fazendas e compras em Stardew Valley, construção de cidades com milhares de habitantes em Cities: Skylines, negociação com clientes em Pawn Shop Life 2 e uso de softwares cotidianos como Chrome, Outlook e Feishu. Ele também pode realizar tarefas como edição de fotos e vídeos, tornando-se um agente de IA versátil.
O Cradle consiste em seis módulos: coleta de informações, autorreflexão, inferência de tarefas, gerenciamento de habilidades, planejamento de ações e memória. Através do encapsulamento e abstração racionais de entradas e saídas originais, ele realiza a interação com o computador. Ele usa imagens de vídeo da tela como entrada, extrai informações de texto e visuais para tomada de decisões e emite sinais para controlar o teclado e o mouse. O módulo de raciocínio de tomada de decisões do Cradle pode interagir espontaneamente com o software e concluir tarefas, operando através da reflexão sobre o passado, resumo do presente e planejamento do futuro.
Além disso, o desempenho do Cradle em jogos e aplicativos de software demonstra sua versatilidade, capaz de concluir tarefas complexas em jogos com estilos e métodos de operação diferentes e executar várias tarefas em softwares comuns, como baixar artigos científicos, enviar e-mails, editar fotos e vídeos. O Cradle também superou o método de referência que usa rótulos de verdade no benchmark desafiador OSWorld.
O lançamento do Cradle oferece novas possibilidades para a construção de agentes de IA de controle de computador universal (GCC Agents), impulsionando o desenvolvimento de interfaces de entrada e saída unificadas e lançando as bases para a interação e autoaperfeiçoamento futuro de agentes de IA em diferentes ambientes, representando um passo importante para a realização da inteligência artificial geral (AGI).
Página do projeto:https://baai-agents.github.io/Cradle
Link do código:https://github.com/BAAI-Agents/Cradle