Kunlun Wanwei, junto con el Instituto de Investigación de Inteligencia Artificial de Beijing Zhiyuan, la Universidad Tecnológica de Nanyang de Singapur y la Universidad de Pekín, entre otras instituciones, ha lanzado un marco de control informático universal llamado Cradle. Este marco de IA permite que los agentes de IA (AI Agent) controlen el teclado y el ratón como humanos, sin necesidad de entrenamiento especial, interactuando con cualquier software de código abierto o cerrado sin depender de ninguna API interna. Cradle es el primer marco de IA capaz de manejar simultáneamente varios juegos comerciales y operar diversas aplicaciones de software; su artículo, proyecto y código son de código abierto.
Cradle ha demostrado una capacidad excepcional en varios juegos, incluyendo la finalización de misiones principales de 40 minutos en Red Dead Redemption 2, la limpieza de la granja y las compras en Stardew Valley, la construcción de un pueblo de mil habitantes en Cities: Skylines, la negociación con clientes en Pawn Shop Life 2, y la capacidad de aplicación en software diario como Chrome, Outlook y Feishu. También puede realizar tareas de edición de imágenes y videos, convirtiéndose en un agente de IA multifuncional.
Cradle se compone de seis módulos: recopilación de información, autorreflexión, inferencia de tareas, gestión de habilidades, planificación de acciones y memoria. Mediante el encapsulamiento y la abstracción racionales de las entradas y salidas originales, se logra la interacción con el ordenador. Utiliza la imagen de vídeo de la pantalla como entrada, extrae información textual y visual para tomar decisiones y genera señales de control para el teclado y el ratón. El módulo de razonamiento de decisiones de Cradle puede interactuar espontáneamente con el software y completar tareas, operando mediante la reflexión sobre el pasado, el resumen del presente y la planificación del futuro.
Además, el rendimiento de Cradle en juegos y aplicaciones de software demuestra su versatilidad, capaz de completar tareas complejas en juegos de diferentes estilos y métodos de operación, y ejecutar diversas tareas en software común, como descargar artículos, enviar correos electrónicos, editar imágenes y videos. Cradle también ha superado el método de referencia que utiliza etiquetas de verdad en el desafiante benchmark OSWorld.
El lanzamiento de Cradle ofrece nuevas posibilidades para la construcción de agentes de control informático universal (GCC Agents), impulsa el desarrollo de interfaces de entrada y salida unificadas, sienta las bases para la interacción y la mejora personal de los agentes futuros en diferentes entornos y representa un paso importante hacia la inteligencia artificial general (AGI).
Página del proyecto:https://baai-agents.github.io/Cradle
Enlace del código:https://github.com/BAAI-Agents/Cradle