昆仑万维与北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构联合发布了一款名为Cradle的通用计算机控制框架。这一AI框架使智能体(AI Agent)能够无需特别训练,直接像人一样控制键盘和鼠标,与任意开闭源软件进行交互,不依赖任何内部API。Cradle是首个能够同时玩转多种商业游戏和操作各类软件应用的AI框架,其论文、项目和代码均已开源。
Cradle展示了在多款游戏中的卓越能力,包括在《荒野大镖客2》中完成长达40分钟的主线任务,在《星露谷物语》中清理农场和购物,在《城市天际线》中建造千人小镇,在《当铺人生2》中与客户讨价还价,以及在Chrome、Outlook、飞书等日常软件中的应用能力。它还能进行修图、剪辑视频等操作,成为一个全能的AI Agent。
Cradle由信息收集、自我反思、任务推断、技能管理、行动规划和记忆模块六个部分组成,通过合理封装和抽象原始输入输出,实现与电脑的交互。它使用屏幕显示的视频图像作为输入,提取文本和视觉信息进行决策,并输出控制键盘和鼠标的信号。Cradle的决策推理模块能够自发与软件交互并完成任务,通过反思过去、总结现在和规划未来的方式进行操作。
此外,Cradle在游戏和软件应用上的表现证明了其通用性,能够在多种风格和操作方式不同的游戏中完成复杂任务,在常用软件中执行各项任务,如下载论文、发送邮件、修图、剪辑视频等。Cradle还在具有挑战性的benchmark OSWorld上击败了使用真值标签的基线方法。
Cradle的发布为构建通用计算机控制智能体(GCC Agents)提供了新的可能性,推动了统一输入输出接口的发展,为未来智能体在不同环境中的交互和自我提升奠定了基础,为实现通用人工智能(AGI)迈出了重要一步。
项目主页:https://baai-agents.github.io/Cradle
代码链接:https://github.com/BAAI-Agents/Cradle