自从 Anthropic 于十月推出 Claude 的 “计算机使用” 功能后,AI 智能体的能力引起了广泛关注。这一功能使得 Claude 成为首个能够通过与人类相同的图形用户界面 (GUI) 进行交互的前沿模型。

Claude 通过访问桌面屏幕截图,并通过键盘和鼠标操作来完成任务,这为用户提供了一种无需 API 接口就能自动化操作的便利方式。

image.png

在一项由新加坡国立大学 Show Lab 进行的研究中,研究人员对 Claude 进行了多项任务的测试,包括网络搜索、工作流程完成、办公室生产力和视频游戏等。这些任务考察了 Claude 在不同场景下的能力,比如在网页上搜索并购买商品,或将信息从网站提取并插入到电子表格中。通过这些测试,研究人员从规划、行动和评估三个维度评估了 Claude 的表现。

在执行复杂任务方面,Claude 的表现令人印象深刻。它能够制定出清晰的计划,按步骤执行,并在每一步评估自己的进展。此外,它还能够在多个应用之间进行协调,例如将信息网页复制到电子表格中。在某些情况下,Claude 甚至能在任务结束时回顾结果,以确保所有内容与目标一致。

然而,Claude 也会出现一些简单的失误,这些错误是普通用户容易避免的。例如,在一个任务中,它未能完成订阅,因为没有向下滚动网页找到相应的按钮。

还有一些情况下,它在执行显而易见的任务时,比如选择和替换文本或将项目符号更改为数字,表现得十分笨拙。此外,Claude 有时并没有意识到自己的错误,或对未能达成目标的原因做出错误假设。

研究人员指出,Claude 在自我评估机制方面的不足可能是导致这些失误的原因,未来可能需要改进 GUI 代理框架,以便增加更严格的自我评估模块。研究结果还显示,现有的 GUI 代理并不能完全复刻人类使用计算机时的基本细微差别。

对于企业而言,使用简单文本描述自动化任务的潜力十分诱人,但目前这一技术尚未达到大规模应用的成熟度。模型的行为不稳定,可能导致在敏感应用中的不可预知后果。同时,通过人类设计的界面来执行操作,也并不是完成任务的最快方法。

在广泛部署之前,企业还需关注将大型语言模型 (LLM) 授权鼠标和键盘所带来的安全风险。例如,有研究显示,网络代理容易受到人类能够轻易忽视的对抗性攻击。尽管如此,像 Claude 这样的工具仍可以帮助产品团队探索创意,迭代解决方案,从而在开发新功能或服务之前节省时间和成本。

划重点:

1. 🤖 Claude 具备通过图形用户界面进行复杂任务自动化的能力,表现出色。

2. ⚠️ Claude 在执行简单任务时会出现失误,反映出其自我评估机制的不足。

3. 💼 现阶段,该技术尚不适合大规模应用,企业需谨慎对待潜在的安全风险