Claude支持像人一样操控计算机功能在研究中显示出优势和局限性

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月21号 9:37

自从 Anthropic 于十月推出 Claude 的 “计算机使用” 功能后，AI 智能体的能力引起了广泛关注。这一功能使得 Claude 成为首个能够通过与人类相同的图形用户界面（GUI）进行交互的前沿模型。

Claude 通过访问桌面屏幕截图，并通过键盘和鼠标操作来完成任务，这为用户提供了一种无需 API 接口就能自动化操作的便利方式。

在一项由新加坡国立大学 Show Lab 进行的研究中，研究人员对 Claude 进行了多项任务的测试，包括网络搜索、工作流程完成、办公室生产力和视频游戏等。这些任务考察了 Claude 在不同场景下的能力，比如在网页上搜索并购买商品，或将信息从网站提取并插入到电子表格中。通过这些测试，研究人员从规划、行动和评估三个维度评估了 Claude 的表现。

在执行复杂任务方面，Claude 的表现令人印象深刻。它能够制定出清晰的计划，按步骤执行，并在每一步评估自己的进展。此外，它还能够在多个应用之间进行协调，例如将信息网页复制到电子表格中。在某些情况下，Claude 甚至能在任务结束时回顾结果，以确保所有内容与目标一致。

然而，Claude 也会出现一些简单的失误，这些错误是普通用户容易避免的。例如，在一个任务中，它未能完成订阅，因为没有向下滚动网页找到相应的按钮。

还有一些情况下，它在执行显而易见的任务时，比如选择和替换文本或将项目符号更改为数字，表现得十分笨拙。此外，Claude 有时并没有意识到自己的错误，或对未能达成目标的原因做出错误假设。

研究人员指出，Claude 在自我评估机制方面的不足可能是导致这些失误的原因，未来可能需要改进 GUI 代理框架，以便增加更严格的自我评估模块。研究结果还显示，现有的 GUI 代理并不能完全复刻人类使用计算机时的基本细微差别。

对于企业而言，使用简单文本描述自动化任务的潜力十分诱人，但目前这一技术尚未达到大规模应用的成熟度。模型的行为不稳定，可能导致在敏感应用中的不可预知后果。同时，通过人类设计的界面来执行操作，也并不是完成任务的最快方法。

在广泛部署之前，企业还需关注将大型语言模型（LLM）授权鼠标和键盘所带来的安全风险。例如，有研究显示，网络代理容易受到人类能够轻易忽视的对抗性攻击。尽管如此，像 Claude 这样的工具仍可以帮助产品团队探索创意，迭代解决方案，从而在开发新功能或服务之前节省时间和成本。

划重点:
1. 🤖 Claude 具备通过图形用户界面进行复杂任务自动化的能力，表现出色。
2. ⚠️ Claude 在执行简单任务时会出现失误，反映出其自我评估机制的不足。
3. 💼 现阶段，该技术尚不适合大规模应用，企业需谨慎对待潜在的安全风险

中小团队提效AI助手HiveChat，支持Claude、Deepseek等多个 AI 模型

在如今这个信息高速发展的时代，团队沟通的效率显得尤为重要。HiveNexus 推出的 HiveChat 正是针对中小团队设计的一款 AI 聊天应用，旨在帮助团队提高协作效率，轻松应对日常沟通需求。该应用支持多种 AI 模型，如 Deepseek、OpenAI、Claude 和 Gemini，能为用户提供更加智能和个性化的聊天体验。HiveChat 支持的大模型服务商具体包括:Open AI、Claude、Gemini、DeepSeek、Moonshot（月之暗面）、火山方舟（豆包）、阿里百炼（千问）、百度千帆、Ollama、硅基流动。HiveChat 的功能十分丰富，管理员只需进行一

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项

数据：闲鱼全线AI产品已覆盖 1020 万用户

近日，闲鱼平台发布了最新数据显示，其全线 AI 产品 —— 闲鱼 AI 智能体已经覆盖了1020万用户。作为这一产品的核心，AI 智能发布功能每天吸引超过20万人使用，并且经过多轮模型优化后，用户的采纳率高达85%。这一成绩展示了闲鱼在人工智能技术应用方面的巨大潜力。在不到半年的灰度测试阶段，闲鱼还推出了 AI 智能托管服务，已实现商品交易额接近2亿元。这一服务利用了闲鱼自有的数据，结合通用模型，提升了平台的商品理解和智能议价能力，使得交易过程更加顺畅。闲鱼的 AI 智能

Anthropic安全防护面临挑战，AI模型通用越狱测试揭示突破口

在短短六天内，参与者成功绕过了Anthropic人工智能（AI）模型Claude3.5的所有安全防护措施，这一突破为AI安全防护领域带来了新的讨论。前OpenAI对齐团队成员、现就职于Anthropic的Jan Leike在X平台宣布，一名参与者成功攻破了所有八个安全级别。这项集体努力涉及了约3，700小时的测试和来自参与者的300，000条消息。尽管挑战者成功突破，但Leike强调，目前还没有人能够提出一种通用的“越狱方法”来一次性解决所有安全挑战。这意味着尽管存在突破，依然无法找到一种万能的方式来绕过所有的