微软推Windows Agent Arena，测试AI助手在真实Windows环境中的性能

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年9月14号 15:53

228

最近，微软发布了一个名为 Windows Agent Arena（WAA）的新平台，专门用于测试人工智能助手在真实 Windows 操作系统环境中的表现。这个创新的基准测试工具旨在加速 AI 助手的发展，使其能够在各种应用中执行复杂的计算任务，提升人机互动的效率。

研究团队在 arXiv.org 上发布了一篇论文，指出大语言模型在作为计算机助手方面展现出巨大潜力，能在需要规划和推理的多模态任务中提升人类的工作效率和软件可访问性。然而，如何在真实环境中衡量 AI 助手的表现，依然是一个难题。

Windows Agent Arena 为 AI 助手提供了一个可重复测试的环境，让它们能够与常见的 Windows 应用、网页浏览器以及系统工具进行互动，模拟人类用户的真实体验。该平台包括150多个不同的任务，涵盖了文档编辑、网页浏览、编码和系统配置等多个方面。

WAA 的一个关键创新是它能够在微软的 Azure 云平台上并行测试多个虚拟机。这意味着，基准测试可以在短短20分钟内完成，而不是传统测试方式需要的几天时间。这种快速评估的能力将大大缩短 AI 助手的开发周期。

微软还展示了一款新的多模态 AI 助手 ——Navi。在测试中，Navi 在 WAA 任务中的成功率为19.5%，相比之下，未辅助的人类成功率达到了74.5%。这一结果显示了 AI 助手在操作电脑方面还有很大的提升空间。

此外，随着 AI 助手的不断成熟，涉及用户隐私和数据安全的伦理问题也随之而来。AI 助手将能够访问用户的数字生活，这就要求开发者在提升 AI 能力的同时，也要建立严格的安全措施和用户同意机制。透明度和问责制将是未来发展的重要议题。

微软决定将 Windows Agent Arena 开源，旨在促进这一领域的合作与研究。然而，这也意味着可能存在不良使用的风险，因此在技术快速发展的背景下，相关的监管和讨论显得尤为重要。

划重点:
🛠️ 微软推出 Windows Agent Arena，以测试 AI 助手在真实 Windows 环境中的性能。
⚙️ WAA 支持并行测试，大幅缩短 AI 助手开发周期，提升测试效率。
🔍 发展 AI 助手需要关注用户隐私与伦理问题，确保技术的安全使用。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

什么值得买智能体登陆豆包，全面布局AI消费服务

什么值得买近日宣布其智能体已正式入驻字节跳动旗下AI助手豆包的"品牌专区"。作为智能购物助手，该智能体将为用户提供口碑总结、商品对比、全网比价等多项服务，助力消费者提升决策效率。据值得买科技CTO王云峰介绍，公司正在推进AI技术的深度融合。目前已在具体业务场景中接入DeepSeek-R1模型，显著提升了AIGC创作能力。在合作伙伴方面，公司已与月之暗面、智谱华章、百川智能等多家通用大模型企业建立合作关系，同时也与腾讯混元、文心一言、荣耀手机、理想汽车等应用平台达

中小团队提效AI助手HiveChat，支持Claude、Deepseek等多个 AI 模型

在如今这个信息高速发展的时代，团队沟通的效率显得尤为重要。HiveNexus 推出的 HiveChat 正是针对中小团队设计的一款 AI 聊天应用，旨在帮助团队提高协作效率，轻松应对日常沟通需求。该应用支持多种 AI 模型，如 Deepseek、OpenAI、Claude 和 Gemini，能为用户提供更加智能和个性化的聊天体验。HiveChat 支持的大模型服务商具体包括:Open AI、Claude、Gemini、DeepSeek、Moonshot（月之暗面）、火山方舟（豆包）、阿里百炼（千问）、百度千帆、Ollama、硅基流动。HiveChat 的功能十分丰富，管理员只需进行一

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项

AI新闻资讯

​微软推Windows Agent Arena，测试AI助手在真实Windows环境中的性能