AI聊天机器人在社交判断测试中超越人类，或成社交互动顾问

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月4号 11:17

159

最近，发表在《Scientific Reports》上的一项研究显示，某些先进的 AI 聊天机器人在评估复杂社交情境方面的表现优于人类。

研究人员利用一种被广泛使用的心理学工具 —— 情境判断测试，发现三个聊天机器人 ——Claude、Microsoft Co pilot 和 you.com 的智能助手，在选择最有效的行为反应方面，超过了人类参与者的表现。

AI机器人写论文

图源备注:图片由AI生成，图片授权服务商Midjourney

随着社会交往日益重要，AI 在社交互动中的潜力不断显现，包括在客户服务和心理健康支持等领域的应用。大型语言模型（如本次研究中测试的聊天机器人）能够处理语言、理解上下文并提供有效的回应。尽管之前的研究已证明这些模型在学术推理和语言任务中的能力，但它们在复杂社交动态中的有效性仍未得到充分探索。

研究团队对276名人类参与者进行了测试，这些参与者是高素质的飞行员申请者。研究采用了情境判断测试，展示了12个需要评估的情境，每个情境提供四种潜在的行为选项。研究人员比较了五个 AI 聊天机器人的表现，发现所有测试的聊天机器人在表现上至少与人类持平，甚至有的表现更佳。Claude 的表现最佳，随后是 Microsoft Co pilot 和 you.com 的智能助手。

有趣的是，当聊天机器人没有选择最佳反应时，它们往往选择了第二有效的选项，显示出与人类决策模式的相似之处。这表明 AI 系统虽然不是完美的，但在社交判断和概率推理方面具备一定的能力。

此外，研究还发现不同 AI 系统之间的可靠性差异。Claude 在多次测试中表现出最高的一致性，而 Google Gemini 在不同测试中可能会出现矛盾的评分结果。尽管如此，所有 AI 系统的整体表现超出预期，展示了它们在提供社交能力建议方面的潜力。

研究人员指出，虽然许多人已经在日常任务中使用聊天机器人，但在社交互动的复杂场景中，它们的表现仍需进一步验证。研究显示，大型语言模型在模拟的社交情境中表现出色，但它们并不具备真实的情感，这对真正的社交行为是必需的。

划重点:
🌟 AI 聊天机器人在复杂社交判断中表现优于人类，具有潜力作为社交顾问。
🧠 研究比较了多个聊天机器人的表现，发现 Claude、Microsoft Co pilot 表现突出。
⚖️ 尽管 AI 系统在模拟情境中表现良好，但在真实社交互动中的应用仍需进一步研究。

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

中小团队提效AI助手HiveChat，支持Claude、Deepseek等多个 AI 模型

在如今这个信息高速发展的时代，团队沟通的效率显得尤为重要。HiveNexus 推出的 HiveChat 正是针对中小团队设计的一款 AI 聊天应用，旨在帮助团队提高协作效率，轻松应对日常沟通需求。该应用支持多种 AI 模型，如 Deepseek、OpenAI、Claude 和 Gemini，能为用户提供更加智能和个性化的聊天体验。HiveChat 支持的大模型服务商具体包括:Open AI、Claude、Gemini、DeepSeek、Moonshot（月之暗面）、火山方舟（豆包）、阿里百炼（千问）、百度千帆、Ollama、硅基流动。HiveChat 的功能十分丰富，管理员只需进行一

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

AI新闻资讯

​AI聊天机器人在社交判断测试中超越人类，或成社交互动顾问