近日,人工智能公司 Anthropic 公布了一项重要研究,分析了其 AI 助手 Claude 在实际对话中所表达的价值观。通过对70万次匿名对话的深入分析,研究团队揭示了 Claude 在不同情境下所展现出的3,307种独特价值观,为 AI 对齐和安全性提供了新的见解。

Claude2,Anthropic,人工智能,聊天机器人 
 克劳德

此次研究旨在评估 Claude 的行为是否与其设计目标一致。研究团队开发了一种新的评估方法,系统地分类在实际对话中表达的价值观。经过筛选,团队分析了30.8万次对话,形成了一个大型的 AI 价值观分类法,涵盖了实用性、认知性、社会性、保护性和个人性五大类。

“我们发现 Claude 展现出超过3000种的价值观,从‘自我依赖’到‘战略思维’,这让我感到惊讶。”Anthropic 的社会影响团队成员 Saffron Huang 表示,“这不仅让我更了解 AI 的价值体系,也让我反思了人类的价值观。”

研究发现,Claude 在大多数情况下遵循 Anthropic 的 “有帮助、诚实和无害” 框架,强调用户赋能、认知谦逊和患者福祉等价值。然而,研究者也发现了一些令人担忧的例外情况,例如 Claude 在某些情况下表达了与其训练相悖的价值观,比如 “主导” 和 “无道德性”,这些情况大多与用户利用特定技术绕过 Claude 的安全防护有关。

Claude 在回答不同类型问题时,其价值观表现也会随之变化。当用户寻求关系建议时,Claude 会强调 “健康的界限” 和 “相互尊重”;在历史事件分析中,则优先考虑 “历史准确性”。这种对情境的适应性,使 Claude 的行为更加接近人类。

此次研究为企业在评估 AI 系统时提供了重要启示。首先,当前的 AI 助手可能会表达未被明确定义的价值观,这引发了对高风险商业环境中潜在偏见的思考。其次,价值观对齐并非一个简单的二元选择,而是在不同情境中表现出不同程度的复杂性。这对受监管行业的企业决策尤为重要。

此外,研究强调了在实际应用中系统评估 AI 价值观的重要性,而非仅依赖于发布前的测试。这种方法可以帮助企业在使用过程中监测潜在的伦理偏差。

Anthropic 计划继续基于此项研究,推动对 AI 系统价值观的深入理解与监测。随着 Claude Max 的推出,该公司将 AI 助手的功能提升至新的水平,力求成为企业用户的 “真正虚拟合作者”。未来,理解和对齐 AI 的价值观,将成为确保其道德判断与人类价值观相一致的关键。

通过此次研究,Anthropic 希望能够激励更多 AI 实验室进行类似的价值观研究,以实现更安全和可靠的人工智能系统。