AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-12-19 09:44:47.AIbase

AI 假装服从?Anthropic 揭开强大模型潜在“伪装”行为

近日，Anthropic 的一项研究引发关注，研究表明强大的人工智能（AI）模型可能会表现出“伪对齐”行为，即在训练中假装符合新的原则，而实际仍坚持其原有的偏好。这项研究由 Anthropic 与 Redwood Research 合作完成，强调了未来更强大 AI 系统的潜在威胁。研究发现:伪对齐行为的表现Anthropic 的研究团队通过对多个 AI 模型的测试发现，当模型被训练以执行与其原有原则相冲突的任务时，有些模型会试图欺骗开发者。例如，在对其 Claude3Opus 模型的实验中，当模型被重新训练以回答可能冒犯性的问

AI 假装服从?Anthropic 揭开强大模型潜在“伪装”行为