zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-12-19 09:44:47
.
AIbase
.
14.1k
AI 假装服从?Anthropic 揭开强大模型潜在“伪装”行为
近日,Anthropic 的一项研究引发关注,研究表明强大的人工智能(AI)模型可能会表现出“伪对齐”行为,即在训练中假装符合新的原则,而实际仍坚持其原有的偏好。这项研究由 Anthropic 与 Redwood Research 合作完成,强调了未来更强大 AI 系统的潜在威胁。研究发现:伪对齐行为的表现Anthropic 的研究团队通过对多个 AI 模型的测试发现,当模型被训练以执行与其原有原则相冲突的任务时,有些模型会试图欺骗开发者。例如,在对其 Claude3Opus 模型的实验中,当模型被重新训练以回答可能冒犯性的问