zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2025-02-05 14:13:18
.
AIbase
.
15.1k
Anthropic 推出“体质分类器”:成功阻止95% 的模型越狱尝试
人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法,旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式,以防止 AI 模型生成有害内容。为了验证这一技术的有效性,Anthropic 进行了一项大规模测试。公司招募了183名参与者,在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题,试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15,000美元的奖金和约3,000小时的测试时间,