AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-02-05 14:13:18.AIbase

Anthropic 推出“体质分类器”：成功阻止95% 的模型越狱尝试

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法，旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式，以防止 AI 模型生成有害内容。为了验证这一技术的有效性，Anthropic 进行了一项大规模测试。公司招募了183名参与者，在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题，试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15，000美元的奖金和约3，000小时的测试时间，

Anthropic 推出“体质分类器”：成功阻止95% 的模型越狱尝试

2024-08-10 18:00:39.AIbase

Anthropic 扩大漏洞奖励计划，测试下一代AI安全系统

Anthropic公司宣布扩大其漏洞奖励计划，旨在测试一种“下一代AI安全缓解系统”，主要聚焦识别和防御“通用越狱攻击”。特别关注高风险领域，包括CBRN防御和网络安全。参与者有机会提前接触新安全系统，发现漏洞或绕过安全措施，最高奖励15,000美元。此举措旨在提升AI系统安全性，通过吸引安全研究人员共同发现和修复潜在威胁，为AI行业安全防护树立标杆。

Anthropic 扩大漏洞奖励计划，测试下一代AI安全系统