Patronus AI发布SimpleSafetyTests测试套件,发现ChatGPT等AI系统存在关键安全漏洞。测试揭示了11个LLMs中的严重弱点,强调安全提示可减少不安全响应。结果表明在处理真实世界应用之前,LLMs需要严格而定制的安全解决方案。
Patronus AI发布SimpleSafetyTests测试套件,发现ChatGPT等AI系统存在关键安全漏洞。测试揭示了11个LLMs中的严重弱点,强调安全提示可减少不安全响应。结果表明在处理真实世界应用之前,LLMs需要严格而定制的安全解决方案。
在Anthropic公司刚刚推出让Claude能够控制设备的Computer Use功能不到两个月,安全研究人员就发现了其潜在的安全漏洞。网络安全专家Johann Rehnberger最新披露的研究结果令人震惊:通过简单的提示词注入,AI竟然可以被诱导下载并运行恶意软件。Rehnberger将这个漏洞利用方式命名为"ZombAIs"。在演示中,他成功让Claude下载了Sliver——一个原本用于红队测试的开源指挥控制框架,但现已被黑客广泛用作恶意软件工具。更令人担忧的是,这仅仅是冰山一角。研究人员指出,AI还可以被诱导编写、编译并运
法国人工智能初创公司 Mistral AI 近日正式推出了一款全新的内容审核 API,旨在与 OpenAI 及其他行业领军者展开竞争,同时应对日益增长的 AI 安全与内容过滤问题。这项服务基于 Mistral 的 Ministral8B 模型,经过精细调优,能够在九个不同类别中检测潜在的有害内容,包括色情内容、仇恨言论、暴力行为、危险活动以及个人可识别信息等。该 API 同时具备对原始文本和对话内容的分析能力。Mistral AI 在发布会上强调,“安全性在使 AI 变得有用方面扮演着关键角色。” 他们认为,系统级的安全防
在人工智能迅速发展的今天,AI “幻觉” 现象愈加频繁,给许多企业带来了不小的困扰。客户服务聊天机器人自信地描述不存在的产品,金融 AI 编造市场数据,医疗机器人则提供危险的医疗建议。这些问题不再是单纯的趣事,而是正在影响公司声誉与盈利的重大隐患。为了应对这一挑战,位于旧金山的初创公司 Patronus AI 宣布推出全球首个自助服务平台,旨在实时检测和防止 AI 系统出现故障。这个平台就像是 AI 系统的 “拼写检查器”,可以在问题发生前将其捕捉到。Patronus AI 的首席执行
最近,加州州长加文・纽森否决了一项备受争议的AI安全法案,引发了科技界和政界的热议,也为AI监管的未来走向投下了一记重磅炸弹。这项由民主党州参议员斯科特・维纳提出的法案,原本旨在为迅猛发展的AI技术设立安全guardrails。它要求对开发成本超过1亿美元或需要特定计算能力的先进AI模型进行安全测试,并要求开发者提供"关闭开关"。此外,该法案还计划建立一个州级机构,专门监督"前沿模型"的开发。图源备注:图片由AI生成,图片授权服务商Midjourney然而,纽森认为这项法案过