Patronus AI发布SimpleSafetyTests测试套件,发现ChatGPT等AI系统存在关键安全漏洞。测试揭示了11个LLMs中的严重弱点,强调安全提示可减少不安全响应。结果表明在处理真实世界应用之前,LLMs需要严格而定制的安全解决方案。
Patronus AI发布SimpleSafetyTests测试套件,发现ChatGPT等AI系统存在关键安全漏洞。测试揭示了11个LLMs中的严重弱点,强调安全提示可减少不安全响应。结果表明在处理真实世界应用之前,LLMs需要严格而定制的安全解决方案。
近日,Nvidia 宣布在其 NeMo Guardrails 平台上新增三项安全功能,旨在帮助企业更好地管理和控制 AI 聊天机器人。这些微服务专门针对 AI 安全和内容审核中的常见挑战,提供了一系列实用的解决方案。其中,内容安全服务(Content Safety)可以在 AI 响应用户之前,对其内容进行审核,检测是否存在潜在的有害信息。这项服务有助于防止不当内容传播,确保用户得到安全和合适的信息。另外,主题控制服务(Topic Control)旨在确保聊天内容保持在预先设定的主题范围内。这意味着,聊天机器人能够
自2021年以来,微软的 AI 安全团队对100多种生成式 AI 产品进行了测试,以寻找薄弱环节和道德问题。他们的发现挑战了一些关于 AI 安全的常见假设,并强调了人类专业知识的持续重要性。事实证明,最有效的攻击并不总是最复杂的攻击。微软报告中引用的一项研究指出:“真正的黑客不会计算梯度,而是使用快速工程。”该研究将人工智能安全研究与现实世界的实践进行了比较。在一次测试中,该团队仅通过将有害指令隐藏在图像文本中就成功绕过了图像生成器的安全功能——无需复杂的
OpenAI 近日在 AI 安全领域展示了其更为积极的红队测试策略,超越了其竞争对手,尤其是在多步强化学习和外部红队测试这两个关键领域。公司发布的两篇论文为提升 AI 模型的质量、可靠性和安全性设立了新的行业标准。第一篇论文《OpenAI 的 AI 模型与系统外部红队测试方法》指出,外部专业团队在发现内部测试可能遗漏的安全漏洞方面极为有效。这些外部团队由网络安全和特定领域的专家组成,能够识别模型安全边界的缺陷,以及模型中的偏差和控制问题。第二篇论文《多样化和有效的
OpenAI 公布了一种新的 AI 安全方法,旨在通过改变 AI 系统处理安全规则的方式来提升其安全性。这种新的 o 系列模型不再仅仅依赖于通过示例学习好与坏行为,而是能够理解并积极推理特定的安全指南。OpenAI 的研究中举了一个例子,当用户试图通过加密文本获取非法活动的指示时,模型成功解码了信息,但拒绝了请求,并具体引用了将要违反的安全规则。这种逐步推理的过程显示了模型如何有效地遵循相关的安全准则。这款 o1模型的训练过程分为三个阶段。首先,模型学习如何提供帮助。