随着人工智能技术的迅猛发展,AI 生成的文本、图像和视频在各个领域的应用日益成熟。然而,这也伴随着信任危机的出现,虚假信息的传播对社会造成了潜在的威胁。为了应对这一挑战,腾讯于近日推出了一款全新的 AI 生成内容检测工具,旨在通过 AI 技术 “打假 AI”。这款工具由腾讯的朱雀实验室研发,分为 AI 生成文本检测和 AI 生成图像检测两个系统。腾讯官方指出,尽管 AI 生成的图像在外观上愈加真实,但仍然存在一定的可识别性。通过对上传图像进行几秒钟的快速验证,用户可
近日,Nvidia 宣布在其 NeMo Guardrails 平台上新增三项安全功能,旨在帮助企业更好地管理和控制 AI 聊天机器人。这些微服务专门针对 AI 安全和内容审核中的常见挑战,提供了一系列实用的解决方案。其中,内容安全服务(Content Safety)可以在 AI 响应用户之前,对其内容进行审核,检测是否存在潜在的有害信息。这项服务有助于防止不当内容传播,确保用户得到安全和合适的信息。另外,主题控制服务(Topic Control)旨在确保聊天内容保持在预先设定的主题范围内。这意味着,聊天机器人能够
自2021年以来,微软的 AI 安全团队对100多种生成式 AI 产品进行了测试,以寻找薄弱环节和道德问题。他们的发现挑战了一些关于 AI 安全的常见假设,并强调了人类专业知识的持续重要性。事实证明,最有效的攻击并不总是最复杂的攻击。微软报告中引用的一项研究指出:“真正的黑客不会计算梯度,而是使用快速工程。”该研究将人工智能安全研究与现实世界的实践进行了比较。在一次测试中,该团队仅通过将有害指令隐藏在图像文本中就成功绕过了图像生成器的安全功能——无需复杂的
OpenAI 近日在 AI 安全领域展示了其更为积极的红队测试策略,超越了其竞争对手,尤其是在多步强化学习和外部红队测试这两个关键领域。公司发布的两篇论文为提升 AI 模型的质量、可靠性和安全性设立了新的行业标准。第一篇论文《OpenAI 的 AI 模型与系统外部红队测试方法》指出,外部专业团队在发现内部测试可能遗漏的安全漏洞方面极为有效。这些外部团队由网络安全和特定领域的专家组成,能够识别模型安全边界的缺陷,以及模型中的偏差和控制问题。第二篇论文《多样化和有效的