OpenAI 推出新 AI 安全方法，可主动推理规则拒绝危险请求！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月31号 9:20

193

OpenAI 公布了一种新的 AI 安全方法，旨在通过改变 AI 系统处理安全规则的方式来提升其安全性。这种新的 o 系列模型不再仅仅依赖于通过示例学习好与坏行为，而是能够理解并积极推理特定的安全指南。

OpenAI 的研究中举了一个例子，当用户试图通过加密文本获取非法活动的指示时，模型成功解码了信息，但拒绝了请求，并具体引用了将要违反的安全规则。这种逐步推理的过程显示了模型如何有效地遵循相关的安全准则。

这款 o1模型的训练过程分为三个阶段。首先，模型学习如何提供帮助。接下来，通过监督学习，模型会研究特定的安全指南。最后，模型使用强化学习来实践应用这些规则，这一步骤帮助模型真正理解并内化这些安全指南。

在 OpenAI 的测试中，新推出的 o1模型在安全性方面表现显著优于其他主流系统，如 GPT-4o、Claude3.5Sonnet 和 Gemini1.5Pro。测试内容包括模型如何拒绝有害请求并允许合适请求的通过，结果显示 o1模型在准确性和抵御越狱尝试方面均取得了最高分。

OpenAI 的联合创始人沃伊切赫・扎伦巴在社交平台上表示，他对这种 “深思熟虑的对齐” 工作感到非常自豪，认为这种推理模型可以以一种全新的方式进行对齐，特别是在发展人工通用智能（AGI）时，确保系统与人类价值观保持一致是一项重大挑战。

尽管 OpenAI 声称取得了进展，然而名为 “解放者普林尼” 的黑客仍然展示了即便是新的 o1和 o1-Pro 模型也能被操纵以突破安全指南。普林尼成功让模型生成成人内容，甚至分享制作莫洛托夫鸡尾酒的指示，尽管系统起初拒绝了这些请求。这些事件凸显控制这些复杂 AI 系统的难度，因为它们是基于概率而非严格规则进行操作。

扎伦巴表示，OpenAI 有约100名员工专门从事 AI 安全和与人类价值观保持一致的工作。他对竞争对手的安全处理方式提出了质疑，尤其是埃隆・马斯克的 xAI 公司优先考虑市场增长而非安全措施，而安瑟罗比（Anthropic）最近推出了一款没有适当保障的 AI 代理，扎伦巴认为这会给 OpenAI 带来 “巨大的负面反馈”。

官方博客:https://openai.com/index/deliberative-alignment/

划重点:
🌟 OpenAI 的新 o 系列模型能主动推理安全规则，提升系统安全性。
🛡️ o1模型在拒绝有害请求和准确性方面表现优于其他主流 AI 系统。
🚨 尽管有改进，但新的模型仍可能被操纵，安全挑战依旧严峻。

OpenAI Chat Playground升级为Prompts Playground 更好测试、迭代提示词

OpenAI 宣布，其广受欢迎的 Chat Playground 正式升级并更名为 Prompts Playground。这一更新带来了全新的设计和功能，旨在为用户提供更强大的工具，以便更好地测试、比较和迭代提示（prompts）。根据 OpenAI 在 X 平台上的最新介绍，此次重新设计整合了包括 Web 搜索和文件搜索在内的高级工具，进一步提升了用户体验和创作灵活性。据 OpenAI 开发团队透露，Prompts Playground 的核心目标是让用户能够更高效地探索和优化 AI 模型的交互方式。除了保留原有的对话功能外，新平台还允许用户保存和共享特定

OpenAI 呼吁美国中央政府加强人工智能监管

OpenAI 近日在对美国政府关于人工智能监管的咨询中表示，希望联邦政府能够主导 AI 的监管工作，而不是让各州制定更加严格的法规。该公司认为，统一的联邦监管能够促进美国在人工智能领域的创新，减少不同州之间法规的不一致性。图源备注:图片由AI生成，图片授权服务商Midjourney在这份15页的文件中，OpenAI 指出，中国的 AI 监管措施可能会对美国开发者造成威胁，因此美国应考虑采取类似的方式，通过政府与 AI 公司之间的合作来加强监管。OpenAI 建议，政府应建立一个 “沙盒” 机制，

软银千亿豪赌！日本巨型工厂变身AI心脏，联手OpenAI打造智能未来

谁说日本科技已老?软银用千亿豪赌震撼世界!曾经的液晶面板巨头夏普工厂，如今迎来华丽转身，即将成为驱动人工智能的强大引擎!科技巨擘软银集团正计划斥资千亿日元，将这座位于日本的旧工厂改造成最先进的数据中心。图源备注：图片由AI生成，图片授权服务商Midjourney这座数据中心并非普通的机房，它肩负着运行软银与人工智能领军者OpenAI联合开发的尖端AI智能体的重任。想象一下，曾经生产无数液晶屏幕的庞大厂房，未来将昼夜不停地驱动着最前沿的AI大脑运转，这无疑是一场科技

OpenAI Operator扩大地区覆盖，现已向更多欧洲用户开放

OpenAI宣布其人工智能代理Operator的研究预览版现已向欧洲、挪威、冰岛、列支敦士登和瑞士的18岁及以上用户开放。该功能目前仅向Pro用户提供，订阅费用为每月200美元。根据OpenAI的说法，公司计划在初始测试期后将Operator功能扩展至Plus、Team和Enterprise用户，并将其直接集成到ChatGPT平台中。此前，在2025年2月21日，OpenAI已将Operator推广到了多个国家和地区，包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国。当时，欧盟、瑞士、挪威、列支敦士登和冰岛等地区的用户尚未能使用

AI新闻资讯