最近有报道称 OpenAI 系统遭遇数据泄露事件,但不用担心您的 ChatGPT 会话内容是否被获取。虽然这次黑客攻击本身似乎只是肤浅的,但这提醒了我们,AI 公司已迅速成为黑客最渴望攻击的目标之一。

据《纽约时报》报道,前 OpenAI 员工 Leopold Aschenbrenner 在一档播客中暗示了这次黑客攻击事件。他称之为 “一次重大安全事件”,但匿名公司消息人士告诉《纽约时报》,黑客仅获得了对员工讨论论坛的访问权限。

OpenAI,人工智能,AI

安全漏洞绝不应被视为微不足道,窃听 OpenAI 内部开发讨论当然具有价值。但这远非黑客获取内部系统、进行中的模型、秘密路线图等情况。

尽管如此,这仍然应该引起我们的恐慌,但不一定是因为中国或其他对手在 AI 军备竞赛中超越我们的威胁。简单事实是,这些 AI 公司已经成为非常有价值数据的看门人。

让我们谈谈 OpenAI 以及在某种程度上其他 AI 公司创造或访问的三种数据:高质量的训练数据、大量用户交互以及客户数据。

不确定他们具体拥有什么训练数据,因为这些公司对其珍藏非常保密。但错误地认为它们只是一大堆抓取的网络数据是不对的。是的,他们确实使用网络爬虫或数据集如 “Pile”,但塑造原始数据以用于像 GPT-4o 这样的模型训练是一个庞大的任务,这需要大量的人力工时来完成 — 这只能部分自动化。

一些机器学习工程师推测,在创建大型语言模型(或者,也许是任何基于变换器的系统)时,影响最大的因素之一是数据集的质量。这就是为什么在 Twitter 和 Reddit 上训练的模型永远不会像在过去一个世纪出版的所有作品上训练的模型那样雄辩。 (也可能是为什么据称 OpenAI 在他们的训练数据中使用了存疑的合法来源,如受版权保护的书籍,他们声称已经放弃这种做法。)

因此,OpenAI 建立的训练数据集对竞争对手、其他公司、对手国家以及美国的监管机构都具有巨大价值。FTC 或法庭是否想知道究竟使用了哪些数据,以及 OpenAI 是否就此事情实际如实?

但也许更有价值的是 OpenAI 庞大的用户数据库 — 可能包含数十亿与 ChatGPT 进行的数百万话题的对话。就像搜索数据曾经是了解网络集体心理的关键一样,ChatGPT 掌握着一个可能没有谷歌用户群体那么广泛,但提供了更深入的了解的人群。 (如果您不知道,除非您选择退出,否则您的对话正在被用作训练数据。)

数百家大公司和无数小公司使用类似 OpenAI 和 Anthropic 的 API 工具进行各种各样的任务。为了让语言模型对他们有用,通常必须对其进行微调或以其他方式让其访问其内部数据库。

这可能是一些枯燥的旧预算表或人员记录(例如,使它们更易于搜索),也可能是一些尚未发布的软件代码。他们如何使用 AI 的能力(以及它们是否实际上有用)是他们的事情,但简单事实是 AI 提供者具有特权访问权限,就像其他任何 SaaS 产品一样。

这些都是工业机密,而 AI 公司突然成为这些机密的核心。这一行业的新颖性带来了一个特殊风险,因为 AI 流程尚未被标准化或完全理解。

划重点:

- AI 公司拥有的数据包括高质量训练数据、用户交互数据和客户数据,对竞争对手、监管机构以及市场分析师等都具有巨大价值。

- 用户与 AI 模型的对话记录是宝贵的信息,对于开发 AI、营销团队和咨询分析人员而言是一座金矿。

- AI 公司成为黑客攻击目标的新趋势,安全防护措施重要性凸显,即使没有严重数据泄霞,也应引起关注。