OpenAI发布ChatGPT宕机故障详细报告：只因一个小更改导致

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 16, 2024

645

上周（12月11日）OpenAI 的 ChatGPT 和 Sora 等服务发生了长达4小时10分钟的宕机事件，导致众多用户受到影响。现在，OpenAI正式发布ChatGPT宕机故障详细报告。

简单的说这次故障的根本原因是一个小的变更，却导致了严重的后果，工程师们在关键时刻被锁在了控制面之外，无法及时处理问题。对于此次故障，OpenAI 的工程师在发现问题后迅速展开了多项修复工作，包括缩减集群规模、阻止对 Kubernetes 管理 API 的网络访问以及增加 Kubernetes API 服务器的资源。经过几轮努力，工程师们终于恢复了对部分 Kubernetes 控制平面的访问，并采取措施将流量转移到健康的集群中，最终实现了系统的全面恢复。

事故发生在太平洋标准时间下午3点12分，工程师们为收集 Kubernetes（K8S）控制面指标而部署了新的遥测服务。然而，由于该服务的配置无意间过于广泛，导致每个集群中的每个节点同时执行资源密集型的 K8S API 操作。这一情况迅速造成了 API 服务器的崩溃，从而使得大多数集群的 K8S 数据面失去了服务能力。

值得注意的是，虽然 K8S 数据面在理论上可以独立于控制面运行，但 DNS 的功能依赖于控制面，这使得服务之间无法相互联系。当 API 操作过载时，服务发现机制受损，导致了整个服务的瘫痪。虽然问题在3分钟内就被定位，但由于工程师无法访问控制面进行服务回滚，导致了一个 “死循环” 局面。控制面崩溃使得他们无法删除有问题的服务，进而无法进行恢复。

OpenAI 工程师们随即开始探索恢复集群的不同方法。他们尝试缩小集群规模以减少 K8S 的 API 负载，并阻止对管理 K8S API 的访问，以便服务器可以恢复正常运转。此外，他们还扩大了 K8S API 服务器的资源配置，以便更好地处理请求。经过一系列努力，工程师们终于重新获得了对 K8S 控制面的控制，得以删除故障服务并逐步恢复集群。

在此期间，工程师们还将流量转移到已恢复或新增的健康集群中，以降低其他集群的负载。然而，由于许多服务试图同时恢复，导致资源限制饱和，恢复过程需要额外的手动干预，部分集群恢复耗时较长。通过这次事故，OpenAI 有望总结经验，避免在未来遇到类似情况时再次被 “锁门”。

报告详情:https://status.openai.com/incidents/ctrsv3lwd797

划重点:
🔧 故障原因:小的遥测服务变更导致 K8S API 操作过载，造成服务瘫痪。
🚪 工程师困境:控制面崩溃使得工程师无法访问，导致无法进行问题处理。
⏳ 恢复过程:通过缩小集群规模和增加资源等手段，最终恢复了服务。

ChatGPT OpenAI Kubernetes 宕机故障

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

以色列初创公司 Brandlight 获 570 万美元融资，助力品牌在 AI 搜索时代脱颖而出

在当今这个由生成式人工智能驱动的时代，品牌在机器生成搜索结果中的表现愈发重要。以色列初创公司 Brandlight 近日宣布完成570万美元的融资，旨在帮助企业有效地影响 AI 模型对其品牌的认知和展示。该公司由 CEO Imri Marcus、CTO Dvir Dvash 和 COO Uri Gafni 共同创立，并在推出时就吸引了 Cardumen Capital 和 G20Ventures 等投资者的关注。随着越来越多的消费者依赖生成式 AI 工具，如 ChatGPT 和 Google 的 Gemini 进行信息检索，传统的搜索引擎优化（SEO）手段正逐渐失去效力。AI 生成的响应基于庞大的数据

2025年4月16号 18:03

350

十亿安卓用户福音!Opera Mini 加入 AI 大军，新闻、图像一键生成

挪威浏览器公司 Opera 今日宣布，其人工智能助手 Aria 正式登陆 Android 版 Opera Mini 浏览器。此举旨在让使用低端设备和受限于数据流量的用户也能便捷地体验 AI 功能。据介绍，Aria AI 能够帮助用户快速获取各类最新资讯，深入了解感兴趣的主题，甚至生成图像。Opera 方面表示，Aria 的强大功能得益于其对 OpenAI 和 Google 模型的整合应用，从而确保提供高度相关的答案。Opera 移动执行副总裁 Jørgen Arnesen 强调:“人工智能正迅速融入人们的日常互联网体验，将 Aria 引入 Opera Mini，对于这款拥有庞大

2025年4月16号 17:56

1.9k

AI日报：ChatGPT重磅上线图像库功能；白嫖！Veo2登陆谷歌AI Studio；蚂蚁百宝箱推“MCP专区”

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称字节跳动整合 AI 研发团队，AI Lab 即将并入 Seed字节跳动正在进行AI研发团队的整合，将独立的字节AI Lab并入Seed团队。这一举措体现了字节在AI领域战略布局的调整，旨在进一步提升其研发能力。自2016年成立以来，AI Lab为公司的产品创新提供了强有力的支持。新组织将专注于AI产品和大模

2025年4月16号 15:19

1.9k

OpenAI收购Context.ai团队，助力AI模型评估技术升级

近日，科技巨头 OpenAI 宣布收购初创公司 Context.ai 团队，这一举措旨在提升其 AI 模型的评估与分析能力。Context.ai 成立于2023年，由前谷歌员工 Henry Scott-Green 和 Alex Gamble 共同创办，专注于为开发者提供 AI 模型性能的深入分析和可视化工具。此举显示出 OpenAI 对提升 AI 技术的决心，尤其是在日益复杂的 AI 模型面前。作为此次收购的一部分，Scott-Green 和 Gamble 将加入 OpenAI，担任产品经理，专注于研发高效的模型评估工具。Scott-Green 在 LinkedIn 上已经更新了他的职位，表示他将负责 “构建评估工

2025年4月16号 11:24

3.2k

ChatGPT 新增图库功能，让 AI 生成图像管理更轻松！

OpenAI 近日宣布，为其广受欢迎的 ChatGPT 平台推出了一项全新功能 ——「Image Library」图库。这个新功能旨在为用户提供一个直观的图像管理界面，使得浏览、检索和整理 AI 生成的图片变得更加简单和高效。无论是创作者、设计师还是普通用户，都能在这个功能的帮助下，轻松管理他们所生成的图像。对于许多使用 ChatGPT 的用户而言，生成图像已经成为日常创作的重要一部分。然而，随着生成图像数量的增加，如何有效地整理和查找这些图片常常成为一大挑战。为了解决这个问题，OpenAI 的

2025年4月16号 10:29

830

英国 AI 版权法规或导致模型偏见与创作者收益减少

近日，政策专家对的 AI 版权法规表示担忧，认为如果不提供全面的文本和数据挖掘豁免，可能会导致 AI 模型质量下降，进而影响创新。专家指出，禁止像 OpenAI、谷歌和 Meta 这样的公司在英国使用版权材料进行 AI 训练，可能会导致模型输出的偏见，从而削弱其有效性。英国政府于2024年12月开启了一项咨询，旨在探索如何在使用创意内容训练 AI 模型时保护艺术家、作家和作曲家的权益。提案允许 AI 开发者在未获得版权拥有者明确选择退出的情况下使用在线内容。然而，创意产业的相关机构

2025年4月16号 10:25

1.3k

报道称OpenAI或将推出类X社交媒体功能，计划整合ChatGPT

人工智能领域的领军企业OpenAI正计划进一步扩展其业务版图。据多家媒体最新报道，OpenAI正在开发一项类似X（原Twitter）的社交媒体功能，并有可能将其整合进旗下广受欢迎的AI聊天工具ChatGPT中。项目处于早期阶段，聚焦图像生成与社交互动根据外媒The Verge报道，OpenAI目前已开发出该社交媒体功能的内部原型，核心功能围绕ChatGPT的图像生成能力展开。用户将能够通过ChatGPT生成AI图像，例如近期流行的动漫风格图像，并直接分享至社交信息流中，形成类似X平台的动态交流体验。这一功能的推

2025年4月16号 9:49

1.3k

OpenAI进军社交网络：融合图像生成与动态信息流挑战X与Meta

人工智能巨头OpenAI正在悄然布局一项雄心勃勃的新计划——开发一款类似X的社交网络平台，这一项目目前处于早期开发阶段，内部原型已初具雏形，聚焦于ChatGPT的图像生成功能，并融入社交动态信息流。项目背景：从ChatGPT到社交生态OpenAI以ChatGPT的全球成功奠定了其在生成式AI领域的领先地位。据报道，ChatGPT已成为全球下载量最大的应用之一，覆盖约10%的全球人口。然而，面对Meta、Google及xAI等竞争对手在社交数据与用户粘性上的优势，OpenAI亟需新的增长点。社交网络的开发被认为是其战

2025年4月16号 9:37

1.9k

ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

OpenAI宣布ChatGPT迎来一项重大更新:全新图像库功能正式上线，允许用户在统一的界面中查看、编辑和分享通过GPT-4o模型生成的所有图片。这一功能现已向免费、Plus及Pro用户逐步开放，显著提升了用户在AI图像生成领域的创作体验。图像库功能:一站式管理AI创作ChatGPT的图像库功能为用户提供了一个集中化的平台，用于存储和管理所有通过GPT-4o生成的图片。无论是基于文本提示生成的艺术作品，还是从用户上传的图像转换的风格化内容（如Studio Ghibli风格或卡通效果），所有创作都将自动归档

2025年4月16号 9:35

3.1k

OpenAI 任命新非营利顾问，助力慈善事业拓展影响力

近日，OpenAI 宣布了其新非营利委员会的四位顾问，分别是著名劳动活动家多洛雷斯・惠尔塔、学院未来基金会首席执行官莫妮卡・洛萨诺、加州基金会健康与福利的前首席执行官罗伯特・K・罗斯博士，以及政府、科技、商业和倡导领域的领袖杰克・奥利弗。OpenAI 表示，这四位顾问将为公司的慈善工作提供重要的指导和支持。图源备注:图片由AI生成，图片授权服务商Midjourney惠尔塔在20世纪是劳动权利的重要推动者，而洛萨诺则在教育领域做出了卓越的贡献。罗斯博士在健康和福利方面拥有

2025年4月16号 8:52

1.3k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

OpenAI发布ChatGPT宕机故障详细报告：只因一个小更改导致

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

以色列初创公司 Brandlight 获 570 万美元融资，助力品牌在 AI 搜索时代脱颖而出

十亿安卓用户福音!Opera Mini 加入 AI 大军，新闻、图像一键生成

AI日报：ChatGPT重磅上线图像库功能；白嫖！Veo2登陆谷歌AI Studio；蚂蚁百宝箱推“MCP专区”

OpenAI收购Context.ai团队，助力AI模型评估技术升级

ChatGPT 新增图库功能，让 AI 生成图像管理更轻松！

英国 AI 版权法规或导致模型偏见与创作者收益减少

报道称OpenAI或将推出类X社交媒体功能，计划整合ChatGPT

OpenAI进军社交网络：融合图像生成与动态信息流 挑战X与Meta

ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片

​OpenAI 任命新非营利顾问，助力慈善事业拓展影响力

OpenAI进军社交网络：融合图像生成与动态信息流挑战X与Meta

OpenAI 任命新非营利顾问，助力慈善事业拓展影响力