GPT-5难产？OpenAI面临“数据荒”困境，研发成本高企，竞争加剧

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 24, 2024

284

备受瞩目的GPT-5项目（代号Orion）已研发超过18个月，却迟迟未能面世。据《华尔街日报》最新报道，知情人士透露，尽管Orion的表现优于OpenAI现有模型，但其进步幅度尚不足以证明继续投入巨额成本的合理性。更令人担忧的是，全球数据量的匮乏，可能正成为GPT-5迈向更高智能水平的最大障碍。

据称，GPT-5至少经历了两次训练，每次训练都暴露出新的问题，未能达到研究人员的预期。每轮训练耗时数月，仅计算成本就高达5亿美元。这个项目能否成功、何时能成功，目前尚不明朗。

OpenAI，ChatGPT，人工智能，AI

训练之路困难重重:数据瓶颈显现

自GPT-4于2023年3月发布后，OpenAI便开始着手GPT-5的开发。通常，AI模型的能力会随着其吸收的数据量增加而增强。训练过程需要海量数据，耗时数月，并依赖于大量昂贵的计算芯片。OpenAI CEO Altman曾透露，仅训练GPT-4的成本就超过1亿美元，而未来AI模型的训练费用预计将突破10亿美元。

为了降低风险，OpenAI通常会先进行小规模的试运行，以验证模型的可行性。然而，GPT-5的开发却从一开始就遭遇了挑战。2023年中期，OpenAI启动了一项名为“Arrakis”的实验性训练，旨在测试GPT-5的新设计。但训练进展缓慢，且成本高昂，实验结果表明GPT-5的开发比原先预期的更加复杂和困难。

因此，OpenAI的研究团队决定对Orion进行一系列技术调整，并意识到现有的公开互联网数据已无法满足模型的需求。为了提升GPT-5的性能，他们迫切需要更多种类和更高质量的数据。

“从零开始创造数据”:应对数据荒

为了应对数据不足的问题，OpenAI决定“从零开始创造数据”。他们雇佣软件工程师和数学家，编写新的软件代码或解决数学问题，让Orion从这些任务中学习。OpenAI还会让这些专家解释他们的工作过程，将人类智慧转化为机器可学习的知识。

许多研究人员认为，代码作为软件的语言，能够帮助大模型解决它们没有见过的问题。Turing公司首席执行官Jonathan Siddharth表示:“我们是在将人类智慧从人脑转移到机器脑。”

OpenAI甚至与理论物理学等领域的专家合作，让他们解释如何解决各自领域中的难题。然而，这种“从头开始创造数据”的方式效率并不高。GPT-4的训练数据约为13万亿个token，即使有1000人每天写作5000字，也需要数月时间才能生产出10亿个token。

为了加速训练，OpenAI也尝试使用AI生成的“合成数据”。但有研究表明，AI生成的数据再用于AI训练的反馈循环，有时会导致模型出错或生成毫无意义的答案。对此，OpenAI科学家认为，通过使用o1生成的数据可以避免这些问题。

内忧外患:OpenAI面临多重挑战

OpenAI不仅面临技术层面的挑战，还面临着内部动荡和竞争对手的挖角。同时，来自技术和资金的双重压力也在增加。每次训练耗资高达5亿美元，而最终的训练成本很可能超过10亿美元。与此同时，Anthropic和谷歌等竞争对手也在纷纷推出新一代模型，试图赶超OpenAI。

人才流失和内部分歧进一步拖慢了开发进度。去年，OpenAI董事会突然解雇了Altman，导致一些研究人员开始质疑公司的未来。虽然Altman很快被重新任命为CEO，并开始改革公司治理结构，但今年以来，包括联合创始人兼首席科学家Ilya Sutskever和技术负责人Mira Murati在内的20多位关键高管、研究人员和长期员工相继离职。

随着Orion项目进展停滞，OpenAI开始开发其他项目和应用，包括简化版的GPT-4和AI视频生成产品Sora。但这导致了不同团队之间争夺有限计算资源的局面，特别是新产品开发团队和Orion研究团队之间发生了激烈竞争。

AI发展瓶颈?行业面临深度思考

GPT-5的困境或许揭示了一个更大的行业命题:AI是否已经接近发展的“瓶颈期”?业内人士指出，依靠海量数据和更大模型的策略正逐渐失效。前OpenAI科学家苏茨克维尔曾表示，“我们只有一个互联网”，数据的增长正在放缓，而这一推动AI飞跃的“化石燃料”正逐渐枯竭。

对于GPT-5的未来，Altman始终未给出明确的时间表。我们仍然无法确定OpenAI何时或者是否会推出一个值得称为GPT-5的模型。这场关于GPT-5的困境，也引发了人们对AI未来发展方向的深度思考。

国家知识产权局推出 18 项“人工智能+”场景

国家知识产权局发布首批18项“人工智能+”知识产权公共服务应用场景，覆盖12个省份，标志着我国知识产权服务智能化转型迈出实质性步伐。各地创新实践各具特色，如北京聚焦海外维权与未来产业创新，上海探索基于大模型的专利动态分析。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO品牌监控分析

GEO排名查询工具

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

GPT-5难产？OpenAI面临“数据荒”困境，研发成本高企，竞争加剧

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

上海市新增12款已完成备案的生成式人工智能服务

AI日报：智谱发布开源编程大模型GLM-4.7;豆包或成为2026春晚AI合作伙伴;ChatGPT 推出年终回顾功能

印度数据中心快速发展面临人才短缺挑战

​加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态

吸金6.6亿美元!Steam 近八成游戏染指 AI，争议声中大作纷纷“沦陷”

苹果初代智能眼镜细节曝光，将成 iPhone 最强 AI 配件

钉钉发布全球首个 AI 工作智能操作系统 Agent OS

时限逼近，软银急需225亿美元资金支持 OpenAI

优必选子公司优奇联手火山引擎，豆包大模型赋能具身智能新赛道

​国家知识产权局推出 18 项“人工智能+”场景

相关AI新闻推荐

上海市新增12款已完成备案的生成式人工智能服务

AI日报：智谱发布开源编程大模型GLM-4.7;豆包或成为2026春晚AI合作伙伴;ChatGPT 推出年终回顾功能

印度数据中心快速发展面临人才短缺挑战

​加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态

吸金6.6亿美元!Steam 近八成游戏染指 AI，争议声中大作纷纷“沦陷”

苹果初代智能眼镜细节曝光，将成 iPhone 最强 AI 配件

钉钉发布全球首个 AI 工作智能操作系统 Agent OS

时限逼近，软银急需225亿美元资金支持 OpenAI

优必选子公司优奇联手火山引擎，豆包大模型赋能具身智能新赛道

​国家知识产权局推出 18 项“人工智能+”场景

加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态

国家知识产权局推出 18 项“人工智能+”场景

加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态

国家知识产权局推出 18 项“人工智能+”场景