在最近的一次直播对话中,特斯拉和 SpaceX 首席执行官埃隆・马斯克表示,现实世界中可用于训练人工智能模型的数据已经几乎耗尽。与他进行对话的是 Stagwell 董事会主席马克・佩恩。马斯克提到,“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”

马斯克的这一观点与前 OpenAI 首席科学家伊利亚・苏茨克弗在去年12月的 NeurIPS 会议上提出的 “数据峰值” 理论相似。苏茨克弗表示,AI 行业正面临数据短缺的挑战,未来缺乏足够的训练数据将迫使 AI 模型的开发方式发生变化。

为了解决这一问题,马斯克认为合成数据将成为一种可行的替代方案。他指出,唯一可以补充现实世界数据的方式就是通过合成数据,即让人工智能自身生成训练数据。马斯克表示,AI 可以通过自我评估并不断优化自身,借此提升性能。

目前,许多科技公司如微软、Meta、OpenAI 和 Anthropic 等都开始采用合成数据来训练其主要的 AI 模型。据 Gartner 的预测,到2024年,用于人工智能和数据分析项目的60% 数据将会是合成生成的。

合成数据的一个显著优势是可以显著降低开发成本。然而,马斯克和其他专家也指出,合成数据并非没有风险。研究显示,合成数据可能导致模型性能下降,输出结果可能缺乏创新性,并可能受到偏见的影响。如果合成数据本身存在局限性,最终模型的输出结果也将受到这些问题的困扰。

划重点:

🌍 现实世界中可用于训练 AI 的数据几乎耗尽,马斯克对此表示担忧。  

💡 合成数据被认为是未来的重要解决方案,许多科技公司已开始采用。  

💰 使用合成数据可以大幅降低开发成本,但也存在可能导致模型性能下降的风险。