近期,AI大模型训练数据短缺问题再次成为媒体关注焦点。《经济学人》杂志最新发布的文章《AI公司很快将耗尽大部分互联网数据》引发业界广泛讨论。文章指出,随着互联网高质量数据枯竭,AI领域正面临"数据墙"挑战。

研究公司Epoch AI预测,到2028年互联网上所有高质量文本数据将被用尽,机器学习数据集可能在2026年前就会耗尽所有"高质量语言数据"。这种"数据墙"现象已成为AI公司面临的重大问题,可能减缓其训练进展。

数据分析 数据监测 互联网 大数据 (2)

图源备注:图片由AI生成,图片授权服务商Midjourney

业界对此问题早有警示。2023年7月,加州大学伯克利分校教授斯图尔特·罗素曾警告,ChatGPT等AI驱动的机器人可能很快就会"耗尽宇宙中的文本"。然而,也有不同观点。2024年5月,斯坦福大学教授李飞飞表示,当下仍有大量差异化数据等待挖掘,以构建更定制化的模型。

为应对数据短缺,使用合成数据成为一种潜在解决方案。但《自然》杂志近期发表的论文指出,使用AI生成的数据集训练未来几代机器学习模型可能导致"模型崩溃",使模型误解现实。研究团队建议在训练数据中保留部分原始数据,使用多样化数据源,并研究更鲁棒的训练算法。

如何突破"数据墙"限制,确保高质量训练数据的持续供应,已成为AI行业的紧迫课题。这不仅需要技术创新,还需要政府、企业和研究机构的共同努力。随着AI技术日益融入各行各业,解决数据短缺问题将对AI的持续健康发展产生深远影响。