最近、AI大規模モデルの訓練データ不足の問題が再びメディアの注目を集めています。エコノミスト誌が最近発表した「AI企業はまもなくインターネット上のほとんどのデータを使い果たす」という記事は、業界で広く議論されています。記事によると、インターネット上の高品質データが枯渇しつつあり、AI分野は「データの壁」という課題に直面しています。

調査会社Epoch AIの予測によると、2028年までにインターネット上の高品質テキストデータはすべて使い果たされ、機械学習データセットは2026年までに「高品質言語データ」をすべて使い果たす可能性があります。この「データの壁」現象は、AI企業が直面する重大な問題となり、訓練の進捗を遅らせる可能性があります。

データ分析 データ監視 インターネット ビッグデータ (2)

画像出典:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyによって提供されています。

業界ではこの問題について以前から警告が出ていました。2023年7月、カリフォルニア大学バークレー校のStuart Russell教授は、ChatGPTなどのAI駆動型ロボットがすぐに「宇宙のテキストを使い果たす」可能性があると警告しました。しかし、異なる意見もあります。2024年5月、スタンフォード大学の李飛飛教授は、よりカスタマイズされたモデルを構築するために、現在でも多くの差別化されたデータが掘り起こされるのを待っていると述べました。

データ不足に対処するために、合成データの使用が潜在的な解決策となっています。しかし、ネイチャー誌が最近発表した論文によると、AIで生成されたデータセットを使用して将来世代の機械学習モデルを訓練すると、「モデルの崩壊」を引き起こし、モデルが現実を誤解する可能性があります。研究チームは、訓練データに一部の元のデータを残し、多様なデータソースを使用し、より堅牢な訓練アルゴリズムを研究することを推奨しています。

「データの壁」という制限をどのように突破し、高品質な訓練データの継続的な供給を確保するかは、AI業界の喫緊の課題となっています。これは技術革新だけでなく、政府、企業、研究機関の共同努力が必要です。AI技術が様々な業界にますます統合されるにつれて、データ不足問題の解決は、AIの持続可能な健全な発展に大きな影響を与えるでしょう。