先日、AIGC分野の研究機関であるEpochaiが衝撃的な調査報告を発表しました。報告書によると、公開されている高品質なテキストのトレーニングデータセットは約300兆トークンとのこと。しかし、ChatGPTなどの大規模モデルのデータ消費量がますます増加しているため、これらのデータは2026年から2032年までに枯渇する可能性があるとのことです!

22.jpg

研究者らは特に、「過剰訓練」がトレーニングデータの消費を加速させている原因だと指摘しています。例えば、Metaが最近オープンソース化したLlama3の8Bバージョンでは、なんと100倍もの過剰訓練が行われたとのこと!全てのモデルがこの方法を採用した場合、データは2025年には枯渇してしまうかもしれません。

2.jpg

しかし、心配はいりません。解決策はあります!Epoch aiは、AI業界における「データ不足」という悪夢を解消するためのトレーニングデータ取得方法を4つ提案しています。

1)合成データ:レトルト食品で作る料理のようなもの。合成データは深層学習を利用して現実のデータを模倣し、新しいデータを作成します。しかし、合成データの品質はばらつきやすく、過学習を起こしたり、現実のテキストの微妙な言語的特徴を欠いたりする可能性があります。

2)マルチモーダルおよびクロスドメインデータ学習:この方法はテキストだけでなく、画像、ビデオ、音声など、様々なデータタイプを含みます。カラオケで歌って踊って演技をするようなもの。マルチモーダル学習により、モデルは複雑なタスクをより包括的に理解し処理できます。

3)プライベートデータ:現在、世界のテキストデータのプライベートな総量は約3100兆トークンと推定され、公開データの10倍以上!しかし、プライベートデータの使用には細心の注意が必要です。プライバシーとセキュリティは非常に重要だからです。さらに、非公開データの取得と統合のプロセスは非常に複雑になる可能性があります。

4)現実世界とのリアルタイムインタラクション学習:モデルが現実世界との直接的な相互作用を通じて学習し、進化していく方法。この方法は、モデルに自律性と適応能力が必要であり、ユーザーの指示を正確に理解し、現実世界で行動を起こすことができる必要があります。