最近、AI業界で奇妙な出来事が起こりました。まるで大食いYouTuberが突然自分の料理を食べ始め、しかもハマってしまい、料理がどんどんまずくなっていくようなものです。これはかなり恐ろしいことで、専門用語では「モデル崩壊(model collapse)」と呼ばれています。

モデル崩壊とは何か?簡単に言うと、AIモデルがトレーニング中に大量に自身で生成したデータを使用すると、悪循環に陥り、生成される品質がどんどん低下し、最終的に失敗してしまうことです。

これは閉鎖的な生態系のようなものです。AIモデルはこの生態系における唯一の生物であり、その生物が生産する食物がデータです。最初は、天然の食材(実データ)を見つけることができますが、時間が経つにつれて、自身で生産した「人工」の食材(合成データ)に依存するようになります。問題は、これらの「人工」食材は栄養価が低く、モデル自身の欠陥も含まれていることです。食べ過ぎると、AIモデルの「体」が壊れ、生成されるものもますます奇妙になります。

image.png

この論文では、モデル崩壊現象を研究し、2つの重要な質問に答えることを試みています。

  • モデル崩壊は避けられないものなのか?実データと合成データを混ぜることで問題を解決できるのか?

  • モデルが大きいほど、崩壊しやすいのか?

これらの問題を研究するために、論文の著者は一連の実験を設計し、ランダム投影モデルを使用してニューラルネットワークのトレーニングプロセスをシミュレートしました。その結果、合成データのごく一部(例えば1%)を使用するだけでも、モデル崩壊を引き起こす可能性があることが分かりました。さらに悪いことに、モデルの規模が大きくなるにつれて、モデル崩壊現象はより深刻になります。

image.png

これは、大食いYouTuberが注目を集めるために奇抜な食材を試した結果、胃を壊してしまったようなものです。損失を取り戻すために、彼はさらに多くの奇抜なものを大量に食べることになりますが、胃の状態はますます悪化し、最終的には大食い界から引退せざるを得なくなります。

では、どのようにモデル崩壊を回避すればよいのでしょうか?

論文の著者はいくつかの提案をしています。

  • 実データの優先使用:実データは天然の食材のようなもので、栄養価が高く、AIモデルの健全な成長に不可欠です。

  • 合成データの使用は慎重に:合成データは人工の食材のようなもので、栄養を補うことができますが、過度に依存すると逆効果になります。

  • モデル規模の制御:モデルが大きくなると、食欲も増し、胃を壊しやすくなります。合成データを使用する際には、モデルの規模を制御し、過剰な供給を避ける必要があります。

モデル崩壊はAI開発における新たな課題です。これは、モデルの規模と効率性を追求する一方で、データの質とモデルの健康にも注意を払う必要があることを示唆しています。そうすることで、AIモデルは持続的に健全に発展し、人類社会に大きな価値を生み出すことができるでしょう。

論文:https://arxiv.org/pdf/2410.04840