カーネギーメロン大学、スタンフォード大学、ハーバード大学、プリンストン大学の研究者らが、大規模言語モデル(LLM)の訓練に関する新たな発見を発表しました。それは、事前学習データ量が多いほどモデルのパフォーマンスが向上するとは限らないというものです。むしろ、過剰な事前学習はモデルのパフォーマンス低下、いわゆる「災害的過学習」を引き起こす可能性があることが指摘されています。

研究者らは、OLMo-1Bモデルを用いた実験で、2.3兆個と3兆個のトークンでそれぞれ学習させたモデルを比較しました。驚くべきことに、より多くのデータで学習させた後者のモデルは、AlpacaEvalやARCなどのいくつかのベンチマークテストにおいて、最大3%もパフォーマンスが低下しました。この結果は、多くの訓練データが必ずしも良い結果につながるという従来の考え方に疑問を投げかけています。

メタバース SF サイバーパンク 絵画 (3)大規模モデル

画像出典:AI生成画像、画像ライセンス提供元Midjourney

研究者らは、このパフォーマンス低下は「漸進的感受性」現象に関連していると説明しています。モデルが学習するトークン数が増えるにつれて、小さな変化にもより脆弱になるということです。例えば、微調整中にわずかな調整やノイズの混入でも、以前の学習効果が逆転する可能性があります。これを検証するために、研究者らはモデルにガウスノイズを注入したところ、より長い時間学習させたモデルの方がパフォーマンス低下が顕著であることがわかりました。

研究では、「転換点」という重要な概念が提示されています。これは、追加の学習がパフォーマンス向上ではなく低下を引き起こし始める点です。OLMo-1Bのような比較的小規模なモデルでは、この転換点は通常2.5兆個のトークンを超えたあたりに現れます。研究者らは、「災害的過学習」は特に事前学習と微調整タスクが一致しない場合に避けられない可能性があると警告しています。

研究者らは事前学習を完全に放棄することを推奨しているわけではありませんが、開発者は事前学習の量を適切に検討する必要があると強調しています。この研究の結論は、モデルの拡張における訓練プロセスの設計全体を見直す必要性を訴えています。モデル規模を追求するAI開発者にとって、この研究は「時には少ない方が多い」という明確なメッセージを送っています。