近年、強化学習は多くの成功を収めていますが、サンプル効率の低さが現実世界への応用を制限しています。環境生成モデルであるワールドモデルは、この問題解決への希望を提供します。これはシミュレーション環境として機能し、より高いサンプル効率で強化学習エージェントを訓練できます。

現在、ほとんどのワールドモデルは離散潜在変数系列を用いて環境ダイナミクスをシミュレートしています。しかし、このコンパクトな離散表現への圧縮方法は、強化学習にとって重要な視覚的詳細を見落とす可能性があります。

一方、拡散モデルは画像生成分野で主要な手法となり、従来の離散潜在変数モデリング手法に挑戦しています。この着想を受け、研究者らはDIAMOND(環境ドリーム拡散モデル)と呼ばれる新しい手法を提案しました。これは拡散ワールドモデルで訓練された強化学習エージェントです。DIAMONDは、拡散モデルの長時間範囲での効率性と安定性を確保するために、設計において重要な選択を行っています。

image.png

DIAMONDは有名なAtari 100kベンチマークで平均1.46の人間標準化スコアを達成し、これはワールドモデルで完全に訓練されたエージェントとしては最高の成績です。さらに、画像空間で動作する利点は、拡散ワールドモデルが環境を直接置き換えることができ、ワールドモデルとエージェントの挙動をよりよく理解できることです。研究者らは、特定のゲームのパフォーマンス向上は、重要な視覚的詳細のより良いモデリングに起因することを発見しました。

DIAMONDの成功は、EDM(Elucidating the Design Space of Diffusion-based Generative Models)フレームワークの選択によるものです。従来のDDPM(Denoising Diffusion Probabilistic Models)と比較して、EDMはより少ないノイズ除去ステップで高い安定性を示し、長時間範囲での深刻な累積誤差を回避します。

さらに、DIAMONDは、その拡散ワールドモデルがインタラクティブなニューラルゲームエンジンとして機能できることを示しました。87時間の静的な『Counter-Strike: Global Offensive』ゲームデータで訓練することにより、DIAMONDはインタラクティブなDust IIマップニューラルゲームエンジンを生成することに成功しました。

将来、DIAMONDは自己回帰Transformerなどのより高度なメモリ機構を統合することで、パフォーマンスをさらに向上させることができます。さらに、報酬/終了予測を拡散モデルに統合することも、有望な研究方向です。

論文アドレス:https://arxiv.org/pdf/2405.12399