DigiRL

自律型強化学習を用いて、野外機器制御エージェントを訓練します。

一般製品プログラミング強化学習自律学習
DigiRLは、野外環境で機器を制御できるインテリジェントエージェントをトレーニングするための革新的なオンライン強化学習アルゴリズムです。自律的価値評価モデル(VLM)を用いて、オープンエンドな現実世界のAndroidタスクを解決します。DigiRLの主な利点としては、既存の非最適オフラインデータセットを活用できること、オフラインからオンラインへの強化学習により、エージェント自身の試行錯誤からの学習を促進できることが挙げられます。このモデルは、命令レベルの価値関数を使用して自動カリキュラムを暗黙的に構築し、エージェントにとって最も価値のあるタスクを優先し、ステップレベルの価値関数を使用して、軌跡の中で目標に貢献する有利な行動を選択します。
ウェブサイトを開く

DigiRL 代替品