先日、カリフォルニア大学バークレー校BAIR研究所のSergey Levine研究チームは、現実世界の複雑な操作スキルをロボットに学習させるという難題に取り組むための、HIL-SERLと呼ばれる強化学習フレームワークを発表しました。
この新技術は、人間の模範と修正を効率的な強化学習アルゴリズムと組み合わせることで、ロボットがわずか1~2.5時間で、動的な操作、精密な組み立て、両腕協調など、様々な精密で巧みな操作タスクを習得することを可能にしました。
従来、ロボットに新しいスキルを学習させるのは非常に困難でした。まるで子供に宿題を教えるように、手取り足取り教え、何度も修正する必要がありました。さらに厄介なことに、現実世界は状況が複雑多様で、ロボットは学習が遅く、すぐに忘れてしまい、ちょっとしたミスで失敗してしまいます。
一方、HIL-SERLフレームワークは、ロボットに「家庭教師」を付けるようなものです。人間の模範と修正という詳細な「教材」と、ロボットがスキルを迅速に習得するための効率的な学習アルゴリズムが備わっています。
数回デモンストレーションするだけで、ロボットはブロック遊び、パンケーキをひっくり返すことから、家具の組み立て、回路基板の取り付けまで、様々な操作を巧みにこなすことができます!
ロボットの学習をより速く、より良くするために、HIL-SERLは人間と機械の相互作用による修正メカニズムを導入しています。簡単に言うと、ロボットがミスをした場合、人間のオペレーターが介入して修正し、その修正情報をロボットにフィードバックします。これにより、ロボットはミスから学び、同じミスを繰り返すことなく、最終的には熟練の職人になります。
一連の実験の結果、HIL-SERLの効果は抜群でした。様々なタスクにおいて、ロボットはわずか1~2.5時間でほぼ100%の成功率を達成し、操作速度も従来の約2倍に向上しました。
さらに重要なのは、HIL-SERLが、画像入力に基づいた両腕協調を強化学習を用いて現実世界で実現した最初のシステムであることです。つまり、2本のロボットアームを協調させて、同期ベルトの組み立てなど、高度な連携が必要なより複雑なタスクを実行できるということです。
HIL-SERLの登場は、ロボット学習の巨大な可能性を示すとともに、将来の産業応用や研究の方向性を示唆しています。もしかしたら、将来は私たちの家庭にもこのようなロボット「見習い」がいて、家事を手伝ったり、家具を組み立てたり、ゲームの相手をしてくれたりするかもしれません。想像するだけでワクワクしますね!
もちろん、HIL-SERLにもいくつかの限界があります。例えば、長期的な計画が必要なタスクには対応できない可能性があります。また、現時点では主に実験環境でテストされており、大規模な現実世界のシナリオでの検証はまだ行われていません。しかし、技術の進歩に伴い、これらの問題は徐々に解決されると考えられます。
論文アドレス:https://hil-serl.github.io/static/hil-serl-paper.pdf
プロジェクトアドレス:https://hil-serl.github.io/