ROCKET-1
オープンワールドインタラクションを習得した視覚的・時間的コンテキストプロンプトモデル
一般製品プログラミング視覚言語モデル具象化された意思決定
ROCKET-1は、オープンワールド環境における具象化された意思決定のために設計された視覚言語モデル(VLMs)です。このモデルは、視覚的・時間的コンテキストプロンプトプロトコルを通じて、VLMsとポリシーモデル間の通信を繋ぎ、過去と現在の観測からのオブジェクト分割を利用してポリシーと環境のインタラクションを導きます。ROCKET-1はこの方法により、VLMsの視覚言語推論能力を解き放ち、特に空間理解において、複雑な創造的なタスクを解決することを可能にします。Minecraftにおける実験では、この手法によりエージェントが以前は不可能だったタスクを達成できることが示され、具象化された意思決定における視覚的・時間的コンテキストプロンプトの有効性を強調しています。
ROCKET-1 最新のトラフィック状況
月間総訪問数
118
直帰率
31.25%
平均ページ/訪問
4.1
平均訪問時間
00:04:57