ROCKET-1
Modelo de indicaciones visuales-temporales contextuales que domina la interacción en mundos abiertos.
Producto ComúnProgramaciónModelo de lenguaje visualToma de decisiones encarnada
ROCKET-1 es un modelo de lenguaje visual (VLMs) diseñado específicamente para la toma de decisiones encarnadas en entornos de mundo abierto. El modelo conecta la comunicación entre los VLMs y los modelos de estrategia a través de un protocolo de indicaciones visuales-temporales contextuales, utilizando la segmentación de objetos de observaciones pasadas y presentes para guiar las interacciones estrategia-entorno. De esta manera, ROCKET-1 puede desbloquear la capacidad de razonamiento visual-lingüístico de los VLMs, permitiéndoles resolver tareas creativas complejas, especialmente en la comprensión espacial. Los experimentos de ROCKET-1 en Minecraft demuestran que este método permite a los agentes realizar tareas previamente inalcanzables, destacando la eficacia de las indicaciones visuales-temporales contextuales en la toma de decisiones encarnadas.
ROCKET-1 Situación del tráfico más reciente
Total de visitas mensuales
118
Tasa de rebote
31.25%
Páginas promedio por visita
4.1
Duración promedio de la visita
00:04:57