ROCKET-1

Modelo de indicaciones visuales-temporales contextuales que domina la interacción en mundos abiertos.

Producto ComúnProgramaciónModelo de lenguaje visualToma de decisiones encarnada
ROCKET-1 es un modelo de lenguaje visual (VLMs) diseñado específicamente para la toma de decisiones encarnadas en entornos de mundo abierto. El modelo conecta la comunicación entre los VLMs y los modelos de estrategia a través de un protocolo de indicaciones visuales-temporales contextuales, utilizando la segmentación de objetos de observaciones pasadas y presentes para guiar las interacciones estrategia-entorno. De esta manera, ROCKET-1 puede desbloquear la capacidad de razonamiento visual-lingüístico de los VLMs, permitiéndoles resolver tareas creativas complejas, especialmente en la comprensión espacial. Los experimentos de ROCKET-1 en Minecraft demuestran que este método permite a los agentes realizar tareas previamente inalcanzables, destacando la eficacia de las indicaciones visuales-temporales contextuales en la toma de decisiones encarnadas.
Abrir sitio web

ROCKET-1 Situación del tráfico más reciente

Total de visitas mensuales

118

Tasa de rebote

31.25%

Páginas promedio por visita

4.1

Duración promedio de la visita

00:04:57

ROCKET-1 Tendencia de visitas

ROCKET-1 Distribución geográfica de las visitas

ROCKET-1 Fuentes de tráfico

ROCKET-1 Alternativas