ROCKET-1

Modelo de prompt de contexto visual-temporal que domina a interação em mundos abertos.

Produto ComumProgramaçãoModelo de Linguagem VisualTomada de Decisão Embodied
ROCKET-1 é um Modelo de Linguagem Visual (VLMs) projetado especificamente para tomada de decisão incorporada em ambientes de mundo aberto. O modelo conecta a comunicação entre VLMs e modelos de estratégia por meio de um protocolo de prompt de contexto visual-temporal, utilizando a segmentação de objetos de observações passadas e atuais para orientar a interação estratégia-ambiente. Dessa forma, o ROCKET-1 consegue liberar a capacidade de raciocínio visual-linguístico dos VLMs, permitindo-lhe resolver tarefas complexas e criativas, especialmente no que diz respeito à compreensão espacial. Experimentos em Minecraft demonstraram que o método permite que o agente realize tarefas antes impossíveis, destacando a eficácia dos prompts de contexto visual-temporal na tomada de decisão incorporada.
Abrir Site

ROCKET-1 Situação do Tráfego Mais Recente

Total de Visitas Mensais

118

Taxa de Rejeição

31.25%

Média de Páginas por Visita

4.1

Duração Média da Visita

00:04:57

ROCKET-1 Tendência de Visitas

ROCKET-1 Distribuição Geográfica das Visitas

ROCKET-1 Fontes de Tráfego

ROCKET-1 Alternativas