ROCKET-1
Modelo de prompt de contexto visual-temporal que domina a interação em mundos abertos.
Produto ComumProgramaçãoModelo de Linguagem VisualTomada de Decisão Embodied
ROCKET-1 é um Modelo de Linguagem Visual (VLMs) projetado especificamente para tomada de decisão incorporada em ambientes de mundo aberto. O modelo conecta a comunicação entre VLMs e modelos de estratégia por meio de um protocolo de prompt de contexto visual-temporal, utilizando a segmentação de objetos de observações passadas e atuais para orientar a interação estratégia-ambiente. Dessa forma, o ROCKET-1 consegue liberar a capacidade de raciocínio visual-linguístico dos VLMs, permitindo-lhe resolver tarefas complexas e criativas, especialmente no que diz respeito à compreensão espacial. Experimentos em Minecraft demonstraram que o método permite que o agente realize tarefas antes impossíveis, destacando a eficácia dos prompts de contexto visual-temporal na tomada de decisão incorporada.
ROCKET-1 Situação do Tráfego Mais Recente
Total de Visitas Mensais
118
Taxa de Rejeição
31.25%
Média de Páginas por Visita
4.1
Duração Média da Visita
00:04:57