Planejamento de Linguagem de Vídeo
Planejamento visual para tarefas complexas e de longo prazo
Produto ComumVídeoPlanejamento visualMultimodal
O Planejamento de Linguagem de Vídeo (VLP) é um algoritmo que, através do treinamento de modelos de linguagem visual e de modelos de texto para vídeo, realiza o planejamento visual para tarefas complexas e de longo prazo. O VLP recebe como entrada instruções de tarefas de longo prazo e observações de imagens atuais, e retorna um planejamento multimodal detalhado (vídeo e linguagem), descrevendo como concluir a tarefa final. O VLP consegue gerar planejamentos de vídeo de longo prazo em diferentes áreas de robótica, desde o rearranjo de múltiplos objetos até a manipulação ágil com dois braços e múltiplas câmeras. O planejamento de vídeo gerado pode ser convertido em ações de robôs reais por meio de uma estratégia de condicionamento por objetivos. Experimentos demonstram que, em comparação com métodos anteriores, o VLP melhora significativamente a taxa de sucesso em tarefas de longo prazo.
Planejamento de Linguagem de Vídeo Situação do Tráfego Mais Recente
Total de Visitas Mensais
279
Taxa de Rejeição
44.93%
Média de Páginas por Visita
1.0
Duração Média da Visita
00:00:00