Planificación del Lenguaje de Video
Planificación visual de tareas complejas a largo plazo
Producto ComúnVideoPlanificación visualMultimodal
La Planificación del Lenguaje de Video (VLP) es un algoritmo que, mediante el entrenamiento de modelos de lenguaje visual y de texto a video, permite la planificación visual de tareas complejas a largo plazo. VLP recibe como entrada instrucciones para tareas de larga duración y observaciones de imágenes actuales, y genera un plan detallado multimodal (video y lenguaje) que describe cómo completar la tarea final. VLP puede generar planes de video a largo plazo en diferentes ámbitos robóticos, desde la reordenación de múltiples objetos hasta la manipulación diestra con dos brazos y múltiples cámaras. La planificación de video generada se puede transformar en acciones robóticas reales mediante una estrategia de condición de objetivo. Los experimentos demuestran que, en comparación con métodos anteriores, VLP mejora significativamente la tasa de éxito en tareas a largo plazo.
Planificación del Lenguaje de Video Situación del tráfico más reciente
Total de visitas mensuales
279
Tasa de rebote
44.93%
Páginas promedio por visita
1.0
Duración promedio de la visita
00:00:00