Planification Visuelle Linguistique
Planification visuelle de tâches complexes à long terme
Produit OrdinaireVidéoPlanification visuelleMultimodal
La Planification Visuelle Linguistique (PVL) est un algorithme qui, grâce à l'entraînement de modèles vision-langage et de modèles texte-vers-vidéo, permet la planification visuelle de tâches complexes à long terme. La PVL prend en entrée une instruction de tâche à long terme et une observation d'image actuelle, et produit en sortie une planification multimodale détaillée (vidéo et langage) décrivant comment accomplir la tâche finale. La PVL est capable de générer des planifications vidéo à long terme dans différents domaines de la robotique, allant du réarrangement de plusieurs objets à la manipulation habile à deux bras avec plusieurs caméras. La planification vidéo générée peut être convertie en actions robotiques réelles grâce à une stratégie de conditionnement par objectif. Les expérimentations démontrent que, comparée aux méthodes précédentes, la PVL améliore significativement le taux de réussite des tâches à long terme.
Planification Visuelle Linguistique Dernière situation du trafic
Nombre total de visites mensuelles
279
Taux de rebond
44.93%
Nombre moyen de pages par visite
1.0
Durée moyenne de la visite
00:00:00