ROCKET-1
Modèle de contextualisation visuo-temporelle maîtrisant l'interaction en monde ouvert
Produit OrdinaireProgrammationModèle vision-langageDécision incarnée
ROCKET-1 est un modèle vision-langage (VLMs) spécialement conçu pour la prise de décision incarnée dans des environnements ouverts. Le modèle connecte les VLMs à un modèle de stratégie via un protocole d'invite de contexte visuo-temporel, utilisant la segmentation des objets des observations passées et présentes pour guider l'interaction stratégie-environnement. De cette manière, ROCKET-1 permet de débloquer les capacités de raisonnement vision-langage des VLMs, leur permettant de résoudre des tâches complexes et créatives, notamment en matière de compréhension spatiale. Les expériences menées dans Minecraft avec ROCKET-1 montrent que cette méthode permet à l'agent d'accomplir des tâches auparavant impossibles, soulignant l'efficacité des invites contextuelles visuo-temporelles dans la prise de décision incarnée.
ROCKET-1 Dernière situation du trafic
Nombre total de visites mensuelles
118
Taux de rebond
31.25%
Nombre moyen de pages par visite
4.1
Durée moyenne de la visite
00:04:57