ROCKET-1

Modèle de contextualisation visuo-temporelle maîtrisant l'interaction en monde ouvert

Produit OrdinaireProgrammationModèle vision-langageDécision incarnée
ROCKET-1 est un modèle vision-langage (VLMs) spécialement conçu pour la prise de décision incarnée dans des environnements ouverts. Le modèle connecte les VLMs à un modèle de stratégie via un protocole d'invite de contexte visuo-temporel, utilisant la segmentation des objets des observations passées et présentes pour guider l'interaction stratégie-environnement. De cette manière, ROCKET-1 permet de débloquer les capacités de raisonnement vision-langage des VLMs, leur permettant de résoudre des tâches complexes et créatives, notamment en matière de compréhension spatiale. Les expériences menées dans Minecraft avec ROCKET-1 montrent que cette méthode permet à l'agent d'accomplir des tâches auparavant impossibles, soulignant l'efficacité des invites contextuelles visuo-temporelles dans la prise de décision incarnée.
Ouvrir le site Web

ROCKET-1 Dernière situation du trafic

Nombre total de visites mensuelles

118

Taux de rebond

31.25%

Nombre moyen de pages par visite

4.1

Durée moyenne de la visite

00:04:57

ROCKET-1 Tendance des visites

ROCKET-1 Distribution géographique des visites

ROCKET-1 Sources de trafic

ROCKET-1 Alternatives