SpatialVLM

Conférer aux modèles linguistiques visuels une capacité de raisonnement spatial

Produit OrdinaireProductivitéModèle linguistique visuelRaisonnement spatial
SpatialVLM est un modèle linguistique visuel développé par Google DeepMind, capable de comprendre et de raisonner les relations spatiales. Entraîné sur un ensemble de données synthétiques à grande échelle, il a acquis la capacité de réaliser un raisonnement spatial quantitatif de manière intuitive, à l’instar des humains. Cela améliore non seulement ses performances sur les tâches de VQA spatiales, mais ouvre également de nouvelles perspectives pour des tâches en aval telles que le raisonnement spatial en chaîne et le contrôle robotique.
Ouvrir le site Web

SpatialVLM Dernière situation du trafic

Nombre total de visites mensuelles

2887

Taux de rebond

56.57%

Nombre moyen de pages par visite

1.2

Durée moyenne de la visite

00:00:32

SpatialVLM Tendance des visites

SpatialVLM Distribution géographique des visites

SpatialVLM Sources de trafic

SpatialVLM Alternatives