SpatialVLM
Conférer aux modèles linguistiques visuels une capacité de raisonnement spatial
Produit OrdinaireProductivitéModèle linguistique visuelRaisonnement spatial
SpatialVLM est un modèle linguistique visuel développé par Google DeepMind, capable de comprendre et de raisonner les relations spatiales. Entraîné sur un ensemble de données synthétiques à grande échelle, il a acquis la capacité de réaliser un raisonnement spatial quantitatif de manière intuitive, à l’instar des humains. Cela améliore non seulement ses performances sur les tâches de VQA spatiales, mais ouvre également de nouvelles perspectives pour des tâches en aval telles que le raisonnement spatial en chaîne et le contrôle robotique.
SpatialVLM Dernière situation du trafic
Nombre total de visites mensuelles
2887
Taux de rebond
56.57%
Nombre moyen de pages par visite
1.2
Durée moyenne de la visite
00:00:32