SpatialVLM
Otorga a los modelos de lenguaje visual la capacidad de razonamiento espacial
Producto ComúnProductividadModelo de lenguaje visualRazonamiento espacial
SpatialVLM es un modelo de lenguaje visual desarrollado por Google DeepMind, capaz de comprender y razonar sobre relaciones espaciales. A través del entrenamiento con datos sintéticos a gran escala, ha adquirido la capacidad de realizar inferencias espaciales cuantitativas de forma intuitiva, similar a la de un humano. Esto no solo mejora su rendimiento en tareas de VQA espacial, sino que también abre nuevas posibilidades para tareas posteriores como el razonamiento espacial en cadena y el control robótico.
SpatialVLM Situación del tráfico más reciente
Total de visitas mensuales
2887
Tasa de rebote
56.57%
Páginas promedio por visita
1.2
Duración promedio de la visita
00:00:32