SpatialVLM

Verleiht visuellen Sprachmodellen räumliches Schlussfolgerungsvermögen.

Normales ProduktProduktivitätVisuelles SprachmodellRäumliches Schließen
SpatialVLM ist ein von Google DeepMind entwickeltes visuelles Sprachmodell, das räumliche Beziehungen verstehen und erschließen kann. Durch Training mit massiven synthetischen Daten erlangte es die Fähigkeit, intuitive quantitative räumliche Schlussfolgerungen zu ziehen – ähnlich wie Menschen. Dies verbessert nicht nur seine Leistung bei räumlichen VQA-Aufgaben, sondern eröffnet auch neue Möglichkeiten für nachgelagerte Aufgaben wie kettenförmige räumliche Schlussfolgerungen und Roboterkontrolle.
Website öffnen

SpatialVLM Neueste Verkehrssituation

Monatliche Gesamtbesuche

2887

Absprungrate

56.57%

Durchschnittliche Seiten pro Besuch

1.2

Durchschnittliche Besuchsdauer

00:00:32

SpatialVLM Besuchstrend

SpatialVLM Geografische Verteilung der Besuche

SpatialVLM Traffic-Quellen

SpatialVLM Alternativen