Im Bereich der künstlichen Intelligenz entwickeln sich 3D-Vision und Raumverständnis-Technologien zu Schlüsselfaktoren für die Entwicklung von verkörperter Intelligenz, autonomer Navigation und Virtual-Reality-Anwendungen. Im März 2025 gab die in Hangzhou ansässige Firma Qunhe Technology auf der GTC2025-Weltkonferenz die offizielle Open-Source-Veröffentlichung ihres selbst entwickelten 3D-Vision-Sprachmodells SpatialLM bekannt, was in der Branche große Aufmerksamkeit erregte.

QQ_1744766332372.png

Dieses Modell bietet durch seine starken räumlichen Erkennungsfähigkeiten und die kostengünstige Datenverarbeitung revolutionäre Fortschritte für die Robotik-Schulung, die Architekturplanung und AR/VR-Anwendungen. AIbase hat auf Basis der neuesten Informationen die technischen Highlights und die Auswirkungen von SpatialLM auf die Branche zusammengestellt und eingehend analysiert.

SpatialLM: Von Handyvideos zu physikalisch korrekten 3D-Szenen

SpatialLM ist ein speziell für das dreidimensionale Raumverständnis entwickeltes großes Sprachmodell, das auf Basis von Videos, die mit einem normalen Handy oder einer Kamera aufgenommen wurden, schnell physikalisch korrekte 3D-Szenenlayouts generieren kann. Im Gegensatz zu herkömmlichen Methoden, die auf teuren Lidar-Sensoren oder Spezialgeräten beruhen, senkt SpatialLM die Datenakquisitionshürde erheblich, indem es Daten aus verschiedenen Quellen verarbeitet (z. B. Einzelbild-Videosequenzen, RGBD-Bilder oder LiDAR-Sensoren). Das Modell kann die Architekturelemente (z. B. Wände, Türen, Fenster) und semantischen Begrenzungsrahmen von Objekten (z. B. „Sofa – Länge 1,8 m – Abstand zur Wand 0,5 m“) präzise erkennen und in einer strukturierten Skriptsprache ausgeben, wodurch Maschinen ein menschenähnliches räumliches Verständnis erhalten.

Die Kerntechnologie basiert auf MASt3R-SLAM. Dabei wird das Video in Einzelbilder zerlegt, räumliche Details extrahiert und eine hochdichte 3D-Punktwolke generiert. Anschließend wandelt der Punktwolken-Encoder die Daten in kompakte Feature-Vektoren um, und das große Sprachmodell (LLM) generiert dann den Szenencode, um sicherzustellen, dass das ausgegebene 3D-Layout den physikalischen Regeln entspricht (z. B. „Möbel dürfen nicht schweben“, „Gangbreite ≥ 0,8 m“). Diese multimodale Architektur überbrückt effektiv die Lücke zwischen unstrukturierten dreidimensionalen geometrischen Daten und strukturierten Darstellungen und ermöglicht ein hochgradiges semantisches Verständnis komplexer Szenen.

Open Source ermöglicht: Senkung der Einstiegshürde für verkörperte Intelligenz

Qunhe Technology bietet mit SpatialLM zwei Modellversionen an: SpatialLM-Llama-1B (basierend auf Llama) und SpatialLM-Qwen-0.5B (basierend auf Qwen), mit Parametergrößen von 100 Millionen bzw. 50 Millionen. Im Vergleich zu den derzeit üblichen LLMs mit mehreren Milliarden Parametern sind diese Modelle leicht und effizient. Die Modelle wurden auf Plattformen wie Hugging Face, GitHub und der Moda-Community für Entwickler weltweit freigegeben und werden mit detaillierten Anleitungen und Testdatensätzen (z. B. SpatialLM-Testset mit 107 aus Einzelbild-RGB-Videos rekonstruierten Punktwolkendaten) bereitgestellt. Entwickler können die Inferenz mit einfachen Python-Skripten ausführen und die 3D-Layout-Ergebnisse mit Visualisierungstools (z. B. Rerun) anzeigen.

Die Open-Source-Initiative bietet einen grundlegenden Trainingsrahmen für den Bereich der verkörperten Intelligenz. Zhou Zihang, Chef-Wissenschaftler von Qunhe Technology, erklärt: „SpatialLM soll Unternehmen im Robotikbereich, die nicht über die Fähigkeiten zur Modellentwicklung verfügen, helfen, ihr Raumverständnis durch Feintuning schnell zu verbessern.“ In Kombination mit der zuvor von Qunhe veröffentlichten Open-Source-Plattform für räumliche Intelligenz, SpatialVerse, kann SpatialLM reale Szenen in virtuelle Trainingsumgebungen umwandeln und Milliarden von Simulations-Szenen generieren, wodurch die Trainingskosten und -risiken für Roboter erheblich reduziert werden.

Breite Anwendung: Von der Robotik bis zur Architekturplanung

SpatialLM bietet ein breites Anwendungsspektrum. Im Bereich der verkörperten Intelligenz unterstützt es Roboter bei der Navigation, der Hindernisvermeidung und der Aufgabenbearbeitung in komplexen Umgebungen und bietet eine Kerntechnologie für Smart Homes und Serviceroboter. In der Architekturplanung und -gestaltung kann das Modell Punktwolkendaten von Gebäuden analysieren, automatisch Wände, Türen und Fenster erkennen und so für ein effizientes Design sorgen. Darüber hinaus kann SpatialLM in der Aus- und Weiterbildung für die Entwicklung von 3D-Modellierungssoftware verwendet werden, um Schülern das räumliche Verständnis zu erleichtern. In der AR/VR- und Spieleentwicklung bietet die Funktion zur Generierung virtueller Szenen kostengünstige Lösungen für immersive Erlebnisse.

Die Open-Source-Veröffentlichung von SpatialLM zeigt nicht nur die technischen Fortschritte von Qunhe Technology im Bereich der räumlichen Intelligenz, sondern fördert auch die Verbreitung und Innovation von 3D-Vision-Technologien. Im Vergleich zu Modellen wie Meta's SceneScript zeichnet sich SpatialLM durch seine höhere Universalität aus, da es gewöhnliche Videos als Eingabe verwendet. Zukünftige Iterationen sollen die natürliche Sprachinteraktion und Szeneninteraktion erweitern und die Nutzbarkeit des Modells weiter verbessern.

Projekt: https://huggingface.co/manycore-research/SpatialLM-Llama-1B