DriveVLM

Fusion von automatischem Fahren und visuellen Sprachmodellen

Normales ProduktAndereAutonomes FahrenVisuelle Sprachmodelle

DriveVLM ist ein autonomes Fahrsystem, das visuelle Sprachmodelle (VLMs) nutzt, um das Szenenverständnis und die Planung zu verbessern. Das System verwendet eine einzigartige Kombination von Inferenzmodulen, darunter Szenenbeschreibung, Szenenanalyse und hierarchische Planung, um das Verständnis komplexer und unvorhergesehener Szenarien zu verbessern. Um die Einschränkungen von VLMs in Bezug auf räumliches Schlussfolgern und Rechenbedarf zu bewältigen, wurde DriveVLM-Dual entwickelt, ein hybrides System, das die Vorteile von DriveVLM mit traditionellen autonomen Fahrprozessen kombiniert. Experimente auf den Datensätzen nuScenes und SUP-AD zeigen, dass DriveVLM und DriveVLM-Dual bei der Bewältigung komplexer und unvorhersehbarer Fahrbedingungen sehr effektiv sind. Schließlich wurde DriveVLM-Dual in Serienfahrzeugen eingesetzt, um seine Wirksamkeit im realen Umfeld des autonomen Fahrens zu verifizieren.

Nimmt Bildsequenzen als Eingabe entgegen und gibt mithilfe eines auf Inferenz basierenden Chain-of-Thought (CoT)-Mechanismus hierarchische Planungsprognose aus.
Integriert optional traditionelle 3D-Wahrnehmungs- und Trajektorienplanungsmodule
um räumliches Schlussfolgern und Echtzeit-Trajektorienplanung zu ermöglichen.
Datenextraktion und Annotationsprozess zum Erstellen von Datensätzen zum Szenenverständnis.
Verwendung eines Annotationteams für Szenenannotationen
einschließlich Szenenbeschreibung
Szenenanalyse und Planung.
Experimente auf den Datensätzen nuScenes und SUP-AD zur Validierung der Systemeffektivität.
DriveVLM-Dual wurde in Serienfahrzeugen eingesetzt
um seine Wirksamkeit im realen Umfeld des autonomen Fahrens zu validieren.

Die Zielgruppe von DriveVLM umfasst Forscher und Ingenieure im Bereich des autonomen Fahrens sowie Unternehmen und Organisationen
die das Szenenverständnis und die Planung ihrer autonomen Fahrsysteme verbessern möchten. Die Technologie eignet sich besonders für autonome Fahrsysteme
die komplexe und unvorhergesehene Szenarien in städtischen Umgebungen bewältigen müssen.

In städtischen Umgebungen kann DriveVLM komplexe Straßenverhältnisse und subtile menschliche Verhaltensweisen erkennen und verarbeiten.
Der Einsatz von DriveVLM-Dual in Serienfahrzeugen zeigt seine Praxistauglichkeit im realen Umfeld des autonomen Fahrens.
Experimente auf dem nuScenes-Datensatz belegen die Wirksamkeit von DriveVLM bei der Bewältigung komplexer und unvorhersehbarer Fahrbedingungen.