DriveVLM

Fusion de la conduite autonome et des modèles linguistiques visuels

Produit OrdinaireAutreConduite autonomeModèles linguistiques visuels

DriveVLM est un système de conduite autonome qui utilise les modèles linguistiques visuels (VLMs) pour améliorer la compréhension des scènes et les capacités de planification. Ce système utilise une combinaison unique de modules d'inférence, incluant la description de scène, l'analyse de scène et la planification hiérarchique, afin d'améliorer la compréhension des scènes complexes et des cas atypiques. De plus, pour pallier les limites des VLMs en termes d'inférence spatiale et de besoins en calcul, DriveVLM-Dual a été proposé. Il s'agit d'un système hybride qui combine les avantages de DriveVLM et les processus traditionnels de conduite autonome. Des expériences menées sur les ensembles de données nuScenes et SUP-AD montrent que DriveVLM et DriveVLM-Dual sont très efficaces pour gérer des conditions de conduite complexes et imprévisibles. Enfin, DriveVLM-Dual a été déployé sur des véhicules de production, confirmant son efficacité en environnement de conduite autonome réel.

Accepte des séquences d'images en entrée et produit une prédiction de planification hiérarchique via un mécanisme de chaîne de pensée (CoT) basé sur le raisonnement.
Peut intégrer des modules de perception 3D et de planification de trajectoire traditionnels pour obtenir des capacités d'inférence spatiale et de planification de trajectoire en temps réel.
Processus d'extraction et d'annotation de données pour construire un ensemble de données de compréhension de scène.
Annotation de scènes par une équipe d'annotateurs
comprenant la description de scène
l'analyse de scène et la planification.
Expérimentations sur les ensembles de données nuScenes et SUP-AD pour valider l'efficacité du système.
Déploiement de DriveVLM-Dual sur des véhicules de production pour valider son efficacité dans un environnement de conduite autonome réel.

DriveVLM cible les chercheurs et ingénieurs du domaine de la conduite autonome
ainsi que les entreprises et organisations souhaitant améliorer la compréhension de scène et les capacités de planification de leurs systèmes de conduite autonome. Cette technologie est particulièrement adaptée aux systèmes de conduite autonome devant gérer des scènes complexes et atypiques dans des environnements urbains.

En environnement urbain
DriveVLM est capable d'identifier et de gérer des conditions routières complexes et des comportements humains subtils.
Le déploiement de DriveVLM-Dual sur des véhicules de production démontre son utilité dans un environnement de conduite autonome réel.
Les expériences menées sur l'ensemble de données nuScenes prouvent l'efficacité de DriveVLM pour gérer des conditions de conduite complexes et imprévisibles.

1. Préparer une séquence d'images en tant que données d'entrée.
2. Introduire la séquence d'images dans le modèle DriveVLM.
3. Utiliser le mécanisme d'inférence de DriveVLM pour la description
l'analyse et la planification de la scène.
4. Si nécessaire

Ouvrir le site Web

DriveVLM Dernière situation du trafic

Nombre total de visites mensuelles

2156

Taux de rebond

55.19%

Nombre moyen de pages par visite

1.1

Durée moyenne de la visite

00:00:54

DriveVLM Tendance des visites

DriveVLM Distribution géographique des visites

DriveVLM Sources de trafic

DriveVLM Alternatives

DriveVLM — Fusion de la conduite autonome et des modèles linguistiques visuels

Autre

•Conduite autonome•Modèles linguistiques visuels

198

R1-V — Améliore la capacité de généralisation des modèles linguistiques visuels renforcés à faible coût, pour moins de 3 dollars.

Programmation

•Apprentissage par renforcement•Modèles linguistiques visuels

222

OpenEMMA — Modèle multimodal de conduite autonome de bout en bout, open source

Productivité

•Conduite autonome•Modèle de bout en bout

144

vision-parse — Utilise des modèles linguistiques visuels pour convertir des PDF en Markdown.

Productivité

•Analyse PDF•Conversion Markdown

240

DiffusionDrive — Modèle de diffusion tronquée pour la conduite autonome en temps réel de bout en bout

Productivité

•conduite autonome•bout en bout

Nous, Robots — La vision de Tesla pour l'avenir de la conduite autonome et de la robotique

Autre

•Conduite autonome•Robotique

156

Depth Pro — Modèle d'estimation de profondeur monoculaire haute précision

Image

•Estimation de profondeur•Vision par ordinateur

240

OmniRe — Technique de reconstruction de scènes urbaines dynamiques haute fidélité

Image

•Reconstruction 3D•Scène dynamique

204

Amélioration du service d'annotation Boden (BASE) — Fournisseur professionnel de solutions de données

Sélection Nationale

•Intelligence Artificielle•Annotation de données

486

GenAD — Modèle de génération vidéo à grande échelle pour la conduite autonome

Productivité

•Conduite autonome•Génération vidéo

612

LangSplat — Construction efficace de champs linguistiques 3D

Programmation

•3D•Modèle linguistique

768

GAIA-1 — Modèle de monde génératif universel de 4 milliards de paramètres, développé par Ambers.

Affaires

•IA générative•Conduite autonome

234

Best AI Websites & Tools

DriveVLM

DriveVLM Dernière situation du trafic

DriveVLM Tendance des visites

DriveVLM Distribution géographique des visites

DriveVLM Sources de trafic

DriveVLM Alternatives

DriveVLM — Fusion de la conduite autonome et des modèles linguistiques visuels

R1-V — Améliore la capacité de généralisation des modèles linguistiques visuels renforcés à faible coût, pour moins de 3 dollars.

OpenEMMA — Modèle multimodal de conduite autonome de bout en bout, open source

vision-parse — Utilise des modèles linguistiques visuels pour convertir des PDF en Markdown.

DiffusionDrive — Modèle de diffusion tronquée pour la conduite autonome en temps réel de bout en bout

Nous, Robots — La vision de Tesla pour l'avenir de la conduite autonome et de la robotique

Depth Pro — Modèle d'estimation de profondeur monoculaire haute précision

OmniRe — Technique de reconstruction de scènes urbaines dynamiques haute fidélité

Amélioration du service d'annotation Boden (BASE) — Fournisseur professionnel de solutions de données

GenAD — Modèle de génération vidéo à grande échelle pour la conduite autonome

LangSplat — Construction efficace de champs linguistiques 3D

GAIA-1 — Modèle de monde génératif universel de 4 milliards de paramètres, développé par Ambers.