DriveVLM

自动驾驶与视觉语言模型的融合

普通产品其他自动驾驶视觉语言模型

DriveVLM是一个自动驾驶系统，它利用视觉语言模型(VLMs)来增强场景理解和规划能力。该系统通过独特的推理模块组合，包括场景描述、场景分析和分层规划，以提高对复杂和长尾场景的理解。此外，为了解决VLMs在空间推理和计算需求上的局限性，提出了DriveVLM-Dual，这是一个混合系统，结合了DriveVLM的优势和传统自动驾驶流程。在nuScenes数据集和SUP-AD数据集上的实验表明，DriveVLM和DriveVLM-Dual在处理复杂和不可预测的驾驶条件方面非常有效。最终，DriveVLM-Dual在生产车辆上进行了部署，验证了其在现实世界自动驾驶环境中的有效性。

接受图像序列作为输入，通过基于推理的思考链(CoT)机制输出分层规划预测。
可选地结合传统的3D感知和轨迹规划模块，实现空间推理能力和实时轨迹规划。
数据挖掘和注释流程，构建场景理解数据集。
使用注释者团队进行场景注释，包括场景描述、场景分析和规划。
在nuScenes数据集和SUP-AD数据集上进行实验，验证系统的有效性。
DriveVLM-Dual在生产车辆上部署，验证其在现实世界自动驾驶环境中的有效性。

DriveVLM的目标受众包括自动驾驶领域的研究人员和工程师，以及希望提高自动驾驶系统场景理解和规划能力的企业和组织。该技术特别适合需要处理城市环境中复杂和长尾场景的自动驾驶系统。

在城市环境中，DriveVLM能够识别并处理复杂的道路条件和微妙的人类行为。
DriveVLM-Dual在生产车辆上的部署，展示了其在真实世界自动驾驶环境中的实用性。
在nuScenes数据集上的实验，证明了DriveVLM在处理复杂和不可预测的驾驶条件方面的有效性。

1. 准备图像序列作为输入数据。
2. 将图像序列输入DriveVLM模型。
3. 利用DriveVLM的推理机制进行场景描述、分析和规划。
4. 根据需要，可选地结合3D感知和轨迹规划模块。
5. 从DriveVLM模型获取分层规划预测结果。

打开网站

DriveVLM 最新流量情况

月总访问量

3228

跳出率

54.52%

平均页面访问数

1.1

平均访问时长

00:00:09

DriveVLM 访问量趋势

DriveVLM 访问地理位置分布

DriveVLM 流量来源

DriveVLM 替代品

Best AI Websites & Tools

DriveVLM

DriveVLM 最新流量情况

DriveVLM 访问量趋势

DriveVLM 访问地理位置分布

DriveVLM 流量来源

DriveVLM 替代品

R1-V — 低成本强化视觉语言模型的泛化能力，仅需不到3美元。

Ollama OCR for web — 一个强大的OCR包，使用最先进的视觉语言模型提取图像中的文本。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

NVIDIA Cosmos — NVIDIA Cosmos是用于物理AI开发的世界基础模型平台。

OpenEMMA — 开源的端到端自动驾驶多模态模型

cogagent-9b-20241220 — CogAgent-9B-20241220是基于视觉语言模型的GUI代理模型。

vision-parse — 利用视觉语言模型将PDF解析为Markdown。

CogAgent — 开源的端到端视觉语言模型（VLM）基础的GUI代理

DeepSeek-VL2-Tiny — 先进的大型混合专家视觉语言模型

POINTS-Yi-1.5-9B-Chat — 视觉语言模型的最新进展，集成微信AI的新技术

POINTS-Qwen-2-5-7B-Chat — 视觉语言模型的最新进展

POINTS-1-5-Qwen-2-5-7B-Chat — 领先视觉语言模型，支持双语及高质量控制，免费。

DeepSeek-VL2 — 先进的多模态理解模型，融合视觉与语言能力。

OpenGVLab InternVL — 一款AI视觉语言模型，提供图像分析和描述服务。

Florence-VL — 视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

Qwen2-VL-7B — Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

Qwen2-VL-2B — 最先进的视觉语言模型，支持多模态理解和文本生成。

PaliGemma 2 — PaliGemma 2是功能强大的视觉语言模型，简单易调优。

智趣AI甄选 — 探索AI前沿，精选国内外AI产品与应用。

DiffusionDrive — 实时端到端自动驾驶的截断扩散模型

SmolVLM — 高效开源的视觉语言模型

LLaVA-o1 — 视觉语言模型，能够进行逐步推理

Aquila-VL-2B-llava-qwen — 视觉语言模型，结合图像和文本信息进行智能处理。

PromptFix — 根据人类指令修复和编辑照片的框架

OmniParser — 基于纯视觉的图形用户界面代理解析器

VisRAG — 基于视觉语言模型的检索增强型生成模型

ColPali — 视觉语言模型高效文档检索工具

We, Robot — 特斯拉自动驾驶技术与机器人的未来愿景

Depth Pro — 高精度单目深度估计模型