OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning
- 解决了什么问题?
- 相关工作
- 端到端自动驾驶
- 多模态语言模型(MLLMs)
- Drive LLM-Agents and Benchmarks
- Drive LLM-Agents
- 基准测试
- 提出了什么方法?
- OmniDrive-Agent
- Preliminaries
- 整体架构
- 多任务和时域建模
- 训练策略
- 2D 预训练
- 3D 微调
- OmniDrive-nuScenes
- 离线问答
- 1. Caption
- 2. Lane-object association
- 3. Simulated trajectories
- 4. Expert trajectory
- 1. Scene description
- 2. Attention
- 3. 反事实推理
- 4. 决策和规划
- 5. 一般会话
- 在线问答
- 1. 2D-to-3D Grounding
- 2. 3D 距离
- 3. Lane-to-objects
- 指标
- 实验
- 实现细节
- Planning with Counterfactual Reasoning
- 消融实验和分析
- 反事实推理和图像描述
- Comparison on NuScenes-QA
- 开环规划
- 可视化
论文链接:https://arxiv.org/abs/2405.01533
代码链接:https://github.com/NVlabs/OmniDrive
解决了什么问题?
最近,多模态大语言模型(MLLMs)取得了突飞猛进的发展,它们在处理复杂的推理任务时表现出色,这些能力已经在端到端自动驾驶中得到了应用。
尽管 MLLMs 在 2D 理解方面表现出色,但要想在真实世界里面完全发挥其潜力,一个急需克服的挑战就是如何将 2D 理解能力拓展到 3D 空间。对于自动驾驶车辆来说,在 3D 空间内理解场景和导航是必要的,因为它们直接影响自动驾驶做决策、预测未来状态,以及与驾驶环境安全互动的能力。尽管之前的工作已经展示了 LLM-Agent 可以成功地应用在自动驾驶领域,但仍然需要一个全面和原则性的方法来完全地将 MMLM 的 2D 理解和推理能力扩展到复杂的 3D 场景中,以理解 3D 几何和空间关系。
另一个问题就是要解决多视图高分辨率的视频输入。一方面,因为视觉编码器分辨率和 LLM token 序列的长度有限,目前大多数的 2D MLLM 架构(如 LLaVA-1.5)只能接受 336 × 336 336\times 336 336×336 分辨率的图像作为输入。增加分辨率会造成计算量和内存占用激增。另一方面,高分辨率视频输入(甚至是多视图的)对于长期感知和安全决策是基本的需求。但是,与基于云端的服务相比,工业级自动驾驶应用通常部署在车端,计算资源有限。于是,非常有必要设计一个高效的 MLLM 架构,该架构能在将数据输入 LLM 之前,压缩 3D 视觉表示。
相关工作
端到端自动驾驶
端到端自动驾驶的目标是创造一个从传感器输入到控制信号的完全可微的系统。该系统允许整个系统进行联合优化,降低累积错误。当前的技术路线图主要有两条路径:开环自动驾驶和闭环自动驾驶。
在开环自动驾驶中,训练和评测都是在日志保存的真实数据集上进行的。该方法忽略了自车和其它交通参与者之间交互影响,可能导致累积错误。UniAD 和 VAD 将模块化的感知任务(目标检测、跟踪、语义分割)整合到统一的规划框架中。但是,Ego-MLP 和 BEV-Planner 强调了开环端到端的驾驶基准测试的局限性,模型可能会过度拟合自车的状态信息,实现不合理的优异表现。
研究人员通过引入闭环基准测试解决了上述问题。MILE、ThinkTwice 和 VADv2 都使用 CARLA 作为模拟器,创造出一个虚拟环境,从其它交通参与者获得反馈。研究人员需要一个合理的方法来评测真实世界里的端到端驾驶系统。MLLMs 模型填补了数据驱动的决策和用户之间的差距,使我们能进行可解释性分析,基于某条轨迹做反事实推理,从而提升自动驾驶系统的安全冗余。
多模态语言模型(MLLMs)
多模态语言模型利用 LLM 和多模态编码器,成功地填补了语言和其它模态之间的差距,在多模态任务(视觉问答、图像描述和开放世界检测任务)上表现良好。一些 MLLMs 如 CLIP 和 ALIGN 利用对比学习,为语言和视觉创建出一个近似的嵌入空间。最近,BLIP-2 直接瞄准多模态任务,以多模态作为输入。对于这些模型,有两个方法来对齐语言和其它模态:自注意力和交叉注意力。
LLaVA、PaLM-E、PaLI 和 RT2 利用自注意力来对齐,将图像 tokens 和文本 tokens 交织或 concat 到一起,得到一个固定长度的序列。但是,自注意力很难处理高分辨率的输入,不适合多相机、高分辨率输入的自动驾驶系统。
Flamingo、Qwen-VL 和 BLIP-2 则使用交叉注意力,不管图像分辨率的大小,可以提取出固定数量的视觉 tokens。鉴于此,本文模型借鉴了 BLIP-2 作为 Q-Former 的架构,处理高分辨率图像。
Drive LLM-Agents and Benchmarks
Drive LLM-Agents
鉴于 LLM/MLLM 在理解和生成语言方面表现出色,而且能将各模态与语言文本对齐,研究人员急于将 MLLMs/LLMs 与自动驾驶系统相结合。大多数的自动驾驶 MLLMs 方法尝试创造出一个可解释的端到端自动驾驶算法。
DriveGPT4 利用 LLMs 来解释车辆的动作,也会预测车辆的下一个控制信号。Drive Anywhere 提出了一个对齐特征提取的方法,使用户可以通过文本查询来了解驾驶决策。其它工作则通过 graph-based VQA(DriveLM) 或思维链来使用 MLLMs。这些方法不仅解决了多个驾驶任务(如预测和规划),也解决了 MLLM 任务(如场景描述和分析)。
基准测试
为了评测自动驾驶感知和规划模块,研究人员提出了多个数据集来评测感知、规划、转向和运动(ONCE, nuPlan, nuScenes, CARLA, Waymo)。但是,为了评测 Drive LLM 方法,我们需要语言注释更加全面的数据集。
- 一些数据集关注于感知和跟踪,包括推理或文本描述,如 nuScenes-QA、nuPrompt。
- HAD 和 Talk2Car 包含了类似人类建议的驾驶指导,以辅助汽车更好地导航。
- LaMPilot 包含的标签,旨在评估从人类指令到驾驶动作的转换。
- 除了场景描述,DRAMA 和 Rank2Tell 关注在危险对象定位上。
- BDD-X 和 Reason2Drive 关注在车辆的可解释性上,提供车辆动作背后的原因解释。
- LingoQA 则在自动驾驶问答数据集中引入了反事实问题。
作者认为,通过将反事实推理应用到 3D 轨迹分析,可进一步提升自动驾驶的可解释性和开环设定下的安全冗余。
提出了什么方法?
在BLIP-2中,query-based decoder 是一种新颖的架构,它使用一组可学习的查询向量(称为queries)来与冻结的图像编码器的特征进行交互,从而提取与文本最相关的视觉特征。这些查询向量在训练过程中随机初始化,并学习从图像特征中提取有用的信息。
Q-Former由两个Transformer子模块组成:图像Transformer和文本Transformer。图像Transformer负责与冻结的图像编码器进行交互,通过cross-attention层提取视觉特征;文本Transformer则处理文本数据,包括encoder和decoder。这两个子模块共享相同的self-attention层,但图像Transformer具有额外的cross-attention层。
在BLIP-2的预训练过程中,Q-Former通过学习如何从冻结的图像编码器中提取与文本最相关的视觉表示,实现了视觉-语言表示学习。在第二阶段,Q-Former的输出连接到一个冻结的大型语言模型(LLM),以获得LLM的生成语言能力。
这种基于query的方法允许模型更灵活地处理不同的视觉-语言任务,并且可以更有效地利用预训练的单模态模型(如图像编码器和语言模型),从而降低了预训练的计算成本。
本文提出了一个 3D MLLM 架构,灵感来自于 BLIP-2 的 Q-Former,如上图所示。LLaVA 采用了自注意力设计,而 Q-Former 采用了交叉注意力解码器,它通过将视觉信息压缩为稀疏的 queries,能够适配高分辨率输入。作者发现,Q-Former 架构与透视视角的模型(如 DETR3D、PETR、StreamPETR 和 Far3D)有着不少相似之处。透视视角的模型在密集的 BEV 表示上使用稀疏的 3D queries,具有不少优势:性能优异、长距离感知、联合建模地图元素的能力。基于 query 的解码器架构使我们能通过向 queries 中添加 3D 位置编码,将它们提升到 3D 空间,并关注多视图输入,从而将 2D 和 3D 世界对齐,如下图左边部分所示。这个过程使 MLLM 能用最小的代价获得 3D 空间理解,同时利用在 2D 图像上丰富的预训练知识。
上图展示了 OmniDrive,它是一个全新的带有 LLM-Agent 的端到端自动驾驶框架。本文的主要贡献包括一个新的模型 OmniDrive-Agent 和一个基准 OmniDrive-nuScenes。OmniDrive-Agent 是一个 3D 视觉-语言模型设计,OmniDrive-nuScenes 是一个针对驾驶场景推理和规划的全面的视觉问答任务。
除了模型架构之外,基准测试也非常重要。许多基准测试以问答数据集的形式为主,用于训练和评测 LLM-Agent 的推理或规划能力。尽管有多种问答设置,面向规划的基准测试仍然依赖于现实世界会话(如 nuScenes)的开环设置,它们使用了专家轨迹。开环评测存在局限性,包括对自车状态的隐性偏见、过于简单的规划场景、容易对专家轨迹过拟合。
于是本文提出了一个新的基准测试 OmniDrive-nuScenes,包含全面的视觉问答任务,如场景描述、交通规则、3D 定位、反事实推理、决策制定和规划。它采用了反事实推理的基准测试设置,利用模拟的决策和轨迹来推理潜在的影响。OmniDrive-nuScenes 基准测试还包括其它需要全面的 3D 空间理解和长期推理的挑战任务。
OmniDrive-Agent
本文旨在设计一个 3D MLMM,包括两个方面,
- 它能利用 2D MLMM 预训练知识,
- 解决自动驾驶领域的高分辨率多视图输入问题。
作者提出了一个 Q-Former 风格的架构,将视觉特征压缩成固定个数的 queries,然后再输入一个 LLM。注意,Q-Former 和基于 query 的 3D 感知框架(如 StreamPETR)之间有相似之处,这些框架使用 queries 来编码动态目标和静态地图元素。这些 queries 和额外的 carrier tokens 构成了一个压缩的世界模型,用于对齐感知、推理和规划。
Preliminaries
基于 Q-Former 的 MLLMs 包括一个通用的视觉编码器(用来提取单视图图像特征 F s ∈ R C × H × W F_s \in \mathbb{R}^{C\times H\times W} Fs∈RC×H×W)、一个 Q-Former 用于对齐视觉和语言的模块,和一个 LLM 用来生成文本。Q-Former 的架构是一组堆叠的 transformer 解码层,从图像特征到文本嵌入的映射过程可以表示为:
Q ~ t = f q ( Q t , F s ) \begin{equation} \begin{split} \tilde{Q}_t = f_q(Q_t, F_s) \end{split} \end{equation} Q~t=fq(Qt,Fs)
其中 Q t Q_t Qt 是初始的文本嵌入。 Q ~ t \tilde{Q}_t Q~t 是优化后的文本嵌入,送入语言模型来生成最终的文本嵌入。
基于 query 的 3D 感知模型包括一个共享的视觉编码器,提取多视图图像特征,以及一个检测头 f d f_d fd。它基于 PETR 改造,使用了 transformer 解码器架构来高效地将多视图图像特征 F m ∈ R N × C × H × W F_m \in \mathbb{R}^{N\times C\times H\times W} Fm∈RN×C×H×W 转换为检测 queries Q ~ d \tilde{Q}_d Q~d,可以表述为:
Q ~ d = f d ( Q d , F m + P m ) \begin{equation} \begin{split} \tilde{Q}_d = f_d(Q_d, F_m+P_m) \end{split} \end{equation} Q~d=fd(Qd,Fm+Pm)
其中, P m P_m Pm 是 3D 位置编码,有效地捕捉到图像视角和 3D 空间的几何关系。 Q d Q_d Qd 是初始的检测 queries,聚合多视图图像特征。
可以发现,Q-Former 的 Transformer 解码器和基于 query 的 3D 感知模型(如 StreamPETR)有着高度相似的架构设计。为了增强 MLMM 的定位能力,作者引入了 3D 位置编码(3D PE)和基于 query 的感知模型(Q-Former3D)的监督。
整体架构
如上图所示,Omnidrive 首先使用一个共享的视觉编码器提取多视图图像的特征 F m ∈ R N × C × H × W F_m \in \mathbb{R}^{N\times C\times H\times W} Fm∈RN×C×H×W。然后将提取出来的特征和位置编码 P m P_m Pm 送入 Q-Former3D。在 Q-Former3D 中,初始化 detection queries 和 carrier queries 后做自注意力(上图右边的 Hybrid Attention),交换它们之间的信息,表述如下:
( Q , K , V ) = ( [ Q c , Q d ] , [ Q c , Q d ] , [ Q c , Q d ] ) , Q ~ = Multi-head Attention ( Q , K , V ) \begin{equation} \begin{split} &(Q, K, V) = (\bm{\left[ Q_c, Q_d \right]}, \bm{\left[ Q_c, Q_d \right]}, \bm{\left[ Q_c, Q_d \right]}),\\ &\tilde{Q} = \text{Multi-head Attention}(Q,K,V) \end{split} \end{equation} (Q,K,V)=([Qc,Qd],[Qc,Qd],[Qc,Qd]),Q~=Multi-head Attention(Q,K,V)
[ ⋅ ] [\cdot] [⋅] 是 concat 操作, Q c Q_c Qc 是 carrier queries, Q d Q_d Qd 是 detection queries。为了简洁一些,作者省去了位置编码。然后用这些 queries 收集多视图图像的信息(上图右边的 Cross Attention):
( Q , K , V ) = ( [ Q c , Q d ] , P m + F m , F m ) , Q ~ = Multi-head Attention ( Q , K , V ) \begin{equation} \begin{split} &(Q, K, V) = (\bm{\left[ Q_c, Q_d \right]}, P_m + F_m, F_m),\\ &\tilde{Q} = \text{Multi-head Attention}(Q,K,V) \end{split} \end{equation} (Q,K,V)=([Qc,Qd],Pm+Fm,Fm),Q~=Multi-head Attention(Q,K,V)
随后,用 perception queries 来预测类别和前景元素的坐标位置。将 carrier queries 送进一个单层的 MLP,对齐 LLM tokens 的维度(在 LLaMA 中是 4096 维),carrier queries 还要用于文本生成。
在本模型中,carrier queries 的用途就是对齐视觉-语言。此外,这项设计让 carrier queries 能利用 3D 位置编码提供的几何先验,也使之能利用 3D 感知任务产生的 query-based 的表示。
多任务和时域建模
本文方法能从多任务学习和时域建模中获益。对于多任务学习,我们可以将各感知任务的 Q-Former3D 模块整合到一起,使用一个统一的初始化策略。在不同的任务中,carrier queries 可以收集不同交通元素的信息。实现时,任务包括了车道中线的构建和3D 目标检测。在训练和推理阶段,这两个头共享 3D 位置编码。
关于时域建模,我们将 top-k 分类得分的 perception queries 存入一个 memory bank 中,逐帧地更新。通过交叉注意力,将新的 queries 和当前帧的 perception queries 和 carrier queries 进行交互,扩展当前模型处理视频输入的能力,使之能有效地处理连续的帧。
训练策略
Omnidrive-agent 的训练包括两个阶段:2D 预训练和 3D 微调。在初始阶段,在 2D 图像任务上预训练 MLLM,初始化 Q-Former 和 carrier queries。然后,在 3D 驾驶任务(如运动规划和 3D grounding)上微调模型。在这俩阶段,只计算文本生成损失,而没有考虑 BLIP-2 中的对比学习和匹配损失。
2D 预训练
2D 预训练的目的是预训练 carrier queries 和 Q-Former,对齐图像特征和 LLM。如果去掉了 detection queries,OmniDrive 模型可以看作为一个标准的视觉语言模型,能够根据图像生成文本描述。因此,作者采用了 LLaVA v1.5 的训练方式和数据,在 2D 图像上预训练 OmniDrive。首先用 55.8 万张图像-文本对来训练 MLLM,冻结除了 Q-Former 的全部参数。随后,用LLaVA v1.5 的指令微调数据来微调 MLLM。在这一步,只冻结图像编码器,其它的参数都将参与训练。
3D 微调
在微调时,我们想要增强模型的 3D 定位能力,尽可能地保留 2D 的语义理解能力。作者用 3D 位置编码和时域模块来增强 Q-Former。在这一阶段,用较低的学习率及 LORA 微调视觉编码器和 LLM。而用稍大一些的学习率来训练 Q-Former3D。
OmniDrive-nuScenes
为了评测驾驶场景的 LLM-Agents,作者提出了一个构建于 nuScenes 的全新的基准,OmniDrive-nuScenes。它具有高质量的视觉问答对,涵盖了 3D 空间的感知、推理和规划。
OmniDrive-nuScenes 拥有一个完全自动化的过程,使用 GPT-4 来生成与自动驾驶相关的问答(QA)数据。与 LLaVA 类似,该流程通过提示输入,将 3D 感知的 ground-truth 数据作为上下文信息。将交通规则和规划模拟作为额外的输入使用,以此降低 GPT-4V 理解 3D 场景的难度。基准测试提出的问题需要模型进行长时域推理,包括注意力、反事实推理和开环规划。这些问题对于模型的 3D 空间理解和规划能力而言,都是不小的挑战,因为它们需要在接下来的几秒内进行规划模拟,获得正确的答案。
除了使用上述流程来进行离线问答会话,本文还提出了一个流程来在线生成各种类型的 grounding 问题。这可以看作是一种隐式的数据增强,增强模型在 3D 空间理解和推理的能力。
离线问答
下图展示了一个离线数据生成流程的例子,在 nuScenes 数据集上使用上下文信息来生成问答对。下面会介绍作者是如何获取不同类型的提示信息的:
1. Caption
同时将图像和很长的场景信息输入 GPT-4V,GPT-4V 可能会忽略图像上的细节。因此,作者首先会提示 GPT-4V,只用多视图的输入来生成场景描述。如下图上半部分所示,作者分别将三个前视画面和三个后视画面合成两张图像,输入 GPT-4V。提示 GPT-4V,包括下面的细节信息:
- 天气、时间、场景类型和其它图像内容;
- 理解每个场景的方向(第一个前视画面是面对左前方)‘
- 避免单独地提到每个画面的内容,而是替换为相对于自车的位置。
2. Lane-object association
对于 GPT-4V,在 3D 空间理解各交通元素(物体、车道线等)的相对空间位置关系非常有挑战性。直接将 3D 物体的坐标和车道线的曲线表达输入给 GPT-4V,推理的效果并不好。因此,作者用一个文件树的形式来表示物体和车道线的关系,根据物体的 3D 边框,将它们的信息转化为自然语言描述。
3. Simulated trajectories
为了做反事实推理,用了两种方式来采样轨迹:
- 根据三个驾驶意图来选择初始车道:保持车道、向左变道、向右变道。然后使用 Depth-first search 算法连接车道中线,获得所有可能的轨迹路径。然后,对于不同的车道,选择不同的完成率和速度目标值(加速、减速、保持车速),从而产生模拟轨迹。
- 只根据车道中线来生成轨迹,很难模拟出“可行驶区域外”的场景,于是作者对 nuScenes 数据集的自车轨迹做聚类,每次都选取最具代表性的轨迹。
4. Expert trajectory
这是 nuScenes 的日志里的轨迹。专家轨迹分为不同的类型。如果一个物体在接下来的 3 秒钟距离自车轨迹的最小距离少于 10 米,则认为它是“近距离”物体。在专家轨迹下会列出近距离的物体。
在上图的下半部分,基于上面的上下文信息,作者介绍了不同类型的 QA:
1. Scene description
直接将上面的 Caption 作为场景描述的答案。
2. Attention
给定模拟轨迹和专家轨迹,进行模拟以识别出近距离物体。同时,让 GPT4 根据它的常识来找出具有威胁性的交通元素。
3. 反事实推理
给定模拟轨迹,进行模拟,以验证该轨迹是否违反了交通规则,如闯红灯、与其它交通参与者发生碰撞、驶出道路边界。
4. 决策和规划
将上述提示和回答的信息作为上下文,用 GPT-4V 推理为什么这条轨迹是安全的。
5. 一般会话
作者也基于描述信息和图像内容(如物体的个数、颜色、相对位置和 OCR-类型等任务),通过多轮会话来提示 GPT-4。作者发现,这个方法能提升模型识别长尾物体的能力。
在线问答
为了充分利用数据集的 3D 感知的标签,作者以在线的方式,在训练过程中生成多个 grounding 任务。具体包括下面三个任务:
1. 2D-to-3D Grounding
给定某相机画面的一个 2D 边框,如 < FRONT , 0.45 , 0.56 , 0.72 , 0.87 > <\text{FRONT}, 0.45, 0.56, 0.72, 0.87> <FRONT,0.45,0.56,0.72,0.87>,模型需要提供出这个物体的 3D 属性,包括 3D 类别、位置、大小、朝向角和速度。
2. 3D 距离
基于随机生成的 3D 坐标,找出靠近这个位置的交通元素,提供出该交通元素的 3D 属性。
3. Lane-to-objects
根据随机选择的车道中线,列出该车道上的物体以及它们的 3D 属性。
指标
Omnidrive 包括了图像描述、开环规划和反事实推理三个任务。每个都有不同的侧重点,很难用一个指标来评测它们。
对于图像描述任务,如场景描述和受关注物体的选择,作者通过常用的语言指标来评测句子的相似度,如 METEOR、ROUGE 和 CIDEr。
参考了 BEV-Planner,作者使用了碰撞率和与道路边缘的重叠率来评测开环规划。
为了评测反事实推理,要求 GPT-3.5 从预测结果中提取关键词。这些关键词包括“安全”、“碰撞”、“闯红灯”和“驶出可行驶区域”。然后比较提取的关键词和 ground-truth,计算出每种交通事故的精度和召回率。
实验
实现细节
作者将 EVA-02-L 作为本模型的视觉编码器使用。它使用 masked image modeling 技术来学习 CLIP 的能力,以便能提取出与语言描述相匹配的视觉特征。
在图像处理中,masked image modeling 涉及在图像的某些部分上掩盖或遮挡信息,然后训练模型来预测这些被掩盖的部分。这有助于模型学习图像的全局和局部特征。
在 2D 预训练时,训练数据和策略(batch size、学习率和优化器)都和 LLaVA v1.5 保持一致。在微调阶段,模型用 AdamW 优化器训练,batch size 是 16。Q-Former 的学习率设为了 4 e − 4 4e-4 4e−4,而视觉编码器和 LLM 的学习率为 5 e − 4 5e-4 5e−4。为了使训练稳定一些,使用了余弦退火策略。模型训练了 6 个 epochs。Object queries、lane queries 和 carrier queries 的个数分别是 900、300 和 256 个。
作者也探索了其它结构。用 2D 预训练权重初始化 Q-Former2D。在 Q-Former 中,单独地处理图像特征,然后用 LLM 融合起来。密集的BEV 方法使用了 LSS 来将透视视角的特征变换为 BEV 特征图。本文参考了 SOLOFusion 来实现时域建模。不断地将 BEV 特征输入一个 MLP projector 和 LLM。
Planning with Counterfactual Reasoning
基于 Omnidrive-nuScenes,作者对训练策略和模型架构做了各种改动。下表中所有的分析都不涉及高层级指令和自车状态。我们可以发现,反事实指标和开环规划之间有着一定的关系。
我们可以发现,Q-Former2D 在 2D 任务上的表现要更好,如判断红绿灯的状态。但是,Q-Former3D 在 3D 任务(碰撞检测,精度是 32.3 % 32.3\% 32.3%,召回率是 72.6 % 72.6\% 72.6%;可行驶区域识别,精度是 48.5 % 48.5\% 48.5%,召回率是 58.6 % 58.6\% 58.6%)上要表现得更好。带有车道中线任务的模型(即 Full Model)的表现要优于没有可行驶区域任务的车道线监督的模型。
消融实验和分析
反事实推理和图像描述
在下表中,Full Model 在反事实推理方面取得了最佳的表现。,平均精度是 52.3 % 52.3\% 52.3%、平均召回率是 59.6 % 59.6\% 59.6%。
更重要的是,Q-Former3D 对本模型的帮助非常显著,在图像描述任务上取得了与 Q-Former2D 相似的表现,METEOR 分数为 38 % 38\% 38%、CIDEr 分数为 68.6 % 68.6\% 68.6%、ROUGE 分数是 32.6 32.6 32.6。此外,该模型能同时处理多视图输入,而 Q-Former2D 只能单一视图的处理,需要非常多的 tokens( 1500 + 1500+ 1500+) 作为 LLM 的输入。由于无法从 2D 预训练中获益,密集 BEV 模型的表现是最差的。我们也可发现,对于图像描述任务而言,引入额外的 3D 监督和时域信息并不能带来明显的提升。
Comparison on NuScenes-QA
在下表中,作者列举了在 NuScenes-QA 上测试的结果。NuScenes-QA 的大多数答案都是单个单词,只和感知有关系。在相同的设定下,本文模型的准确率要比 BEVDet+MCAN 高 1.3 % 1.3\% 1.3%,证明预训练的重要作用。本方法的表现和基于激光雷达的模型接近。
开环规划
在下表中,作者将 Omnidrive 和之前 SOTA 的纯视觉规划方法做了比较。MLMM 的开环规划方法能取得差不多的表现。但是,作者发现,编码了自车状态后,能显著地提升各方法的指标。此外,作者发现高层级指令能大幅度降低碰撞率和重叠率。之前的方法会根据 ground-truth 轨迹的相对位置来提供高层级指令,这给网络的回归任务施加了很强的约束,使规划轨迹不会偏离 ground-truth 轨迹太远。作者认为这项设计是不合理的,所以在其它的实验里面排除了这项设定。
可视化
下图展示了一个具有挑战性的场景。Omnidrive-Agent 在场景描述和反事实推理方面都表现不错。该模型能基本理解相对位置关系,基于给定的轨迹和安全因素来准确地做出反事实的推理。