OmniDrive 论文学习

OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

解决了什么问题？
相关工作
- 端到端自动驾驶
- 多模态语言模型（MLLMs）
- Drive LLM-Agents and Benchmarks
- - Drive LLM-Agents
  - 基准测试
提出了什么方法？
- OmniDrive-Agent
- - Preliminaries
  - 整体架构
  - 多任务和时域建模
  - 训练策略
  - - 2D 预训练
    - 3D 微调
- OmniDrive-nuScenes
- - 离线问答
  - - 1. Caption
    - 2. Lane-object association
    - 3. Simulated trajectories
    - 4. Expert trajectory
    - 1. Scene description
    - 2. Attention
    - 3. 反事实推理
    - 4. 决策和规划
    - 5. 一般会话
  - 在线问答
  - - 1. 2D-to-3D Grounding
    - 2. 3D 距离
    - 3. Lane-to-objects
  - 指标
实验
- 实现细节
- Planning with Counterfactual Reasoning
- 消融实验和分析
- - 反事实推理和图像描述
  - Comparison on NuScenes-QA
- 开环规划
- 可视化

论文链接：https://arxiv.org/abs/2405.01533
代码链接：https://github.com/NVlabs/OmniDrive

解决了什么问题？

最近，多模态大语言模型（MLLMs）取得了突飞猛进的发展，它们在处理复杂的推理任务时表现出色，这些能力已经在端到端自动驾驶中得到了应用。

尽管 MLLMs 在 2D 理解方面表现出色，但要想在真实世界里面完全发挥其潜力，一个急需克服的挑战就是如何将 2D 理解能力拓展到 3D 空间。对于自动驾驶车辆来说，在 3D 空间内理解场景和导航是必要的，因为它们直接影响自动驾驶做决策、预测未来状态，以及与驾驶环境安全互动的能力。尽管之前的工作已经展示了 LLM-Agent 可以成功地应用在自动驾驶领域，但仍然需要一个全面和原则性的方法来完全地将 MMLM 的 2D 理解和推理能力扩展到复杂的 3D 场景中，以理解 3D 几何和空间关系。

另一个问题就是要解决多视图高分辨率的视频输入。一方面，因为视觉编码器分辨率和 LLM token 序列的长度有限，目前大多数的 2D MLLM 架构（如 LLaVA-1.5）只能接受 $336\times 336$ 分辨率的图像作为输入。增加分辨率会造成计算量和内存占用激增。另一方面，高分辨率视频输入（甚至是多视图的）对于长期感知和安全决策是基本的需求。但是，与基于云端的服务相比，工业级自动驾驶应用通常部署在车端，计算资源有限。于是，非常有必要设计一个高效的 MLLM 架构，该架构能在将数据输入 LLM 之前，压缩 3D 视觉表示。

提出了什么方法？

在BLIP-2中，query-based decoder 是一种新颖的架构，它使用一组可学习的查询向量（称为queries）来与冻结的图像编码器的特征进行交互，从而提取与文本最相关的视觉特征。这些查询向量在训练过程中随机初始化，并学习从图像特征中提取有用的信息。

Q-Former由两个Transformer子模块组成：图像Transformer和文本Transformer。图像Transformer负责与冻结的图像编码器进行交互，通过cross-attention层提取视觉特征；文本Transformer则处理文本数据，包括encoder和decoder。这两个子模块共享相同的self-attention层，但图像Transformer具有额外的cross-attention层。

在BLIP-2的预训练过程中，Q-Former通过学习如何从冻结的图像编码器中提取与文本最相关的视觉表示，实现了视觉-语言表示学习。在第二阶段，Q-Former的输出连接到一个冻结的大型语言模型（LLM），以获得LLM的生成语言能力。

这种基于query的方法允许模型更灵活地处理不同的视觉-语言任务，并且可以更有效地利用预训练的单模态模型（如图像编码器和语言模型），从而降低了预训练的计算成本。

本文提出了一个 3D MLLM 架构，灵感来自于 BLIP-2 的 Q-Former，如上图所示。LLaVA 采用了自注意力设计，而 Q-Former 采用了交叉注意力解码器，它通过将视觉信息压缩为稀疏的 queries，能够适配高分辨率输入。作者发现，Q-Former 架构与透视视角的模型（如 DETR3D、PETR、StreamPETR 和 Far3D）有着不少相似之处。透视视角的模型在密集的 BEV 表示上使用稀疏的 3D queries，具有不少优势：性能优异、长距离感知、联合建模地图元素的能力。基于 query 的解码器架构使我们能通过向 queries 中添加 3D 位置编码，将它们提升到 3D 空间，并关注多视图输入，从而将 2D 和 3D 世界对齐，如下图左边部分所示。这个过程使 MLLM 能用最小的代价获得 3D 空间理解，同时利用在 2D 图像上丰富的预训练知识。

上图展示了 OmniDrive，它是一个全新的带有 LLM-Agent 的端到端自动驾驶框架。本文的主要贡献包括一个新的模型 OmniDrive-Agent 和一个基准 OmniDrive-nuScenes。OmniDrive-Agent 是一个 3D 视觉-语言模型设计，OmniDrive-nuScenes 是一个针对驾驶场景推理和规划的全面的视觉问答任务。

除了模型架构之外，基准测试也非常重要。许多基准测试以问答数据集的形式为主，用于训练和评测 LLM-Agent 的推理或规划能力。尽管有多种问答设置，面向规划的基准测试仍然依赖于现实世界会话（如 nuScenes）的开环设置，它们使用了专家轨迹。开环评测存在局限性，包括对自车状态的隐性偏见、过于简单的规划场景、容易对专家轨迹过拟合。

于是本文提出了一个新的基准测试 OmniDrive-nuScenes，包含全面的视觉问答任务，如场景描述、交通规则、3D 定位、反事实推理、决策制定和规划。它采用了反事实推理的基准测试设置，利用模拟的决策和轨迹来推理潜在的影响。OmniDrive-nuScenes 基准测试还包括其它需要全面的 3D 空间理解和长期推理的挑战任务。

OmniDrive-Agent

本文旨在设计一个 3D MLMM，包括两个方面，

它能利用 2D MLMM 预训练知识，
解决自动驾驶领域的高分辨率多视图输入问题。

作者提出了一个 Q-Former 风格的架构，将视觉特征压缩成固定个数的 queries，然后再输入一个 LLM。注意，Q-Former 和基于 query 的 3D 感知框架（如 StreamPETR）之间有相似之处，这些框架使用 queries 来编码动态目标和静态地图元素。这些 queries 和额外的 carrier tokens 构成了一个压缩的世界模型，用于对齐感知、推理和规划。

Preliminaries

基于 Q-Former 的 MLLMs 包括一个通用的视觉编码器（用来提取单视图图像特征 $F_s \in \mathbb{R}^{C\times H\times W}$ ）、一个 Q-Former 用于对齐视觉和语言的模块，和一个 LLM 用来生成文本。Q-Former 的架构是一组堆叠的 transformer 解码层，从图像特征到文本嵌入的映射过程可以表示为：

$\begin{equation} \begin{split} \tilde{Q}_t = f_q(Q_t, F_s) \end{split} \end{equation}$

其中 $Q_t$ 是初始的文本嵌入。 $\tilde{Q}_t$ 是优化后的文本嵌入，送入语言模型来生成最终的文本嵌入。

基于 query 的 3D 感知模型包括一个共享的视觉编码器，提取多视图图像特征，以及一个检测头 $f_d$ 。它基于 PETR 改造，使用了 transformer 解码器架构来高效地将多视图图像特征 $F_m \in \mathbb{R}^{N\times C\times H\times W}$ 转换为检测 queries $\tilde{Q}_d$ ，可以表述为：

$\begin{equation} \begin{split} \tilde{Q}_d = f_d(Q_d, F_m+P_m) \end{split} \end{equation}$

其中， $P_m$ 是 3D 位置编码，有效地捕捉到图像视角和 3D 空间的几何关系。 $Q_d$ 是初始的检测 queries，聚合多视图图像特征。

可以发现，Q-Former 的 Transformer 解码器和基于 query 的 3D 感知模型（如 StreamPETR）有着高度相似的架构设计。为了增强 MLMM 的定位能力，作者引入了 3D 位置编码（3D PE）和基于 query 的感知模型（Q-Former3D）的监督。

整体架构

如上图所示，Omnidrive 首先使用一个共享的视觉编码器提取多视图图像的特征 $F_m \in \mathbb{R}^{N\times C\times H\times W}$ 。然后将提取出来的特征和位置编码 $P_m$ 送入 Q-Former3D。在 Q-Former3D 中，初始化 detection queries 和 carrier queries 后做自注意力(上图右边的 Hybrid Attention)，交换它们之间的信息，表述如下：

$\begin{equation} \begin{split} &(Q, K, V) = (\bm{\left[ Q_c, Q_d \right]}, \bm{\left[ Q_c, Q_d \right]}, \bm{\left[ Q_c, Q_d \right]}),\\ &\tilde{Q} = \text{Multi-head Attention}(Q,K,V) \end{split} \end{equation}$

$[\cdot]$ 是 concat 操作， $Q_c$ 是 carrier queries， $Q_d$ 是 detection queries。为了简洁一些，作者省去了位置编码。然后用这些 queries 收集多视图图像的信息（上图右边的 Cross Attention）：

$\begin{equation} \begin{split} &(Q, K, V) = (\bm{\left[ Q_c, Q_d \right]}, P_m + F_m, F_m),\\ &\tilde{Q} = \text{Multi-head Attention}(Q,K,V) \end{split} \end{equation}$

随后，用 perception queries 来预测类别和前景元素的坐标位置。将 carrier queries 送进一个单层的 MLP，对齐 LLM tokens 的维度（在 LLaMA 中是 4096 维），carrier queries 还要用于文本生成。

在本模型中，carrier queries 的用途就是对齐视觉-语言。此外，这项设计让 carrier queries 能利用 3D 位置编码提供的几何先验，也使之能利用 3D 感知任务产生的 query-based 的表示。

多任务和时域建模

本文方法能从多任务学习和时域建模中获益。对于多任务学习，我们可以将各感知任务的 Q-Former3D 模块整合到一起，使用一个统一的初始化策略。在不同的任务中，carrier queries 可以收集不同交通元素的信息。实现时，任务包括了车道中线的构建和3D 目标检测。在训练和推理阶段，这两个头共享 3D 位置编码。

关于时域建模，我们将 top-k 分类得分的 perception queries 存入一个 memory bank 中，逐帧地更新。通过交叉注意力，将新的 queries 和当前帧的 perception queries 和 carrier queries 进行交互，扩展当前模型处理视频输入的能力，使之能有效地处理连续的帧。

训练策略

Omnidrive-agent 的训练包括两个阶段：2D 预训练和 3D 微调。在初始阶段，在 2D 图像任务上预训练 MLLM，初始化 Q-Former 和 carrier queries。然后，在 3D 驾驶任务（如运动规划和 3D grounding）上微调模型。在这俩阶段，只计算文本生成损失，而没有考虑 BLIP-2 中的对比学习和匹配损失。

2D 预训练

2D 预训练的目的是预训练 carrier queries 和 Q-Former，对齐图像特征和 LLM。如果去掉了 detection queries，OmniDrive 模型可以看作为一个标准的视觉语言模型，能够根据图像生成文本描述。因此，作者采用了 LLaVA v1.5 的训练方式和数据，在 2D 图像上预训练 OmniDrive。首先用 55.8 万张图像-文本对来训练 MLLM，冻结除了 Q-Former 的全部参数。随后，用LLaVA v1.5 的指令微调数据来微调 MLLM。在这一步，只冻结图像编码器，其它的参数都将参与训练。

3D 微调

在微调时，我们想要增强模型的 3D 定位能力，尽可能地保留 2D 的语义理解能力。作者用 3D 位置编码和时域模块来增强 Q-Former。在这一阶段，用较低的学习率及 LORA 微调视觉编码器和 LLM。而用稍大一些的学习率来训练 Q-Former3D。

OmniDrive-nuScenes

为了评测驾驶场景的 LLM-Agents，作者提出了一个构建于 nuScenes 的全新的基准，OmniDrive-nuScenes。它具有高质量的视觉问答对，涵盖了 3D 空间的感知、推理和规划。

OmniDrive-nuScenes 拥有一个完全自动化的过程，使用 GPT-4 来生成与自动驾驶相关的问答(QA)数据。与 LLaVA 类似，该流程通过提示输入，将 3D 感知的 ground-truth 数据作为上下文信息。将交通规则和规划模拟作为额外的输入使用，以此降低 GPT-4V 理解 3D 场景的难度。基准测试提出的问题需要模型进行长时域推理，包括注意力、反事实推理和开环规划。这些问题对于模型的 3D 空间理解和规划能力而言，都是不小的挑战，因为它们需要在接下来的几秒内进行规划模拟，获得正确的答案。

除了使用上述流程来进行离线问答会话，本文还提出了一个流程来在线生成各种类型的 grounding 问题。这可以看作是一种隐式的数据增强，增强模型在 3D 空间理解和推理的能力。

离线问答

下图展示了一个离线数据生成流程的例子，在 nuScenes 数据集上使用上下文信息来生成问答对。下面会介绍作者是如何获取不同类型的提示信息的：

1. Caption

同时将图像和很长的场景信息输入 GPT-4V，GPT-4V 可能会忽略图像上的细节。因此，作者首先会提示 GPT-4V，只用多视图的输入来生成场景描述。如下图上半部分所示，作者分别将三个前视画面和三个后视画面合成两张图像，输入 GPT-4V。提示 GPT-4V，包括下面的细节信息：

天气、时间、场景类型和其它图像内容；
理解每个场景的方向（第一个前视画面是面对左前方）‘
避免单独地提到每个画面的内容，而是替换为相对于自车的位置。

2. Lane-object association

对于 GPT-4V，在 3D 空间理解各交通元素（物体、车道线等）的相对空间位置关系非常有挑战性。直接将 3D 物体的坐标和车道线的曲线表达输入给 GPT-4V，推理的效果并不好。因此，作者用一个文件树的形式来表示物体和车道线的关系，根据物体的 3D 边框，将它们的信息转化为自然语言描述。

3. Simulated trajectories

为了做反事实推理，用了两种方式来采样轨迹：

根据三个驾驶意图来选择初始车道：保持车道、向左变道、向右变道。然后使用 Depth-first search 算法连接车道中线，获得所有可能的轨迹路径。然后，对于不同的车道，选择不同的完成率和速度目标值（加速、减速、保持车速），从而产生模拟轨迹。
只根据车道中线来生成轨迹，很难模拟出“可行驶区域外”的场景，于是作者对 nuScenes 数据集的自车轨迹做聚类，每次都选取最具代表性的轨迹。

4. Expert trajectory

这是 nuScenes 的日志里的轨迹。专家轨迹分为不同的类型。如果一个物体在接下来的 3 秒钟距离自车轨迹的最小距离少于 10 米，则认为它是“近距离”物体。在专家轨迹下会列出近距离的物体。

在上图的下半部分，基于上面的上下文信息，作者介绍了不同类型的 QA：

1. Scene description

直接将上面的 Caption 作为场景描述的答案。

2. Attention

给定模拟轨迹和专家轨迹，进行模拟以识别出近距离物体。同时，让 GPT4 根据它的常识来找出具有威胁性的交通元素。

3. 反事实推理

给定模拟轨迹，进行模拟，以验证该轨迹是否违反了交通规则，如闯红灯、与其它交通参与者发生碰撞、驶出道路边界。

4. 决策和规划

将上述提示和回答的信息作为上下文，用 GPT-4V 推理为什么这条轨迹是安全的。

5. 一般会话

作者也基于描述信息和图像内容（如物体的个数、颜色、相对位置和 OCR-类型等任务），通过多轮会话来提示 GPT-4。作者发现，这个方法能提升模型识别长尾物体的能力。

在线问答

为了充分利用数据集的 3D 感知的标签，作者以在线的方式，在训练过程中生成多个 grounding 任务。具体包括下面三个任务：

1. 2D-to-3D Grounding

给定某相机画面的一个 2D 边框，如 $<\text{FRONT}, 0.45, 0.56, 0.72, 0.87>$ ，模型需要提供出这个物体的 3D 属性，包括 3D 类别、位置、大小、朝向角和速度。

2. 3D 距离

基于随机生成的 3D 坐标，找出靠近这个位置的交通元素，提供出该交通元素的 3D 属性。

3. Lane-to-objects

根据随机选择的车道中线，列出该车道上的物体以及它们的 3D 属性。

指标

Omnidrive 包括了图像描述、开环规划和反事实推理三个任务。每个都有不同的侧重点，很难用一个指标来评测它们。

对于图像描述任务，如场景描述和受关注物体的选择，作者通过常用的语言指标来评测句子的相似度，如 METEOR、ROUGE 和 CIDEr。

参考了 BEV-Planner，作者使用了碰撞率和与道路边缘的重叠率来评测开环规划。

为了评测反事实推理，要求 GPT-3.5 从预测结果中提取关键词。这些关键词包括“安全”、“碰撞”、“闯红灯”和“驶出可行驶区域”。然后比较提取的关键词和 ground-truth，计算出每种交通事故的精度和召回率。

实验

实现细节

作者将 EVA-02-L 作为本模型的视觉编码器使用。它使用 masked image modeling 技术来学习 CLIP 的能力，以便能提取出与语言描述相匹配的视觉特征。

在图像处理中，masked image modeling 涉及在图像的某些部分上掩盖或遮挡信息，然后训练模型来预测这些被掩盖的部分。这有助于模型学习图像的全局和局部特征。

在 2D 预训练时，训练数据和策略（batch size、学习率和优化器）都和 LLaVA v1.5 保持一致。在微调阶段，模型用 AdamW 优化器训练，batch size 是 16。Q-Former 的学习率设为了 $4 e - 4$ ，而视觉编码器和 LLM 的学习率为 $5 e - 4$ 。为了使训练稳定一些，使用了余弦退火策略。模型训练了 6 个 epochs。Object queries、lane queries 和 carrier queries 的个数分别是 900、300 和 256 个。

作者也探索了其它结构。用 2D 预训练权重初始化 Q-Former2D。在 Q-Former 中，单独地处理图像特征，然后用 LLM 融合起来。密集的BEV 方法使用了 LSS 来将透视视角的特征变换为 BEV 特征图。本文参考了 SOLOFusion 来实现时域建模。不断地将 BEV 特征输入一个 MLP projector 和 LLM。

Planning with Counterfactual Reasoning

基于 Omnidrive-nuScenes，作者对训练策略和模型架构做了各种改动。下表中所有的分析都不涉及高层级指令和自车状态。我们可以发现，反事实指标和开环规划之间有着一定的关系。

我们可以发现，Q-Former2D 在 2D 任务上的表现要更好，如判断红绿灯的状态。但是，Q-Former3D 在 3D 任务（碰撞检测，精度是 $32.3\%$ ，召回率是 $72.6\%$ ；可行驶区域识别，精度是 $48.5\%$ ，召回率是 $58.6\%$ ）上要表现得更好。带有车道中线任务的模型（即 Full Model）的表现要优于没有可行驶区域任务的车道线监督的模型。

消融实验和分析

反事实推理和图像描述

在下表中，Full Model 在反事实推理方面取得了最佳的表现。，平均精度是 $52.3\%$ 、平均召回率是 $59.6\%$ 。

更重要的是，Q-Former3D 对本模型的帮助非常显著，在图像描述任务上取得了与 Q-Former2D 相似的表现，METEOR 分数为 $38\%$ 、CIDEr 分数为 $68.6\%$ 、ROUGE 分数是 $32.6$ 。此外，该模型能同时处理多视图输入，而 Q-Former2D 只能单一视图的处理，需要非常多的 tokens（ $1500 +$ ）作为 LLM 的输入。由于无法从 2D 预训练中获益，密集 BEV 模型的表现是最差的。我们也可发现，对于图像描述任务而言，引入额外的 3D 监督和时域信息并不能带来明显的提升。

Comparison on NuScenes-QA

在下表中，作者列举了在 NuScenes-QA 上测试的结果。NuScenes-QA 的大多数答案都是单个单词，只和感知有关系。在相同的设定下，本文模型的准确率要比 BEVDet+MCAN 高 $1.3\%$ ，证明预训练的重要作用。本方法的表现和基于激光雷达的模型接近。

开环规划

在下表中，作者将 Omnidrive 和之前 SOTA 的纯视觉规划方法做了比较。MLMM 的开环规划方法能取得差不多的表现。但是，作者发现，编码了自车状态后，能显著地提升各方法的指标。此外，作者发现高层级指令能大幅度降低碰撞率和重叠率。之前的方法会根据 ground-truth 轨迹的相对位置来提供高层级指令，这给网络的回归任务施加了很强的约束，使规划轨迹不会偏离 ground-truth 轨迹太远。作者认为这项设计是不合理的，所以在其它的实验里面排除了这项设定。