论文阅读 DOES END-TO-END AUTONOMOUS DRIVING REALLY NEED PERCEPTION TASKS?

端到端的强势来袭，好久了~~~
简单翻译：端到端真的需要感知任务嘛？
code https://github.com/PeidongLi/SSR.
https://arxiv.org/pdf/2409.18341

1. 摘要

端到端自动驾驶（E2EAD）方法通常依赖于监督式感知任务来提取显式场景信息（如目标、地图）。这种依赖性需要昂贵的标注，并在实时应用中限制了部署和数据的可扩展性。在本文中，我们提出了一种新颖的框架——SSR，它仅使用16个导航引导的Token作为稀疏场景表示（Sparse Scene Representation），高效提取端到端自动驾驶（E2EAD）所需的关键信息。我们的方法消除了对监督式子任务的依赖，使计算资源能够集中处理直接与导航意图相关的核心元素。此外，我们引入了一种时序增强模块，利用鸟瞰图（BEV）世界模型，通过自监督对预测的未来场景与真实未来场景进行对齐。在nuScenes数据集上，SSR达到了最先进的规划性能，相较于当前领先的E2EAD方法UniAD：

L2误差相对降低 27.2%
碰撞率降低 51.6%
推理速度提升 10.9 倍
训练时间加快 13 倍
该框架在实时自动驾驶系统方面取得了重大突破，为未来的大规模部署奠定了基础。🚀

2. 介绍

在这里插入图片描述

基于视觉的端到端自动驾驶（E2EAD）（Hu et al., 2023b；Jiang et al., 2023；Sima et al., 2023；Zheng et al., 2024b；Sun et al., 2024；Weng et al., 2024；Li et al., 2024a；Guo et al., 2024）近年来受到了广泛关注，被认为是一种经济高效的自动驾驶方案。传统的自动驾驶架构通常由独立的感知和规划模块组成，其中感知模块大多由神经网络（NN）处理，而规划模块往往依赖基于规则的数据流。这种模块化设计可能导致信息在传输过程中丢失，从而影响最终性能。E2EAD 通过端到端神经网络直接从图像预测规划轨迹，减少了信息损失，提高了整体性能。然而，大多数现有的 E2EAD 方法仍然依赖复杂的感知框架，通常包含额外的神经网络规划模块。这些方法通常继承了传统感知任务（如目标检测（Li et al., 2022b；Philion & Fidler, 2020）、地图构建（Li et al., 2022a；Liao et al., 2022）、占用预测（Sima et al., 2023；Huang et al., 2023）等），导致网络规模庞大、计算成本高昂。尽管这些模型在一定程度上实现了模块集成，但仍然依赖于独立的子任务监督，因此仍然需要大量数据标注，扩展性有限，并且难以满足实时部署的需求。
许多 E2EAD 方法仍然沿袭了传统 BEV 感知范式，但一个关键问题往往被忽视：E2EAD 系统是否仍然需要如此复杂的感知任务？现有方法通常使用多个感知分支来监督任务特定的查询（task-specific queries），这些查询源自密集的 BEV 特征，后者封装了丰富的场景信息。依赖辅助感知任务的主要原因是需要从大量场景元素中提取关键信息，这限制了数据的可扩展性和实时应用能力。因此，我们希望找到一种更聚焦的方法，直接关注与驾驶相关的关键信息，而不依赖辅助监督。

挑战：如何在无需辅助感知监督的情况下，高效提取并聚焦计算资源于场景的关键部分？
为了解决这个问题，我们提出了SSR（Sparse Scene Representation），一个全新的 E2EAD 框架，该框架利用导航引导的稀疏场景表示，通过时序上下文进行自监督学习，而不依赖显式感知监督。

核心思想：像人类驾驶员一样，基于导航指令关注关键场景元素
人类驾驶员在行驶过程中，往往会根据导航提示选择性地关注场景中的关键元素。受到这一点的启发，我们发现：仅需从密集的 BEV 特征中提取最少量的 Token（稀疏查询），即可实现高效的场景表示，从而满足自动驾驶的需求。

由于 E2EAD 方法不依赖高精度地图作为输入，因此需要一个高层级指令（如“左转”“右转”“直行”）来指导导航（Hu et al., 2023b；Jiang et al., 2023）。我们的方法正是基于导航指令提取场景查询，类似于人类的注意力机制。

对比传统方法：SSR 如何实现感知优化？
如图 2(a) 所示，现有方法仍然沿用 BEV 感知范式，提取所有感知元素，并依赖Transformer（Vaswani et al., 2017）在额外的规划阶段筛选相关信息。

相比之下，SSR（图 2(b)）仅在导航指令的引导下提取核心感知元素，减少冗余，从根本上摆脱了模块级级联架构，并采用**导航引导的感知（Navigation-Guided Perception）**方式进行优化。

尽管部分已有工作（Sun et al., 2024；Zhang et al., 2024）试图通过跳过 BEV 特征构建来降低计算成本，但它们仍然依赖于数百个任务特定的查询。相比之下，我们的方法仅使用 16 个 Token，并由导航指令引导，大幅减少计算开销。

时序自监督学习：如何摆脱感知任务监督？
SSR 进一步利用时序上下文信息，减少对感知任务监督的需求。我们的核心假设是：
如果预测的动作与真实执行的动作一致，那么预测的未来场景应当与真实的未来场景匹配。基于此，我们提出了一种BEV 世界模型（BEV World Model），其核心是：
输入：当前 BEV 特征 + 规划轨迹
目标：预测未来 BEV 特征，并自监督学习以匹配真实未来场景
这种方法不仅可以替代感知任务监督，还可以同时优化场景表示和规划轨迹，无需额外的人工标注。

实验结果：SSR 在 nuScenes 上的突破性表现
在 nuScenes 数据集（Caesar et al., 2020）上，SSR 展现出了最先进的规划性能，同时保持了极低的计算成本（如图 1 所示）：

平均 L2 误差降低 0.28 米（相对提升 27.2%）
平均碰撞率相对降低 51.6%（
相比 UniAD（Hu et al.,2023b））
训练时间减少至 UniAD 的 1/13 推理速度提升 10.9 倍

在无需任何数据标注的情况下，我们的模型成功在大规模数据管理和实时应用中展现出卓越的性能，进一步提升了自动驾驶系统的可行性。

主要贡献

提出了一种以人类驾驶启发的 E2EAD 框架，利用导航指令引导的稀疏查询，自适应关注关键场景元素，大幅降低计算成本。
引入 BEV世界模型进行时序自监督，有效利用动态场景信息，摆脱昂贵的感知任务监督。在 nuScenes 数据集上实现SOTA（最先进）性能，以极低的训练和推理成本树立实时 E2EAD 的新基准。
结论 SSR通过导航引导的感知方式和时序自监督学习，突破了传统 BEV 感知的冗余设计，减少了计算开销，并在无监督的情况下达到 SOTA性能，标志着端到端自动驾驶向更高效、更可扩展的方向迈出了重要一步。🚀

2 相关工作

2.1 基于视觉的端到端自动驾驶

端到端（E2E）自动驾驶的研究可以追溯到 1988 年的 ALVINN (Pomerleau, 1988)，该系统使用简单的神经网络生成转向输出。NVIDIA 于 2016 年开发了一种基于卷积神经网络（CNN）的 E2E 系统原型 (Bojarski et al., 2016)，跳过了手动任务分解的步骤。近年来，基于视觉的 E2E 自动驾驶研究的复兴得益于 BEV 感知的快速发展 (Li et al., 2022b; Liao et al., 2022; Liu et al., 2022; Huang et al., 2023) 以及 Transformer (Vaswani et al., 2017) 等现代架构的引入。

ST-P3 (Hu et al., 2022b) 在感知、预测和规划模块方面进行了改进，以增强时空特征学习，同时集成了深度估计和 BEV 分割等辅助任务。UniAD (Hu et al., 2023b) 在先前 BEV 感知工作的基础上构建了一种级联框架，包含目标检测、目标跟踪、地图构建、占用估计和运动预测等多种辅助任务。VAD (Jiang et al., 2023) 通过矢量化场景表示，减少了 UniAD 中的目标跟踪和占用估计算法，以简化任务设计。GenAD (Zheng et al., 2024b) 探索了使用生成模型进行轨迹生成，并在 VAD 的基础上联合优化运动和规划模块。PARA-Drive (Weng et al., 2024) 进一步研究了辅助任务之间的关系，将它们重新组织为并行执行，并在推理时停用不必要的任务。相比之下，我们的方法完全去除了所有感知任务，同时在准确性和效率上都取得了显著的性能提升。

2.2 自动驾驶中的场景表示

大多数自动驾驶研究 (Hu et al., 2022b; 2023b; Jiang et al., 2023; Zheng et al., 2024b) 继承了来自感知任务的场景表示方法。例如，Li et al. (2022b) 采用了密集的 BEV 特征作为主要的场景表示方式。在这些框架中，特定任务（如检测和地图构建）会利用任务查询机制从 BEV 特征中提取信息，并在人工标注的监督下进行训练。这些方法虽然能提供丰富的场景信息，但也导致了模型复杂度的增加，尤其是在基于占用网格的场景表示方法 (Sima et al., 2023; Zheng et al., 2024a) 中，这种复杂性进一步阻碍了实时应用。

近年来，受 BEV 目标检测中稀疏范式 (Lin et al., 2022; Liu et al., 2023) 的启发，稀疏 E2E 自动驾驶方法 (Sun et al., 2024; Zhang et al., 2024) 直接利用任务查询与图像特征进行交互，尝试完全跳过 BEV 特征的生成。然而，尽管这些方法减少了 BEV 处理的计算量，它们仍然依赖于数百个任务查询，降低了端到端范式所承诺的简单性和高效性。

LAW (Li et al., 2024a) 提出了使用视图潜在查询（view latent queries）来表示每个摄像头图像，仅用一个查询来表达整个视图，但这种方法会损失信息保真度，导致性能下降。UAD (Guo et al., 2024) 试图将 BEV 特征划分为角度扇区，但仍然依赖于开放集检测器的标注进行监督，因此未能真正减少任务查询的复杂度。在本工作中，我们提出了一种新方法 SSR，它通过自适应学习的最小化查询集来表示场景，从而在提升效率的同时提高性能。
在这里插入图片描述

2.3 自动驾驶中的世界模型

世界模型因其生成能力在自动驾驶领域受到越来越多的关注，尤其是在近年来。世界模型的重要性在于可以生成丰富的训练数据，包括稀有的极端案例，早期研究 (Hu et al., 2022a; 2023a) 已经展示了这一点。近年来，世界模型被集成到端到端自动驾驶（E2EAD）框架中，以提升其性能 (Wang et al., 2023b; Zheng et al., 2024a; Min et al., 2024; Li et al., 2024a; Guo et al., 2024)。例如，DriveWM (Wang et al., 2023b) 采用扩散模型来预测多视角视频，并利用这些预测结果进行规划。OccWorld (Zheng et al., 2024a) 同时预测规划轨迹和占用地图，而 DriveWorld (Min et al., 2024) 使用占用世界模型进行预训练，但依赖于昂贵的人工标注。LAW (Li et al., 2024a) 提出了潜在世界模型（latent world model），以改善 E2EAD 训练。在本研究中，我们提出了一种适用于稀疏场景表示的 BEV 世界模型，该模型能够有效编码时序信息，从而提升 E2EAD 的性能。

3 方法

3.1 概述

问题定义：

在时间步 𝑡，给定周围 𝑁 视角摄像头图像 $I_t$ 和高层导航指令 cmd，基于视觉的端到端自动驾驶（E2EAD）模型的目标是预测规划轨迹 𝑇，该轨迹由 BEV 空间中的一组点组成： $\{ (x_i, y_i) \mid i = 1, 2, \dots, k \}$

BEV 特征构建：

如图 3 所示，N 视角摄像头图像 $I_t$ 经过 BEV 编码器处理，以生成 BEV 特征。在 BEV编码器（如 BEVFormer）中，首先使用图像骨干网络处理 𝐼𝑡 ，得到图像特征： $F_t = [F_t^i]_{i=1}^{N}$ 然后，BEV 查询 𝑄 通过交叉注意力机制，从前一帧的 BEV 特征 $B_{t-1}$ 提取时间信息，并从 $F_{t}$ 中提取空间信息。最终计算当前帧的 BEV 特征：
$B_t = \text{CrossAttn}(Q, B_{t-1}, F_t)$ .
$B_t = \text{CrossAttention}(Q, F_t, F_t).$ .
其中，BEV 特征 $B_t$ 具有维度： $B_t \in \mathbb{R}^{H \times W \times C}$ ，其中，𝐻×𝑊表示 BEV 特征的空间维度，𝐶 代表通道数。核心计算模块采用交叉注意力机制来计算 BEV 特征。BEV 特征是一种常见的场景表示方式，因为它包含丰富的感知信息。然而，这种密集表示在搜索相关感知元素时会增加推理时间。为了解决这个问题，我们引入了一种基于自适应空间注意力的稀疏场景表示方法，该方法在保持高保真度场景理解的同时，显著降低了计算负担。

具体来说，我们提出了 Scenes TokenLearner（STL）模块，从 BEV 特征中提取场景查询：
$S_t = [s_i]_{i=1}^{N_s} \in \mathbb{R}^{N_s \times C},$
其中， $N_s$ 是场景查询的数量，该模块的结构如图 4 所示。为了更好地关注与导航意图相关的场景信息，我们采用 Squeeze-and-Excitation（SE）层（Hu et al., 2018）将导航指令 $\text{cmd}$ 编码到密集 BEV 特征中，生成导航感知 BEV 特征 $B_t^{\text{navi}}$ ：
$B_t^{\text{navi}} = \text{SE}(B_t, \text{cmd}).$

然后，将 $B_t^{\text{navi}}$ 传入 BEV TokenLearner（Ryoo et al., 2021）模块 $TL_{\text{BEV}}$ ，以自适应方式聚焦于最重要的信息：
$S_t = TL_{\text{BEV}}(B_t^{\text{navi}}).$

对于每个场景查询 $s_i$ ，我们采用 tokenizer 函数 $M_i$ 将 $B_t^{\text{navi}}$ 映射到一个 token 向量：
$M_i: \mathbb{R}^{H \times W \times C} \to \mathbb{R}^{C}.$

该 tokenizer 预测形状为 $\times W \times 1$ 的空间注意力图，并通过全局平均池化获取最终的场景 token：
$s_i = M_i(B_t^{\text{navi}}) = \rho(B_t^{\text{navi}} \odot \varpi_i(B_t^{\text{navi}})),$
其中， $\varpi(\cdot)$ 是空间注意力函数， $\rho(\cdot)$ 是全局平均池化函数。

最后，我们对场景查询 $S_t$ 施加多层自注意力（Multi-Head Self-Attention），以进一步增强其表达能力：
$S_t = \text{SelfAttention}(S_t).$

由于 $S_t$ 包含所有相关的感知信息，我们使用一组路径点查询 $W_t \in \mathbb{R}^{N_m \times N_t \times C}$ 来提取多模态规划轨迹，其中：
$N_t$ 表示未来的时间步数，
$N_m$ 表示驾驶指令的数量。

路径点查询与场景表示 $S_t$ 通过交叉注意力进行交互：
$W_t = \text{CrossAttention}(W_t, S_t, S_t).$

然后，我们使用多层感知机（MLP）从 $W_t$ 中预测规划轨迹，并根据导航指令 $\text{cmd}$ 选择最终输出的轨迹 $\in \mathbb{R}^{N_t \times 2}$ ：
$\text{Select}(\text{MLP}(W_t), \text{cmd}).$

最终输出轨迹通过 L1 损失（模仿学习损失）与真实轨迹 $T_{\text{GT}}$ 进行监督：
$L_{\text{imi}} = \|T_{\text{GT}} - T\|_1.$

3.4 通过 BEV 世界模型进行时序增强

我们优先利用时序上下文来增强场景表示，而不是单独优化感知子任务。该模块的动机很直观：如果我们预测的行动与真实行动一致，那么预测的未来场景应该与实际的未来场景高度相似。

如图 4 所示，我们引入了BEV 世界模型（BWM）来预测未来的 BEV 特征。首先，我们利用输出轨迹 $T$ 将当前场景查询转换到未来帧，具体使用运动感知层归一化（MLN）（Wang et al., 2023a）。MLN 模块可以帮助当前场景查询编码运动信息，生成梦境查询（dreaming queries） $D_t$ ：
$D_t = \text{MLN}(S_t, T).$

对于梦境查询 $D_t$ ，我们应用多层自注意力（Self-Attention）机制，作为世界模型来预测未来的场景查询 $\hat{S}{t+1}$ ：
$\hat{S}{t+1} = \text{SelfAttention}(D_t).$

然而，由于自动驾驶系统在相邻帧中可能会关注不同的区域，我们不直接用未来场景查询 $S_{t+1}$ 监督预测的场景查询 $\hat{S}{t+1}$ 。相反，我们利用TokenFuser（Ryoo et al., 2021）模块将 $\hat{S}{t+1}$ 重构为稠密 BEV 特征 $\hat{B}{t+1}$ ：
$\hat{B}{t+1} = \text{TokenFuser}(\hat{S}{t+1}, B_t),$
等价地，
$\hat{B}{t+1} = \psi(B_t) \otimes \hat{S}{t+1},$
其中， $\psi(\cdot)$ 是一个带有 sigmoid 激活函数的简单 MLP，用于将 BEV 特征 $B_t$ 映射到权重张量： $\psi: \mathbb{R}^{H \times W \times C} \to \mathbb{R}^{H \times W \times N_s}.$ 然后， $\hat{S}{t+1} \in \mathbb{R}^{N_s \times C}$ 通过乘法 $\otimes$ 作用在该权重张量上，从而获得预测的稠密 BEV 特征 $\hat{B}_{t+1} \in \mathbb{R}^{H \times W \times C}$ 。这一过程的目标是从预测的场景查询中恢复 BEV 特征，以便进行进一步的自监督学习。

最后，我们使用L2 损失来监督 $\hat{B}{t+1}$ ，使其逼近真实未来 BEV 特征 $B{t+1}$ （通过未来的周围图像生成），定义为BEV 重构损失 $L_{\text{bev}}$ ： $L_{\text{bev}} = |\hat{B}{t+1} - B{t+1} |_2.$

综上所述，我们对预测轨迹应用模仿损失 $L_{\text{imi}}$ ，对预测的 BEV 特征应用BEV 重构损失 $L_{\text{bev}}$ ，最终的总损失 $L_{\text{total}}$ 公式如下： $L_{\text{total}} = L_{\text{imi}} + L_{\text{bev}}.$

这确保了系统在预测驾驶行为的同时，也能对未来场景进行合理建模。

实验

4.1 数据集和评测指标

我们在广泛使用的 nuScenes 数据集（Caesar et al., 2020）上评估所提出的 SSR 框架，并遵循以往研究（Hu et al., 2023b；Jiang et al., 2023）的设定。

为了评估规划性能，我们采用位移误差（L2误差）和碰撞率（CR），与以往研究保持一致。

位移误差通过计算预测轨迹与真实轨迹的 L2 误差来衡量预测轨迹的质量。
碰撞率计算按照预测轨迹行驶时，与其他物体发生碰撞的概率。

此外，为了更好地评估框架在消融实验中的表现，我们测量 路缘碰撞率（CCR），该指标由 Li et al. (2024b) 提出。

所有指标均在 3s 未来时域内计算，每 0.5s 评估一次，并在 1s、2s 和 3s 时进行测量。

我们观察到 VAD (Jiang et al., 2023) 和 UniAD (Hu et al., 2023b) 采用不同的方法来计算评测结果：

VAD 计算所有过去帧的平均值（AVG）。
UniAD 仅采用最新帧的结果，并取最大值（MAX）。
此外，UniAD 不考虑行人在 GT（真实占用地图）中的碰撞计算，从而导致较低的碰撞率。
为了保证公平性，我们使用 MAX 作为默认评测方式，但同时计算 AVG 结果以便与其他方法进行对比（见表 1）。在 MAX 评测中，我们包括行人在碰撞率计算中。此外，我们调整了 BEV 分辨率从 0.5m 到 0.1m 来计算 CCR，以符合 Li et al. (2024b) 的标准。

4.2 实现细节

参数设置

SSR 基于 VAD（Jiang et al., 2023）实现，并采用 VAD-Tiny 的设定。
图像骨干网络采用 ResNet-50 (He et al., 2016)，输入分辨率为 640 × 360。
BEV 编码器采用 BEVFormer (Li et al., 2022b)，与以往研究一致（Hu et al., 2023b；Jiang et al., 2023；Zheng et al., 2024b）。
BEV 表示的分辨率为 100 × 100，然后压缩成 16 个稀疏场景 token。
导航指令数量为 3，与先前工作保持一致。

训练细节

训练 12 轮（epochs），使用 8 张 NVIDIA RTX 3090 GPU，每张 GPU 的 batch size 为 1。
训练时长约 11 小时，比 UniAD 快 13 倍。
采用 AdamW（Loshchilov & Hutter, 2019）优化器，学习率设为 5×10⁻⁵。
模仿损失（Limi）与 BEV 监督损失（Lbev）均设权重 1.0。
其他设置均与 VAD-Tiny 保持一致。

4.3 主要实验结果

我们的方法在 L2 误差和碰撞率（CR）方面超过现有端到端自动驾驶（E2EAD）方法（见表 1）。
相较于 UniAD（该方法依赖多个辅助任务），我们的 L2MAX 误差平均减少 0.28m（降低 27.2%），CRMAX 误差减少 0.16%（降低 51.6%），且无需额外的辅助任务。
相较于 VAD-Tiny：

L2AVG 误差减少 0.39m（降低 50.0%）
CRAVG 误差减少 0.46%（降低 79.3%）
甚至超越 VAD-Base（L2AVG 误差降低 45.8%，CRAVG 误差降低 70.7%）。
推理速度19.6 FPS（见附录 A.4），比 UniAD 快 10.9 倍，比 VAD-Base 快 4.3 倍。
比 SparseDrive（Sun et al., 2024）快 2.2 倍，且 L2AVG 误差减少 0.22m。
与去辅助任务的方法对比

LAW (Li et al., 2024a) 速度与 SSR 接近，但 L2 误差和碰撞率仍存在较大差距。
UAD (Guo et al., 2024) 采用更大的 ResNet-101 骨干网络，1600 × 900 高分辨率输入，并额外引入开集 2D 检测器监督物体信息。即便如此，其 L2MAX 误差仍比 SSR 高 0.15m，且推理速度仅为 SSR 的 1/2.7。