w~自动驾驶~合集16

我自己的原文哦~ https://blog.51cto.com/whaosoft/12765612

#SIMPL

用于自动驾驶的简单高效的多智能体运动预测基准

原标题：SIMPL: A Simple and Efficient Multi-agent Motion Prediction Baseline for Autonomous Driving

论文链接：https://arxiv.org/pdf/2402.02519.pdf

代码链接：https://github.com/HKUST-Aerial-Robotics/SIMPL

作者单位：香港科技大学大疆

论文思路：

本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线（SIMPL）。与传统的以代理为中心(agent-centric) 的方法（精度高但需要重复计算）和以场景为中心(scene-centric) 的方法（精度和通用性受到影响）不同，SIMPL 可以为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度，本文提出了一种紧凑而高效的全局特征融合模块，该模块以对称方式执行定向消息传递，使网络能够在单次前馈传递中预测所有道路使用者的未来运动，并减轻视点移动导致的精度损失。此外，本文研究了在轨迹解码中使用 Bernstein basis polynomials 进行连续轨迹参数化，允许在任何所需时间点评估状态及其高阶导数，这对于下游规划任务很有价值。作为强大的基线，与其他最先进的方法相比，SIMPL 在 Argoverse 1 和 2 运动预测基准上表现出极具竞争力的性能。此外，其轻量级设计和低推理延迟使 SIMPL 具有高度可扩展性，并有望用于现实世界的机载部署。

网络设计：

周围交通参与者的运动预测对于自动驾驶汽车至关重要，尤其是下游决策和规划模块，因为准确及时的意图和轨迹预测将显着提高安全性和乘坐舒适性。

对于基于学习的运动预测，最重要的主题之一是上下文表示。早期的方法通常将周围场景表示为多通道鸟瞰图像 [1]–[4]。相比之下，最近的研究越来越多地采用矢量化场景表示[5]-[13]，其中使用带有地理坐标的点集或多段线(polylines) 来标注位置和几何形状，从而提高保真度并扩大感受野。然而，对于光栅化和矢量化表示，都存在一个关键问题：我们应该如何为所有这些元素选择合适的参考系？一种直接的方法是描述共享坐标系（以场景为中心）内的所有实例，例如以自动驾驶车辆为中心的坐标系，并直接使用坐标作为输入特征。这使我们能够在一次前馈传递中对多个目标代理进行预测 [8, 14]。然而，使用全局坐标作为输入，通常会在单个前馈传递中对多个目标代理进行预测 [8, 14]。然而，使用全局坐标作为输入（通常会在很大范围内变化）将大大加剧任务的固有复杂性，导致网络性能下降和对新场景的适应性有限。为了提高准确性和鲁棒性，一种常见的解决方案是根据目标代理的当前状态对场景上下文进行归一化处理 [5, 7, 10]-[13]（以代理为中心）。这意味着必须对每个目标代理重复执行归一化过程和特征编码，从而获得更好的性能，但代价是冗余计算。因此，有必要探索一种能够有效地编码多个目标的特征，同时保持对视角(perspective) 变化的鲁棒性的方法。

对于运动预测的下游模块，例如决策和运动规划，不仅需要考虑未来位置，还需要考虑航向、速度和其他高阶导数。例如，周围车辆的预测航向在塑造未来时空占用方面发挥着关键作用，这是确保安全和稳健的运动规划的关键因素[15, 16]。此外，在不遵守物理约束的情况下独立预测高阶量可能会导致预测结果不一致[17, 18]。例如，尽管速度为零，但它可能会产生位置位移，从而导致规划模块混乱。

本文提出了用于自动驾驶系统的 SIMPL（简单高效的运动预测基线），解决了现实车载应用中多智能体轨迹预测的关键问题。首先，本文引入以实例为中心的场景表示，然后引入 symmetric fusion Transformer（SFT），从而能够在单次前馈传递中对所有代理进行有效的轨迹预测，同时保留视点不变属性带来的准确性和鲁棒性。与最近基于对称上下文融合的其他工作[19]-[21]相比，所提出的SFT明显更简单、更轻量级且更易于实现，使其适合机载部署。

其次，本文引入了一种基于 Bernstein basis polynomial（也称为 Bezier curve）的预测轨迹的新颖参数化方法。这种连续表示确保了平滑性，并能够在任何给定时间点轻松评估精确状态及其高阶导数。本文的实证研究表明，与估计 monomial basis polynomials 的系数相比，学习预测 Bezier curves 的控制点更加有效且数值稳定。

最后，所提出的组件被很好地集成到一个简单而高效的模型中。本文在两个大型运动预测数据集上评估了所提出的方法[22, 23]，实验结果表明，尽管 SIMPL 具有简化的设计，但与其他最先进的方法相比仍具有很强的竞争力。更重要的是，SIMPL通过较少的可学习参数和较低的推理延迟实现了高效的多智能体轨迹预测，而没有牺牲量化性能，这对于真实世界的机载部署来说是充满希望的。本文还强调，作为一个强大的基线，SIMPL 具有出色的可扩展性。简洁的架构便于与最新的运动预测进展直接整合，为进一步提高整体性能提供了机会。

图 1：复杂驾驶场景中多智能体运动预测的图示。本文的方法能够实时地同时为所有相关代理生成合理的假设。自车和其他车辆分别以红色和蓝色显示。根据时间戳使用渐变颜色来可视化预测轨迹。请参考附带的视频了解更多示例。

图 2：SIMPL 示意图。本文利用尽可能简单的网络架构来证明其有效性。语义实例的局部特征由简单的编码器处理，而实例间特征则保留在相对位置嵌入中。多模态轨迹预测结果由运动解码器在提出的 symmetric feature Transformer 之后生成。

图 3：相对位姿计算示意图。

图 4：所提出的 L 层 symmetric fusion Transformer (SFT) 的图示。实例 tokens 和相对位置嵌入（RPE）在每个SFT层中都会循环更新。

图 5：2D septic Bezier curve（左）。

实验结果：

总结：

本文提出了一种简单高效的自动驾驶多智能体运动预测基线。利用所提出的 symmetric fusion Transformer，所提出的方法实现了高效的全局特征融合，并保持了针对视点移动的鲁棒性。基于 Bernstein basis polynomials 的连续轨迹参数化提供了与下游模块更高的兼容性。在大规模公共数据集上的实验结果表明，SIMPL 在模型大小和推理速度方面更具优势，同时获得与其他最先进方法相同水平的精度。

#DeepPointMap

本文提出了一种统一的架构DeepPointMap，既能实现高效的内存使用的地图表示，又能实现准确的多尺度定位任务（如里程计和闭环检测）。一举解决定位和地图构建问题

论文链接：https://arxiv.org/pdf/2312.02684.pdf

SLAM是机器人和自动驾驶领域中的一个基本问题，旨在在探索环境的同时重建地图并估计机器人在其中的位置。激光雷达的点云数据被广泛应用于捕捉环境的复杂三维结构。然而，现有的SLAM方法要么依赖于密集的点云数据以实现高精度定位，要么使用通用的描述符来减小地图的大小。这两个方面似乎存在冲突。因此，我们提出了一种统一的架构，DeepPointMap（DPM），在这两个方面都具有出色的优势。

提出一种名为DeepPointMap的深度学习框架，用于解决LiDAR SLAM中的定位和地图构建问题。传统的LiDAR SLAM方法要么依赖于密集的点云数据以实现高精度定位，要么使用通用的描述符来减小地图的大小。然而，这两个方面似乎存在冲突。为了解决这个问题，我们提出了一种统一的架构，即DeepPointMap，既能实现高效的内存使用的地图表示，又能实现准确的多尺度定位任务（如里程计和闭环检测）。

创新

本研究的创新性主要体现在以下几个方面：

统一的神经网络描述符：本研究提出了DeepPointMap（DPM）框架，其中包括DPM编码器和DPM解码器两个神经网络。DPM编码器能够从点云数据中提取高度代表性且稀疏的神经描述符，实现了对环境的高效编码。与传统的手工设计特征相比，这些神经描述符既能够减小地图的内存占用，又能够保持高精度的定位和重建能力。
多尺度匹配和注册：DPM解码器能够基于神经描述符进行多尺度的匹配和注册，包括里程计和闭环检测。与其他基于神经描述符的方法相比，DPM解码器能够在统一的框架下完成多个SLAM子任务，实现了定位精度、内存效率、地图保真度和实时处理的统一优化。
多智能体协作SLAM：本研究将DPM框架扩展到多智能体协作SLAM领域。每个智能体都维护自己的SLAM系统，并在本地进行里程计和闭环检测。通过将观测数据进行合并和优化，实现了全局一致性的轨迹估计和地图重建。这在通信带宽有限的多智能体系统中具有重要意义。

方法

该框架包括两个神经网络：DPM编码器和DPM解码器。DPM编码器从点云中提取高度代表性和稀疏的神经描述符，实现了内存高效的地图表示和准确的多尺度定位任务。DPM解码器基于这些神经描述符进行多尺度匹配和注册。与其他神经描述符方法不同的是，DPM描述符可以统一地用于SLAM任务的多个子任务，具有出色的定位精度、内存效率、地图保真度和实时处理能力。

.1 DPM编码器

DPM解码器

DPM解码器用于预测两个描述符云之间的变换关系，它包括四个部分：（1）描述符级变换块，用于融合两个输入描述符云之间的深度相关特征；（2）相似性头，用于计算两个描述符云之间的对应关系；（3）偏移头，用于预测描述符云之间的偏移量；（4）旋转头，用于预测描述符云之间的旋转矩阵。这些部分共同工作，实现了描述符云之间的匹配和配准，从而实现了定位和闭环检测等多尺度的定位任务。

.3 训练

在训练DeepPointMap时，作者使用了几个不同的数据集。其中包括SemanticKITTI、KITTI-360和MulRan。作者还使用了KITTI-Carla数据集进行训练。训练集和测试集的划分是根据帧数的比例进行的，大约是6:4的比例。在训练过程中，作者使用了绝对姿态误差（APE）来评估预测轨迹的全局准确性。在定位准确性方面，DeepPointMap与其他6种最新的里程计和SLAM方法进行了比较，包括KISS-ICP、LeGO-LOAM、SC-LeGO-LOAM、MULLS、CT-ICP和GeoTransformer。作者还进行了转移实验，将DeepPointMap在KITTI-360和KITTI-Carla上训练，并直接在SemanticKITTI上评估其性能。在内存效率方面，DeepPointMap相对于原始点云、Voxel Hashmap和Mesh等方法能够节省大约50%至70%的内存。最后，作者还进行了多智能体合作SLAM实验，展示了DeepPointMap在多智能体场景下的优越性能。

.4 损失函数

训练DeepPointMap模型时使用了以下损失函数和策略：

此外，还使用了数据增强和课程学习策略来提高模型的性能。数据增强策略包括随机遮挡，用于模拟激光雷达扫描受到遮挡的情况。课程学习策略逐渐增加描述符云的规模，从简单到复杂的场景进行训练，以逐步学习大规模注册任务的能力。

实验结果

定位准确性：与六种最新的里程计和SLAM方法进行比较，包括KISS-ICP、LeGO-LOAM、SC-LeGO-LOAM、MULLS、CT-ICP和GeoTransformer。在SemanticKITTI、KITTI-360和MulRan数据集上比较了DeepPointMap与这些方法的定位准确性。结果显示，DeepPointMap在不同数据集上都能取得类似的定位准确性，并且在大规模地图上表现出更好的性能。

内存效率：评估了DeepPointMap的内存效率，并与其他常用方法进行比较，包括原始点云、Voxel Hashmap和Mesh。结果显示，DeepPointMap相比其他方法能够节省高达70%的内存空间。

多智能体合作SLAM实验：将DeepPointMap扩展到多智能体合作SLAM任务中，模拟了真实世界的多智能体合作SLAM场景。在SemanticKITTI数据集上选择了三个子序列，并将它们分配给三个独立的智能体进行重建。实验结果显示，DeepPointMap能够成功重建多智能体观测到的点云，并保持全局一致性。

通过这些实验验证了DeepPointMap在定位准确性、内存效率和多智能体合作SLAM方面的优越性能。

根据这项研究，后续可能的研究方向有哪些?

根据这项研究，可能的后续研究方向包括但不限于以下几个方面：

网络结构改进：可以进一步改进DeepPointMap的网络结构，以提高其性能和效率。例如，可以探索更复杂的神经网络架构或引入注意力机制来提取更具代表性的神经描述符。
多模态融合：可以将深度学习方法与其他传感器数据（如相机图像）进行融合，以提高SLAM系统的鲁棒性和准确性。通过融合多种传感器数据，可以更好地理解环境并实现更准确的定位和地图重建。
鲁棒性改进：可以研究如何提高DeepPointMap在复杂环境和动态场景下的鲁棒性。例如，可以探索如何处理遮挡、动态物体和不完整的点云数据，以提高系统的鲁棒性和适应性。
实时性优化：可以进一步优化DeepPointMap的计算效率，以实现实时的SLAM系统。可以通过模型压缩、硬件加速或并行计算等方法来减少计算复杂度，提高系统的实时性能。
多智能体合作SLAM：可以进一步研究如何在多智能体合作SLAM中应用DeepPointMap。可以探索如何实现智能体之间的信息共享和协作，以实现全局一致性的地图重建和定位。

这些是可能的后续研究方向，通过进一步的研究和实验，可以进一步提升DeepPointMap的性能和应用范围。

总结

我们提出了一种基于深度学习的LiDAR SLAM框架，称为DeepPointMap（DPM）。该框架包括两个神经网络：DPM编码器和DPM解码器。与其他神经描述符方法不同的是，DPM描述符可以统一地用于SLAM任务的多个子任务，具有出色的定位精度、内存效率、地图保真度和实时处理能力。DeepPointMap在定位精度、地图重建质量和内存消耗方面取得了新的最优结果。此外，该框架还在多智能体协作SLAM方面展示了其灵活性和潜力。因此，DeepPointMap为LiDAR SLAM领域的发展提供了一种有效的解决方案。

#P-Mapnet

在线HD Map生成算法是当前自动驾驶系统摆脱对高精地图依赖的方法之一，现有的算法在远距离范围下的感知表现依然较差。为此，我们提出了P-MapNet，其中的“P”强调我们专注于融合地图先验以提高模型性能。具体来说，我们利用了SDMap和HDMap中的先验信息：一方面，我们从OpenStreetMap中提取了弱对齐的SDMap数据，并将其编码为单独的条件分支输入。尽管改输入与实际HD Map存在弱对齐的问题，我们基于Cross-attention机制的架构能够自适应地关注SDMap骨架，并带来显著的性能提升；另一方面，我们提出了一种用MAE来捕捉HDMap的先验分布的refine模块，该模块有助于让生成的HD Map更符合实际Map的分布，有助于减小遮挡、伪影等影响。我们在nuScenes和Argoverse2数据集上进行了广泛的的实验。

图 1

总结来说我们的贡献如下：

（1）我们的SDMap先验能够提升在线地图生成性能，包含了栅格化（最多可提高18.73 mIoU）和矢量化（最多可提高8.50 mAP）两种地图表示。

（2）我们的HDMap先验能够将地图感知指标提升最多6.34%。

（3）P-MapNet可以切换到不同的推理模式，以在精度和效率之间进行权衡。

（4）P-MapNet是一个远距离HD Map生成的解决方案，对于较远的感知范围能够带来更大的改进。我们的代码和模型已公开发布在https://jike5.github.io/P-MapNet/。

#CurveFormer++

在自动驾驶中，使用单目相机进行3D车道线检测对于各种下游规划和控制任务至关重要。最近的卷积神经网络（CNN）和Transformer方法通常在模型设计中采用两阶段方案。第一阶段将前视图像的特征转换成鸟瞰图（BEV）表示。随后，一个子网络处理BEV特征图以生成3D检测结果。然而，这些方法在很大程度上依赖于一个具有挑战性的图像特征变换模块，将透视视图转换为BEV表示。

在作者的工作中，作者提出了CurveFormer++，这是一种基于Transformer的单阶段方法，它不需要图像特征视图变换模块，并直接从透视图像特征推理3D车道线检测结果。具体来说，CurveFormer++将3D检测任务建模为一个曲线传播问题，其中每条车道由一个带有动态有序 Anchor 点集的曲线 Query 表示。通过使用Transformer解码器，模型可以迭代地改进3D车道线检测结果。

在Transformer解码器中引入了曲线交叉注意力模块，以计算图像特征与车道的曲线 Query 之间的相似性。为了处理不同车道长度，作者采用了上下文采样和 Anchor 点限制技术，为曲线 Query 计算更为相关的图像特征。此外，作者还应用了一个时序融合模块，该模块融合了选定的信息丰富的稀疏曲线 Query 及其相应的 Anchor 点集，以利用历史车道信息。

在实验中，作者在两个公开可用的真实世界数据集上评估了作者的3D车道线检测方法。结果显示，与基于CNN和Transformer的方法相比，CurveFormer++提供了卓越的性能。作者还进行了消融研究，以分析作者方法中每个组件的影响。

I Introduction

车道线检测在自动驾驶感知系统中起着至关重要的作用，它可以为静态交通场景提供来自前视摄像机的准确车道信息。通过利用在 ego 车辆坐标系中的车道线检测结果，可以开发出各种重要的驾驶特性，包括基本的先进驾驶辅助系统（ADAS）特性，如车道保持辅助（LKA）、车道偏离警告（LDW），以及更高级的功能，如智能巡航控制（ICC）和领航辅助（NOP）。这些特性有助于提升驾驶辅助和自动化能力，最终提高了自动驾驶车辆的安全性和便利性。

早期对车道线检测的研究主要集中在图像空间，将其视为一个语义分割任务，或者利用线回归技术。例如，基于CNN的分割方法SCNN从输入图像中区分车道线与交通背景，而基于回归的方法Ultra-Fast旨在在图像空间上识别车道线上的关键点。然而，对于下游任务，如规划和控制，更希望在3D空间中以曲线参数的形式表达车道线。因此，需要后处理步骤将2D车道结果从图像空间转换到自主车辆坐标系统，如图1（a）所示。

不幸的是，由于缺乏深度信息和准确的实时相机外参，将车道线从图像平面投影到鸟瞰视图（BEV）视角往往会导致误差传播问题。此外，典型的后处理步骤，如聚类和曲线拟合方法往往比较复杂且耗时，这使得车道线检测方法不够健壮，也不太适合于现实的感知系统。

为了解决两阶段方法后期处理中的局限性，已经提出了基于卷积神经网络（CNN）的方法，用于端到端的3D车道线检测任务。这些方法采用逆投影映射（IPM）将图像特征图转换到地面平面。例如，图1（b）所示的3D-LaneNet，它使用基于 Anchor 点的3D车道表示并预测摄像机姿态，使用IPM将2D特征投影出来。

同样，Gen-LaneNet提出了一种虚拟俯视图，将IPM投影的鸟瞰图（BEV）特征与真实世界车道对齐。基于CNN的另一种3D车道线检测方法涉及深度估计及该信息的整合。例如，ONCE执行2D车道语义分割和深度估计，整合这些结果来推导3D车道。然而，准确摄像机姿态估计或深度估计的要求可能会导致丢失车道高度，从而影响这些方法的鲁棒性，特别是在平面地面假设不成立的情况下。

近年来，基于Transformer的方法在计算机视觉和机器人任务中取得了显著进展，展现了卓越的成功。最初由DETR引入到目标检测领域，基于Transformer的方法因其能够消除对后处理步骤的需求，直接从输入图像推理输出而受到欢迎。同样，基于Transformer的3D车道线检测方法采用类似的原理从输入图像计算3D车道结果。这些方法首先通过视图变换构建密集的鸟瞰图（BEV），然后使用解码器层中的交叉注意力从中间BEV特征图计算3D车道结果。

例如，PersFormer构建了一个密集的BEV Query ，并使用Transformer将BEV中的 Query 与图像特征进行交互（如图1（c）所示）。然而，尽管这些方法努力利用Transformer进行3D车道线检测，缺少图像深度或BEV图高度限制了它们通过获取与 Query 精确对应的特征来提高性能。因此，这些方法可能限制垂直信息的表达，特别是在3D车道线检测场景中，近处对应平坦道路，而远处可能涉及上坡或下坡路段。

为了解决上述挑战，作者提出了CurveFormer++，一个增强的基于Transformer的3D车道线检测方法（图1（d））。在CurveFormer++中，车道被表示为稀疏的曲线 Query 及其相应的车道置信度、两个多项式和起始和结束点（图4（a））。受到DAB-DETR 的启发，作者引入一组3D动态 Anchor 点以促进曲线 Query 与图像特征之间的交互。通过使用相机外参将高度信息融入，3D Anchor 点使作者能够精确地与每个 Anchor 点对应的图像特征对齐。此外，动态 Anchor 点集在Transformer解码器序列中迭代优化。

此外，作者在解码层中引入了一个新颖的曲线交叉注意力模块，以研究曲线 Query 和动态 Anchor 点集的效果。与直接从 Query 预测采样偏移的标准Deformable-DETR 不同，作者引入了一个上下文采样单元，从参考特征和 Query 的组合中预测偏移，以指导采样偏移的学习。为了提取具有不同长度的车道的更准确特征，作者在特征采样步骤中采用了动态 Anchor 点范围预测作为限制。此外，还采用了辅助分割分支来增强共享的CNN Backbone 网络。通过这种方式，作者的CurveFormer设计适用于3D车道线检测。

历史帧中的时间信息在推进自动驾驶中的3D感知方面发挥着关键作用。最近，基于Transformer的BEV方法将来自多帧图像特征的BEV特征图融合到一个统一的BEV空间中，以提供时间信息。与单帧方法相比，这些方法在目标检测和静态交通场景理解任务中取得了显著性能。对于3D车道线检测任务，STLane3D应用了类似的想法，将来自先前观测的密集BEV特征进行融合，如图2（a）所示。尽管BEV特征融合具有优势，但图像到BEV视角转换所需的密集特征采样对精确的BEV时间对齐提出了挑战。特别是当对齐缩小尺度的BEV特征图时，考虑到交通车道只占据密集BEV空间的一小部分，这尤其具有挑战性。因此，这些困难可能会限制利用历史信息进行3D车道线检测的有效性。

受到融合历史 Query 信息的StreamPETR的启发，在本研究中，作者提出了一种新颖的方法来执行历史结果的时效融合。CurveFormer++包括利用历史稀疏曲线 Query 和动态 Anchor 点集，实现了有效的时间传播。如图2（b）所示，作者的时间融合方法不依赖于密集的BEV特征图。

为了验证所提出算法的性能，作者在OpenLane数据集和ONCE-3DLanes数据集上评估了作者的CurveFormer++。CurveFormer++在ONCE-3DLanes数据集上为3D车道线检测取得了具有竞争力的结果。与近期提出的基于Transformer的3D车道线检测方法相比，它在OpenLane数据集上也展现出了前景的性能。同时，每个组件的有效性也得到了验证。

通常，作者的主要贡献有三个层面：

作者提出了CurveFormer++，一种基于Transformer的新型三维车道线检测算法。通过将解码器层中的 Query 格式化为动态 Anchor 点集，并应用曲线交叉注意力模块来计算 Query 与图像之间的相似性。此外，在解码器层中采用了动态 Anchor 点范围迭代方案，以实现准确的特征提取。
作者引入了一种以车道为中心的时间建模范式，其中长期历史信息通过稀疏 Query 和 Anchor 点逐帧传递。为此，CurveFormer++ 可以通过选择性的时间曲线 Query 和历史 Anchor 点，将从图像序列中融合时间信息到3D车道线检测任务中。
实验结果表明，
在几个公共数据集上与基于CNN和基于Transformer的最先进方法相比，取得了有希望的性能。

与会议论文的区别。 本工作的初步版本，CurveFormer，已被 ICRA 2023 接收。与会议版本相比的改进如下：

作者将CurveFormer 进行了扩展，以编码来自图像序列的时间信息。具体来说，作者提出了一个时间曲线交叉注意力模块，使模型能够通过稀疏曲线 Query 和动态 Anchor 点集逐帧传播历史信息。所引入的时间融合方法确保了3D车道预测结果在帧与帧之间的稳定性。
作者修改了曲线 Anchor 点建模，以融入一个动态控制 Anchor 点数量的 Anchor 点范围限制。由于每条车道的长度并不固定，所提出的范围限制使得 Anchor 点集合能够有效地提取车道图像特征。这种方式确保了增加 Anchor 点数量不会导致包含无效的图像特征。
作者在新数据集ONCE-3DLanes上进行了实验，并且还在OpenLane数据集上提供了额外的实验来评估CurveFormer++。扩展版的CurveFormer++相较于原始的CurveFormer实现了显著的提升。

II Related Work

2D车道线检测。 早期深度学习车道线检测方法在图像平面上执行，可以分为分割方法和回归方法。分割方法通过分配一组预定义的语义标签来区分图像中的每条车道线。除了标准的分割方法外，还引入了捕捉车道结构先验的方法。SCNN首次引入了在特征图上逐片卷积，因为它更适合于车道线检测。LaneNet通过增加一个聚类嵌入分支，将语义分割升级为实例分割。SAD提出了一种可插入的自注意力模块，以增强特征的学习能力，无需额外的监督。RESA [4]基于车道的强形状先验，在垂直和水平方向上结合空间信息。Bi-Lanenet提出了一种新的双边车道识别网络，使用随机样本共识。MFIALane [6]聚集多尺度特征信息并采用通道注意力机制。

与使用全局分割方法相比，近期研究也将车道线检测制定为局部车道线回归任务。车道回归算法可以分为关键点估计，基于 Anchor 点的回归和行回归。PINet 通过独立的关键点制定车道，并使用实例分割解决聚类问题，而 GANet 将车道表示为与起点相关联的一组关键点。DevNet 结合了基于点估计的偏差感知和语义特征。Point2Lane 选择可变数量的主点，并通过连接它们简单地再现目标车道。Point-LaneNet 和 CurveLane-NAS 将图像划分为非重叠网格，并相对于垂直线 Proposal 回归车道偏移。

Line-CNN 和 LaneATT 在预定义的光线 Proposal 上回归车道，而 CLRNet 将射线 Anchor 的起始点和角度设置为可学习参数，并在特征金字塔层之间进行细化。Ultra-Fast 将车道线检测视为一种行分类方法，显著降低了计算成本。LaneoFormer 通过行列自我关注重新构建传统的 Transformer 架构，以更好地获取车道的形状和语义信息。

除了点回归，使用多项式方程建模车道是另一种已经探讨过的方法。PolyLaneNet 利用全局特征直接在图像平面上预测多项式系数。PRNet 增加了两个辅助分支：初始分类和高度回归，以增强多项式估计。文献 [36] 中的方法应用IPM（逆透视映射）和最小二乘拟合直接在BEV（鸟瞰图）空间预测抛物线方程。LSTR 使用Transformer与图像特征和车道 Query 交互，直接预测3D车道参数。

三维车道线检测。近年来，采用端到端方法进行车道线检测的趋势日益增强，特别是在三维车道线检测的背景下。大多数基于CNN和Transformer的方法首先构建一个密集的BEV特征图，然后从此中间表示中提取三维车道信息。3D-LaneNet提出了一种双路径架构，使用IPM转置特征并通过垂直 Anchor 定回归检测车道。

为了解决车道方向上的 Anchor 定限制，3D-LaneNet+将BEV特征划分为非重叠单元格，并通过与单元格中心相关的横向偏移距离、角度和高度偏移来重新定义车道。文献[38]中的方法引入了不确定性估计，以增强[17]网络的性能。GenLaneNet首先引入了一个虚拟俯视坐标框架以改善特征对齐，并提出了一种两阶段框架，将车道分割和几何编码解耦。BEVLaneDet提出了一种虚拟相机以确保空间一致性，并通过关键点表示3D车道以适应更复杂的场景。GroupLane首次在BEV中引入了按行分类的方法，该方法支持任意方向的车道，并与实例组内的特征信息进行交互。

由于相机姿态估计是三维车道线检测的关键，CLGo提出了一种两阶段框架，该框架从图像估计相机姿态，并从BEV特征解码车道。PersFormer使用离线相机姿态构建了密集的BEV Query ，并在基于Transformer的框架下统一了2D和3D车道线检测。STLanes3D使用融合的BEV特征预测3D车道，并引入3DLane-IOU损失以耦合横向和高度方向上的误差。

为了减少计算开销，一些方法最近试图在不显式构建BEV特征的情况下检测3D车道。例如，Anchor3DLane，这是一种基于CNN的方法，它直接从基于3D Anchor 定的图像特征回归3D车道。CurveFormer利用Transformer中的稀疏 Query 表示和交叉注意力机制高效地回归3D车道多项式系数。紧随CurveFormer的类似 Query Anchor 定建模，LATR构建了一个车道感知 Query 生成器及动态3D地面位置嵌入，以提取车道信息。

时间融合。 来自历史帧的时间信息为自动驾驶中的3D感知提供了额外的信息。例如，在3D目标检测任务中，BEVFormer 将时间建模引入到多视图3D目标检测中，它采用时间自注意力来融合历史BEV特征。Sparse4D 通过稀疏采样和按照特定顺序融合多维度特征来迭代优化3D Anchor 点，以获得准确的检测结果。StreamPETR 将之前的和当前的稀疏目标 Query 都输入到Transformer解码器中，以执行空间时间交互。

在3D车道线检测任务中，Anchor3DLane-T 通过将当前帧的3D Anchor 点投影到之前的帧上来采样特征，从而融入时间信息。PETRv2 扩展了3D位置嵌入和多视图图像特征，用于时间建模，为Transformer解码器中的 Query 学习提供信息丰富的指导。STLane3D 提出了一种在BEV空间下的新颖多帧预对齐层，它将来自不同帧的特征统一投影到相同的ROI区域。

III Method

Overview

图3（a）和（b）分别展示了作者CurveFormer++在单帧3D车道线检测框架的概览以及所提出的时间融合块。

在图3（a）中，CurveFormer++由两个主要部分组成：一个共享的CNN Backbone 网络，它接收单个前视图图像作为输入并输出多尺度特征图；以及一个曲线Transformer解码器，通过曲线交叉关注传播曲线 Query ，并迭代地细化 Anchor 点集。

如图3.(b)所示，作者提出的时间传播融合块采用了稀疏曲线 Query 和动态 Anchor 点集。作者只将置信度最高的曲线 Query 和 Anchor 点传播到下一帧。

Shared CNN Backbone

Backbone 网络接收输入图像并输出多尺度特征图。在训练阶段，作者添加了一个辅助分割分支以增强共享的卷积神经网络 Backbone 。

Sparse Curve Query with Dynamic Anchor Point Set

DAB-DETR 提出了一种新颖的方法，其中 Query 被建模为 Anchor 框，由4D坐标（x, y, w, h）表示。这种表示使得交叉注意力模块能够利用每个 Anchor 框的位置和大小信息。受到DAB-DETR的启发，作者将类似的方法应用于基于Transformer的3D车道线检测，并使用动态 Anchor 点集。

其中位置编码（PE）被用来使用浮点数生成嵌入，而多层感知机（MLP）的参数在所有层之间共享。

Curve Transformer Decoder

作者的曲线Transformer解码器主要包括三个主要部分：一个多头自注意力模块，一个上下文采样模块以及一个曲线交叉注意力模块。作者在自注意力模块中应用了可变形注意力，该注意力集中于参考点周围的一组有限的关键采样点，而不管特征图的空间大小。

上下文采样模块。 在可变形DETR 方法中，使用一个可学习的线性层来估计与 Query 相关的参考点的采样位置偏移，这些偏移与图像特征无关。与这种方法相比，作者引入了一个上下文采样模块，通过结合更多的相对图像特征来预测采样偏移。图5展示了标准采样偏移模块（a）与作者的上下文采样模块（b）之间的区别。

Propagation Fusion Module.

在自动驾驶中，当前帧观察到的静态车道实例往往会在后续帧中持续存在。这一观察激发作者将历史信息传播到下一帧。基于CurveFormer++的独特设计，作者提出了一个简单直接的时间融合模块，该模块融合了曲线 Query 及其相应的 Anchor 点集。

如图6所示，作者比较了四种基于CurveFormer++构建的不同时间传播融合模块，以验证融合历史信息所带来的改进。

利用历史曲线 Query 。 与BEVFormer不同，后者通过使用自注意力将时态建模融入到多视图3D目标检测中，以融合历史鸟瞰图（BEV） Query ，作者提出了一个替代框架，使用稀疏 Query 作为时态传播的隐藏状态。具体来说，作者将历史信息从稀疏曲线 Query 传递到当前帧。这是通过使用历史帧曲线 Query 同时作为_键_和_值_，并在当前帧的初始曲线 Query 上应用时态自注意力来实现的，如图6（b）所示。

利用历史Top-K曲线 Query 。 在基于Transformer的检测模型中， Query 的数量通常远超实际目标数量，导致一些 Query 无法有效地学习目标的表示。遵循[31, 47]的方法，作者只将置信度最高的曲线 Query 传播到下一帧。如图6（c）所示，作者将历史的Top-k曲线 Query 直接与当前随机初始化的 Query 连接起来，并将曲线 Query 作为temporal self-attention中的 Query 、keys和values进行融合。

利用历史Top-K曲线 Query 和 Anchor 点集。 为了充分利用空间和上下文先验，作者不仅将传播扩展到Top-K曲线 Query ，还将在当前帧中转移相应的 Anchor 点集。如图6（d）所示，在传播历史Top-K曲线 Query 时，作者使用方程（6）将Top-K Anchor 点集转换到当前的坐标系统中，然后将它们与初始 Anchor 点集连接起来。通过包含历史曲线 Query 及其相关的 Anchor 点，模型能够捕捉并利用车道之间的时间依赖性和空间关系，从而提高了3D车道线检测的性能。

Curve Training Supervision

IV Experiments

Dataset

OpenLane 数据集。 OpenLane 数据集是第一个真实世界的3D车道数据集，基于 Waymo 开放数据集，以每秒10帧的频率包含超过20万帧。总共，它拥有一个带有157K张图片的训练集以及一个含有39K张图片的验证集。该数据集提供了相机内参和与 Waymo 开放数据集相同数据格式的相机外参。

ONCE_3DLanes 数据集。 ONCE_3DLanes 数据集是从最近的大规模自动驾驶数据集 ONCE 构建的一个真实世界的3D车道数据集。该数据集包含211K张具有高质量3D车道点标注的图像，涵盖多种天气和地区条件。

Experiment Settings

Evaluation Metrics

ONCE-3DLanes数据集采用两阶段评估指标来检测车道。最初，匹配度是基于俯视图平面上的交并比（IoU）确定的。如果匹配对的IoU超过某个阈值，它们将进一步使用单向 Chamfer 距离（CD）作为匹配误差进行评估。在作者的评估中，作者报告了在ONCE-3DLanes数据集上的F1分数、精确度、召回率和CD误差的结果。

Main Results

表1列出了在ONCE-3DLanes数据集和OpenLane数据集上F1分数的实验结果。类似于CurveFormer的 Query Anchor 建模方法，LATR通过利用语义结果作为 Transformer Query （Lane-Embed）的输入和动态3D地面位置嵌入（Ground-Embed）来构建一个关注车道的 Query 生成器，以增强车道信息。LATR在OpenLane和ONCE-3DLanes数据集上都取得了最先进的结果。

在OpenLane子集数据集（约300个视频片段）中，当不使用Lane-Embed和Ground-Embed组件时，CurveFormer++比LATR取得了更优的结果。如[44]中所声称的，主要的改进是通过Lane-Embed和Ground-Embed实现的。由于CurveFormer++没有使用这两个组件，作者在后续表格中主要比较了其他未包含这些组件的方法。

在ONCE-3DLanes数据集上的结果。 表2展示了在ONCE-3DLanes数据集上的实验结果。基于Transformer的方法优于基于CNN的方法。例如，CurveFormer++相比于3D-LaneNet和Gen-LaneNet显示出显著的改进。它还在F-Score上比Anchor3DLane高出2.78%，在精确度上高出1.72%。

此外，CurveFormer++超越了基于Transformer的方法，其F-Score比PersFormer高出5.15%，比STLane3D高出3.17%。值得注意的是，CurveFormer++达到了与STLane3D-T相当的性能，后者还额外结合了时间特征信息。作者的时间模型，CurveFormer++-T，与单帧设置相比，实现了更高的F-Score（+0.63）和召回率（+2.1）。

在OpenLane数据集上的结果。 对于OpenLane数据集，作者在整个验证集以及六个不同场景集上评估了CurveFormer++和CurveFormer++-T。在表3中，CurveFormer++与可能限制垂直信息表达的密集BEV方法相比，展示了显著的改进。通常情况下，在整个验证集上，它比PersFormer 在F-Score上高出2.2%。

同样，作者对CurveFormer的修改使得在验证集上的F-Score提高了2.2%，相比其原始版本。在各种场景中，包括上坡、下坡、曲线以及夜间条件，作者的基于Transformer的方法相较于基于CNN的方法Anchor3DLane（同样没有采用密集的鸟瞰图模块）提供了更准确的结果。

表4显示CurveFormer++-T在x和z误差上的预测更为精确，表明融合时间信息可以提高近区域检测结果的准确性。此外，作者使用第IV-C节提出的稳定性评估指标，对PersFormer，CurveFormer++和CurveFormer++-T在200个测试视频片段上进行评估。在96%的视频片段中，CurveFormer++-T的标准差低于PersFormer，并且在58%的视频片段中，在标准差降低方面优于CurveFormer++。相应的结果展示在图7中。

Ablation Study

在本节中，作者通过在OpenLane数据集的一个子集（约300个视频片段）上进行的消融研究，分析所提出的关键组件的效果。

V-E1 Single-frame Experiments

作者进行了验证，以评估CurveFormer++的组件和设置的有效性。

动态 Anchor 点集设计。 在作者的Curve Transformer解码器中，每个3D车道 Query 被表示为一个动态 Anchor 点集。动态 Anchor 点提取更准确特征的效率对每个解码器层上 Query 的逐步优化具有至关重要的作用。

为了研究作者动态 Anchor 点集的有效性，作者进行了实验，变化 Anchor 点的数量以及是否对 Anchor 点应用范围限制。实验结果列于表5中。正如预期的那样，简单地将 Anchor 点数量从10增加到40并不能提供性能提升。这可以归因于车道长度的变化，如果没有范围限制， Anchor 点可能会提取不相关的特征。

总体而言，当同时使用40个带有范围限制的 Anchor 点时，性能在F-Score上显示出显著提高2.7%。然而，使用超过40个 Anchor 点并没有提供任何额外的改进。这表明增加 Anchor 点数量可能会在特征提取中引入冗余，可能导致从图像中采样重复的车道特征。

网络结构与设置。 为了简化模型并降低计算成本，作者用仅解码器的网络替换了文献[32]中描述的原始编码器-解码器架构。两种结构的性能展示在表6中。

V-B2 Multi-frame Experiments

作者现在分析CurveFormer++-T的几个设计选择。

结果表明，使用历史 Anchor 点（图6（a））和历史曲线 Query （图6（b））可以得到类似的结果，并且通过融合时间信息提高了性能。历史 Query 和 Anchor 点都被证明能有效地增强3D车道线检测结果。同时，曲线 Query 比单独使用 Anchor 点取得稍微好一点的结果，这表明潜在的曲线 Query 可能包含除了显式点表示之外的额外信息。

在使用历史曲线 Query 时，选择具有最高置信度分数的前K个曲线 Query （图6（c））可以进一步提升F-Score 1.1%。这证明了仅使用信息丰富的 Query 作为历史信息来编码时间信息的重要性。最后，利用前K个精炼的稀疏曲线 Query 及其相应的动态 Anchor 点集（图6（d））相比于单帧模型取得了实质性改进，F-Score从51.8%提高到54.2%。这一改进验证了作者在时间传播模块设计中有效捕捉和利用时间信息的优越性。

实验结果表明，在考虑2个历史帧的同时，结合6个得分最高的曲线 Query 及其相应的 Anchor 点集，可以获得最佳的绩效，F-Score达到了55.4%。

V Conclusions

在本文中，作者介绍了CurveFormer++，一种基于Transformer的3D车道线检测方法。它使用动态 Anchor 点集来构建 Query ，并在Transformer解码器中逐层细化。此外，为了关注更多相关的图像特征，作者提出了曲线交叉注意力模块和上下文采样模块来计算关键点与图像的相似性。作者还融入了一种 Anchor 点范围限制方法，以增强模型在准确表示不同长度的车道时的鲁棒性和适应性。

此外，CurveFormer++应用了一种新颖的时间融合，利用稀疏曲线 Query 和动态 Anchor 点集来融合历史结果。在实验中，作者展示了CurveFormer++与基于CNN和基于Transformer的方法相比，取得了令人鼓舞的结果。