【论文笔记】4D Millimeter-Wave Radar in Autonomous Driving: A Survey

原文链接：https://arxiv.org/abs/2306.04242

I. 引言

传统毫米波雷达（3D毫米波雷达）测量俯仰角的能力有限，数据通常仅包括距离、水平角和多普勒速度信息。此外，3D雷达数据存在噪声且分辨率低（尤其是水平角维度）。

4D毫米波雷达能额外测量高度维度，且保留了3D雷达的优势（尺寸紧凑、成本低、全天候适应和远距离检测）。但其更大的数据量、稀疏性和噪声为信号处理和数据生成带来了挑战，且需要针对4D雷达的内在特性设计感知、定位和建图算法。

本文后续章节的结构如下。
在这里插入图片描述

II. 4D毫米波雷达的背景

A. 信号处理流程

在这里插入图片描述
如图所示为传统的信号处理流程和响应的4D雷达数据格式。第1步，毫米波从发射（TX）天线发射，并通过目标反射，由接收（RX）天线接收。 大多数4D毫米波雷达使用的波形为调频连续波（FMCW），因其分辨能力比起其它波形更高。在每个运行周期（chirp），发射信号的频率线性增大，其起始频率 $f_c$ ，带宽 $B$ ，频率斜率 $S$ 和持续时间 $T_c$ 。通过测量接收信号的频率，可得到目标的距离 $r$ ：
$r=\frac{ct}2,t=\frac{\Delta f}S$

其中 $t$ 为发射与接收的间隔时间， $c$ 为光速， $\Delta f$ 为发射与接收信号的频率差。

一帧FMCW雷达通常包括 $N_c$ 个chirp，总时间为 $T_f$ 。为避免chirp之间的干扰，发射和接收的信号被认为来自同一个chirp。因此，4D雷达能检测的最大不模糊的距离由chirp时间 $T_c$ 限制。

假设目标的位置在一帧中不变，在两个相邻chirp之间的频移用于推断相对径向速度 $v$ （利用多普勒效应）：
$v=\frac{c\Delta f}{2f_c},\Delta f=\frac{\Delta\phi}{2\pi f_c}$

其中第一式为多普勒效应公式， $\Delta f$ 和 $\Delta\phi$ 分别为相邻chirp之间的频移和相移。距离和多普勒分辨率取决于 $f_c,T_c,N_c$ 等参数。

第2步，TX-RX信号对会送入混频器，并在第3步中通过模数转换器（ADC）转化为数字形式，称为ADC数据。ADC数据的坐标轴分别代表chirp中和帧中的采样时间戳，而每个位置的值为反射信号的强度。chirp内的采样用于计算距离，称为快速时间采样；而帧内的采样用于推导多普勒信息，称为慢速时间采样。

第4步沿距离和多普勒维度使用两个快速傅里叶变换（FFT），得到距离-多普勒（RD）图，其坐标轴代表距离和多普勒速度。

由于RD图没有水平角和俯仰角信息，还需使用两种信号处理方法区分出高强度物体并获取点云。一种方法是，先使用FFT沿TX-RX对推导目标的到达方向（DOA）（步骤5a），得到4D的距离-水平角-俯仰角-多普勒张量（对于3D雷达，则是3D的距离-水平角-多普勒张量），其每个格子的值为反射信号的强度。
在这里插入图片描述
如图所示，估计DOA需要MIMO的天线设计， $n$ 个发射天线和 $m$ 个接收天线可构成 $n\times m$ 个虚拟TX-RX对。为保证分离，TX天线需要发射正交信号。分析TX-RX对之间的相移，可计算同一物体与不同天线对之间的距离差异。进一步根据TX与RX天线的安排，可确定目标的DOA。

第6a步则根据单元格的强度，对4个维度使用恒定虚警率（CFAR）算法，得到点云。 CFAR算法通过比较单元格与邻近单元格的强度，设置动态强度阈值，以实现恒定虚警率。

另一种信号处理流程则首先过滤RD图，生成目标网格，再使用CFAR类算法（步骤5b），并使用数字波束成型（DBF）算法恢复角度信息，生成点云。

B. 3D到4D的提升方法

提高俯仰角分辨率的方法分为基于硬件的和基于软件的方法。

硬件：通过级联多个标准毫米波雷达芯片或在单个芯片上整合更多的天线，增加TX-RX对的数量。另一方法是通过一些技术（如元材料）增大天线的有效孔径。
软件：通过虚拟实现硬件提升或优化信号处理算法，雷达分辨率可在软件层面提升。合成孔径雷达（SAR）技术表明，可通过软件设计虚拟地扩大天线孔径。基于学习的算法也有潜力替代传统信号处理算法，得到超分辨率结果。

C. 外参校准

3D雷达的传统校准方法通常是使用角反射器提高校准精度。通过放置多个角反射器并结合激光雷达和摄像头数据分析传感结果，可校准外参。

有方法同时校准多个传感器相对载体固定点的位置，而非传统的顺序校准。
也有方法使用RANSAC和Levenberg-Marquardt非线性优化，使用一个角反射器即可校准。

但是，在实际场景中使用角反射器校准的可行性有限。有方法利用雷达运动测量进行在线校准；也有方法修改激光雷达的校准方法。但是这些方案在极端天气下的性能可能有限，因此基于学习的方法值得进一步探索。

III. 数据集

A. 感知数据集

感知数据集通常提供3D（或2D）边界框用于目标检测任务，以及跟踪ID用于目标跟踪任务。

相关数据集包括Astyx、Radatron、RADIal、VoD、TJ4DRadSet、K-Radar、Dual-Radar等。

B. 定位与建图数据集

只要含有里程计信息，上述感知数据集也可用于定位与建图。

专用于定位与建图的数据集包括：ColoRadar、MSC-RAD4R、NTU4DRadLM等。

C. 挑战

目前的数据集缺少标注的ADC数据。一种可能的方法是使用依赖传感器模型的语法数据生成方法，但雷达的建模非常困难，因其在获取数据的过程中存在多路径反射、信号干涉、反射表面相互作用、离散分辨率单元格和信号衰减等效应。

此外，目前数据集的大小还不够。

IV. 基于学习的雷达数据增强

传统的CFAR算法无法考虑实际场景的复杂性和多样性，会产生掩蔽效应，从而导致点云分辨率降低和信息丢失。

目前的方法分为两类，称为“重建器”和“检测器”，如图所示。
在这里插入图片描述

A. 重建器

重建器关注提高获得点云的分辨率，是一种点云保真度的后处理增强方法。

激光雷达点云重建启发了一些方法，但这些方法需要来自目标多个视角的数据。

有方法使用条件生成对抗网络（GAN）的结构促进了生成器和判别器的同时训练。
也有方法使用两阶段点云生成过程，结合了倒角距离（CD）和推土机距离（EMD）指标作为损失。

B. 检测器

检测器直接输入RD图或4D张量，从而绕过CFAR或DBF等传统技术。

DRD使用CNN处理RD图，并将RD图中的目标检测任务视为分割任务，使用与2D U-Net类似的结构。为处理有标注RD图数据不足的问题，还设计了策略从无回声室内的校准过程中提取有标签雷达数据；还引入数据增广方法增加数据多样性。但这一方法未在真实场景中的数据下验证。
有方法使用激光雷达点云作为监督，基于GAN与U-Net设计网络，生成的4D雷达点云噪声更少、密度更高。

C. 挑战

由于CFAR前的数据的手工标注十分困难，神经网络难以获取高质量的监督。一种方法是使用深度学习方法生成合成的车载雷达场景和数据，但其基于仿真，其世界模型不够精确。此外，CFAR前数据的处理需要大量计算和存储，需要平衡信息损失和计算量。

V. 感知应用

目前的4D雷达点云密度能达到低线数激光雷达点云相当的水平，这使得一些工作尝试将激光雷达点云处理模型迁移到4D雷达。此外，由于CFAR前的数据有更多信息，一些工作直接使用RD图或4D张量。
在这里插入图片描述

A. 点云特征提取

使用激光雷达点云方法需要考虑雷达的优势（距离分辨率更高、速度测量、早期目标检测）和不足（低分辨率表达、数据稀疏性、数据内在的不确定性）。

最早的工作使用CNN结构进行4D雷达点云与图像的融合。为协调数据格式的差异，其丢弃了雷达的多普勒信息，仅使用雷达点的坐标和强度。其实验表明，使用雷达点云能超过16线激光雷达点云的性能。
后续工作利用了4D雷达的独特属性，如俯仰角、多普勒和RCS强度；还处理了点云内在的稀疏性和不规则性。

多数方法使用SECOND或PointPillars的隐式结构，直接编码额外的雷达点属性。

RadarPillarNet使用独立的线性层提取空间位置、速度和强度信息，生成BEV伪图像。

为显式地利用俯仰角信息，一些方法从多个视角（如前视图（FV）、BEV、侧视图（SV）等）提取点云特征：

SMIFormer使用视图内自注意力和视图间交叉注意力进行特征聚合；提出的稀疏维度压缩技术可减少3D体素转化为2D特征的存储和计算。

为显式地利用多普勒信息：

一些方法计算自车速度，并补偿得到每个雷达点的真实速度（绝对速度），随后积累多帧点云以增大密度。
也有方法将点的绝对和相对速度，以及反射率整合到位置编码中。位置编码会与点特征的自注意力重加权图相乘，以可训练的方式增强特征的信息交互。
还有方法引入“检测后跟踪”的策略，利用速度实现点的运动分割和场景流估计。随后使用DBSCAN聚类算法得到结果进行跟踪。

另一挑战是处理4D雷达点云的内在稀疏性、不规则分布和噪声。例如，一些点可能会在地面以下，影响检测性能。常用的解决方法是积累多帧点云、预处理或过滤点云、使用空间注意力机制提取上下文信息进行特征增强，以及引入其它模态的信息。

积累多帧点云需要多普勒信息。可通过自车速度估计和运动补偿，或是运动分割和场景流估计实现。

预处理方面，相关方法通过细化初始数据，实现更精确和可靠的下游处理：

InterFusion和M2Fusion使用高斯分布，基于Shapiro-Wilk测试，评估点的垂直角是否位于正常范围，并过滤地面以下的噪声点。
SMURF使用逐点的核密度估计（KDE），计算一定距离范围内点云的密度，以提供点分布的细节理解。密度信息会与柱体化特征拼接，得到增强的BEV特征。

模型主干结构方面，空间注意力可用于解决点云的稀疏性和不规则。

有方法使用自注意力从柱体化点云中提取全局特征。
也有方法使用自注意力和交叉注意力增强不同的视图特征。前者关注理解单一视图，后者跨视图理解场景。
还有方法使用自注意力的注意力权重来区分和重新加权前景和背景点及相应的特征，并使用二元分类损失辅助训练。
一些方法使用空间注意力融合多模态特征，不仅处理了点云的稀疏性和噪声，还利用了不同传感器的优势（见第V-C节）。

B. CFAR前的特征提取

ADC数据通过FFT得到的距离-多普勒（RD）图、距离-水平角（RA）图、距离-水平角-多普勒（RAD）图或4D张量通常会与BEV极坐标的RA轴或是笛卡尔坐标的XY轴对齐。

K-Radar将4D张量压缩为3D张量，并取前5%的元素，通过3D稀疏卷积提取特征进行检测，可以在保证精度的同时大幅提高速度。
TransRadar将RAD图投影为RA、RD和AD图，并设计自适应有向注意力模块分别编码。
使用RD图的方法通常沿RD维度，使用CNN或Swin Transformer编码特征，然后将多普勒维度视为通道维度，而将传统的通道维度定义为水平角维度，通过反卷积和上采样外推距离-水平角图的特征。
RA图则与极坐标系对齐，方便直接处理。提取的BEV特征可通过双线性插值转化为笛卡尔坐标，或是使用基于极坐标的检测框架。
一些方法利用傅里叶变换先验，使用复值线性层处理ADC数据。
也有方法利用从单一距离FFT得到的数据生成距离-时间（RT）表达，证明了水平角分辨率和多普勒-水平角的先后顺序不是高性能检测的必要条件。

C. 多传感器融合方法

对于4DRV（4D雷达与视觉）融合，4D雷达可提供图像缺乏的高精度深度信息和速度信息。

有方法在图像和点云BEV特征图上使用3D区域提案网络，并为提案锚框裁剪和整合多模态特征。
后续方法使用自监督模型适应模块，根据物体属性动态融合不同模态。同时，还生成了点云的FV图以利用雷达的高度信息。
RCFusion分别提取各模态的BEV特征，进一步生成2D注意力图与另一模态相乘。
LXL使用雷达BEV特征推理3D占用网格，与图像3D特征相乘，实现图像特征的注意力采样。

一些方法使用4DRL（4D雷达与激光雷达）融合。

InterRAL设计基于交互的融合网络，更新两个模态的柱体特征以进行增强，并用实验证明了其鲁棒性。
M2Fusion则整合了基于交互的多模态融合（IMMF）模块和基于中心的多尺度融合（CMSF）模块，超越了激光雷达方法的性能，且能利用雷达的大检测范围和激光雷达的高精度特点。

D. 挑战

基于点云的方法主要借鉴激光雷达方法，而基于CFAR前特征的方法则往往使用视觉方法；需要更加关注雷达的独有特性（速度和强度、噪声）。4D雷达在分布外（OoD）条件下的弹性也未被充分探索和理解。

VI. 定位和建图应用

由于雷达点云的数据密集性远不如雷达张量，且可略微改动激光雷达方法进行定位建图，因此绝大多数方法使用雷达点云作为输入。
在这里插入图片描述

A. 多普勒信息的利用

总的来说，多普勒信息的利用可分为4类：
(1)自车速度估计：由于雷达测量的是相对径向速度，而动态物体的速度未知，因此只有静态物体的多普勒速度可用于推断自车速度。考虑到多数点均为静态点，可使用线性最小二乘（LSQ）方法。

设雷达点的3D空间坐标为 $p_i$ ，其方向向量为：
$r_i=\frac{p_i}{\|p_i\|}$

设其为静态点，则其多普勒速度 $v_{d,i}$ 为自车速度 $v_e$ 在雷达到点 $p_i$ 连线上的投影：
$v_{d,i}=v_e\cdot r_i=v_{e,x}r_{i,x}+v_{e,y}r_{i,y}+v_{e,z}r_{i,z}$

对含有 $N$ 个点的雷达帧，可写成矩阵形式 $v_d=Rv_e$ 。根据LSQ，最优解为：
$v_e=(R^TR)^{-1}R^Tv_d$

由于动态物体和噪声的存在，上述结果可能不准确。

有方法使用RANSAC等技巧，在LSQ前有效移除动态点。
也有方法为LSQ引入加权机制：
有方法可使用信号强度作为权重以去除噪声的影响；
有方法使用重加权最小二乘方法以处理动态目标，目标函数为 $\min_{v_e}\sum_{i=1}^n\lambda_i\|v_{d,i}-r_i\cdot v_e\|$ ，其中 $\lambda_i$ 为权重，第一轮迭代时为1，此后为 $1/(\|v_{d,i}-r_i\cdot v_e\|+\epsilon),\epsilon=1e-5$ 。当点的多普勒速度与其理想的多普勒速度接近时，其权重较大。从而在迭代中逐渐减小动态点的权重，得到更准确的自车速度估计。RCS值被用于点云配准残差加权，以减小较大RCS差异对匹配的影响。

(2)动态点移除：可利用自车速度估计的结果移除动态目标。

(3)角度分辨率提升：由于4D雷达的角度分辨率取决于虚拟TX-RX对，而距离和多普勒分辨率取决于发射和接收信号的频率差。因此，其角度分辨率低于距离和多普勒分辨率。

有方法证明，当两点的距离和水平角相同时，其俯仰角差异和多普勒差异是有关联的。故多普勒速度分辨率可转化为角度（水平角、俯仰角）分辨率。
也有方法利用多普勒信息细化点云，并利用地面点进行雷达惯性测程，在动态环境中也有稳定性。当一个点被认为是地面点时，其 $z$ 坐标可根据多普勒信息和 $x, y$ 坐标重新计算。接着，利用RANSAC启发的方法，迭代地细化点云和估计自车速度。细化的点云也可用于后续任务如目标检测。

(4)网络增强：

由于多普勒信息可指示点的动静属性，有方法提出速度感知的注意力模块，利用多普勒信息学习注意力权重，以区分动静点。

B. 传统方法

相关的研究通常包括里程估计和闭环检测。

(1)里程估计：里程估计是定位的核心和SLAM的关键部分。

早期的里程估计关注自车速度估计（利用多普勒信息）而非点云配准。

有方法使用LSQ估计的速度和IMU数据进行无人机（UAV）里程估计，并扩展到多个雷达以及雷达摄像头融合方法。但该方法利用曼哈顿世界假设并认为环境为静态的。
还有方法提出连续时间框架，融合来自多个雷达的自车速度和IMU测量。连续性使其可以利用优化的封闭表达式，适合异步传感器融合。
也有方法组合了自车速度与自车的运动学模型，以重建3D运动。该方法有短期精度和快速执行能力，适合作为SLAM的运动先验。

近期的研究将关注点转移到了类似传统激光雷达测程方法的点云配准。

有方法基于经典的匈牙利算法跨帧匹配雷达点云。
4D雷达惯性测程和建图系统4D iRIOM利用扩展卡尔曼滤波器（EKF）。为处理稀疏性，其配准方法考虑当前帧点的局部几何以及子图中最近的 $N$ 个点，通过协方差加权距离，实现单一分布到多分布的作用。
G-iRIOM则是4D iRIOM与GNSS的结合，其进一步使用了RCS值加权点云配准。
有方法根据激光雷达SLAM方法hdl_graph_slam，利用了姿态图建立4D雷达SLAM系统。基于广义迭代最近点（GICP）这一经典的点云配准算法，提出自适应概率分布GICP，根据从点的坐标中推断的不确定性（远处的点有更高的不确定性），为每个点分配不同的协方差。该方法不仅考虑了临近点的几何分布，还考虑了各点的空间方差。
另一姿态图SLAM系统4DRaSLAM则整合了各点的概率密度函数，设计了概率感知的正态分布变换（NDT），进行帧到子图的点云配准。由雷达多普勒估计的自车速度替代了IMU的功能，作为系统的预整合因素。

(2)闭环检测：目前包含闭环检测的4D雷达SLAM通常参考扫描上下文算法。原始的扫描上下文算法根据水平角将激光雷达点云分割为若干区域，然后使用每个区域中点的最大高度编码点云为图像。但由于4D雷达的高度分辨率相对较低，这些系统使用最大强度替代最大高度。

C. 基于学习的方法

目前基于学习的4D雷达定位与建图方法主要关注里程估计，将传统的点云配准和姿态回归使用深度网络替换。

最早的方法分别使用CNN和RNN提取雷达点云和IMU数据的特征，随后使用两阶段跨模态注意力机制聚合特征。此外，使用RNN捕捉系统的长期时间动态。
4DRO-Net建立了由粗到细的层次优化框架，使用滑动窗口方法迭代地细化估计的姿态。基于速度感知的注意力代价体网络，还建立了一个提取全局特征和点级特征的特征提取网络，其提取的特征用于生成初始姿态估计并进行后续修正。两种姿态估计结合推导增强的里程估计。
4DRVO-Net进一步提取和融合图像特征。自适应融合模块使用基于可变形注意力的空间交叉注意力对齐两模态特征，以达到最优融合。

这些基于学习的里程估计方法都是端到端的，有利于端到端自动驾驶系统的研究。