24年4月清华大学论文“Neural Radiance Field in Autonomous Driving: A Survey”。
神经辐射场(NeRF)由于其固有的优势,特别是其隐式表示和新视图合成能力,引起了学术界和工业界的广泛关注。 随着深度学习的快速发展,出现了多种方法来探索 NeRF 在自动驾驶(AD)领域的潜在应用。 然而,当前文献中存在明显的空白。 为了弥补这一差距,本文对 NeRF 在 AD 背景下的应用进行了全面的调查。 该综述旨在对 NeRF 在自动驾驶 (AD) 中的应用进行分类,具体包括感知、3D 重建、同步定位和建图 (SLAM) 以及模拟。 深入分析并总结每个应用类别的研究结果,最后对该领域的未来方向提供见解和讨论。
如图是NeRF在自动驾驶的类别:
在 NeRF 模拟中,有两种类型。 第一种类型将驾驶场景分为静态和动态部分,并使用神经辐射场。 然后,它编辑车辆或行人的运动以生成新场景并模拟图像数据。 根据场景表示,这种类型进一步分为隐式和显式方法。 第二种类型的重点是从新角度模拟激光雷达数据,将激光雷达传感过程模型与神经辐射场相结合来描绘场景的几何形状。 根据激光雷达传感过程的建模差异,该类型分为射线模型和光束模型。
NeRF 在自动驾驶感知任务中展示了巨大的潜力,该任务分为两个分支:数据增强和模型训练,如图所示。 数据增强需要利用 NeRF 的创新视图合成功能对训练数据集进行逼真的数据增强,而模型训练则涉及将神经渲染集成到训练过程中以捕获几何细节并提高性能。
如表所示,将 3D 重建分为三个子问题:动态场景重建、表面重建和逆渲染。
由于 NeRF 具有基于姿态和视图方向渲染图像的强大能力,因此将 NeRF 与姿态估计以及 SLAM 相结合的尝试自然受到了众多研究人员的考虑和研究。 相关研究大致可以分为两类:NeRF 的姿态估计和 NeRF 的场景表示。
最近出现了几种利用 NeRF 估计实时姿态的具体方法,可分为 3D 隐式表示和 3D 特征提取。与 NeRF 优化姿态估计相反,NeRF 在 SLAM 中的另一个应用是表示整个场景以优化建图性能。 根据场景表示级别,相关研究分为MLP级、体素级、点级和3D高斯级表示。
自动驾驶仿真为传感器数据生成创建逼真的虚拟环境,为现实世界测试提供了一种更安全、更具成本效益的替代方案,有利于创建多样化的驾驶场景并降低安全风险。 CARLA [93] 和 AirSim [94] 等传统模拟方法依赖于手动场景创建,并且由于手工制作的资产和简化的物理原理而存在显着的模拟与真实差距,因此面临着局限性。 GeoSim [95] 试图通过结合图形和神经网络来生成视频场景来弥补这一差距,但未能模拟新视图的传感器数据。 神经辐射场方法显着增强了真实感,并减少了场景创建和编辑中的手动工作,为缩小现实世界和虚拟世界之间的域差距提供了一种有前景的解决方案。
模拟方法主要分为两大类:图像数据模拟和激光雷达数据模拟。
当前基于神经辐射场的自动驾驶图像数据模拟方法使用来自真实驾驶环境的图像序列以及相应的摄像头姿势来重建场景,从而允许在原始场景中修改车辆行为生成并渲染新的逼真图像。 根据表示技术,这些方法进一步分为隐式表示方法(以 NeRF 为代表)和显式表示方法(以 3D Gaussian Splatting 为代表)[42]。
LiDAR 数据模拟的目的是利用 LiDAR 测量数据来增强神经场景表示,从而促进从新角度合成真实的 LiDAR 扫描。 这些方法基于不同的激光雷达传感过程建模技术,主要分为两类:射线模型和光束模型。
射线方法将LiDAR传感过程简化为单条射线,取代了原始NeRF模型中的相机射线,并通过球面投影将LiDAR点云数据转换为360度全景图像作为真值,将点云数据转换为伪图像数据。与上述方法不同,NFL[105]使用具有散射角的发散光束来模拟LiDAR传感过程。 该技术可以准确地再现关键传感器行为,例如光束发散、二次返回和光线下降,如图所示。