场景重建——Nerf场景重建

3DGS和Nerf的区别

一、概念
二、3DGS区别
三、相关工作
三、Nerf相关工作
- 3.1、Point-NeRF（CVPR2022:Point-Based Neural Radiance Fileds）
- 3.2、Plenoxels(CVPR2022:Radiance Fields without Neural Networks)
- 3.3、MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving（CICAI 2023）
- 3.4、EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
- 3.5、NeuRAD: Neural Rendering for Autonomous Driving
- 3.6、LidaRF: Delving into Lidar for Neural Radiance Field on Street Scenes
- 3.7、StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views

一、概念

二、3DGS区别

三、相关工作

三、Nerf相关工作

3.1、Point-NeRF（CVPR2022:Point-Based Neural Radiance Fileds）

1.为每个点赋予特征向量；
2、体渲染时取采样点周边一定领域内的点的特征做线性插值，解码得颜色和体密度；
3、自适应点云生长和剔除。

在这里插入图片描述
为每个点提取一个特征，储存在点里边；渲染采用体渲染，即从相机光心发出穿透像素的采样射线上取采样点，取采样点周边一定范围内的三维点的特征向量做插值得到采样位置的特征表达；再对特征进行解码得到采样位置的体密度和RGB；再堆叠整条射线上的点得到像素RGB的值。（常见的NerF思路：特征向量、体渲染、插值、解码）

与本文一样由点云出发，构建辐射场，但不同点在于本文点里边存储了物理含义更加明确的3D高斯，避开了Point-NeRF中对抽象特征的学习过程，从而使得训练更容易收敛；在渲染方面，Point-NeRF用体渲染，本文用Splatting更加传统且效率更高。

3.2、Plenoxels(CVPR2022:Radiance Fields without Neural Networks)

体素格点存储球谐函数（spherical harmonic）系数，系数做插值得到采样位置的球谐函数。
在这里插入图片描述
继承了NeRF体素、三线性插值和体渲染的要素，抛弃了常用的MLP和隐式特征，直接用更加显示的球谐函数（CG常用），没有神经辐射场。此论文凭此跻身NeRF加速前沿的第一梯队。
本文的3D高斯Splatting的思想和Plenoxels一脉相承，均用尽可能传统但高效的表达方式来提高模型表达能力的下限，再结合一些可微的和可学习的思想来提高模型拟合的上限。简洁优雅效率高。

3.3、MARS: An Instance-aware, Modular and Realistic Simulator for Autonomous Driving（CICAI 2023）

论文地址：[论文链接]。(https://arxiv.org/abs/2307.15058v1)
代码地址：代码链接。
清华AIR提出的首个开源自动驾驶NeRF仿真工具！如今自动驾驶汽车在普通情况下可以平稳行驶，人们普遍认为，逼真的传感器仿真将在通过仿真解决剩余的corner case方面发挥关键作用。为此，我们提出了一种基于神经辐射场（NeRFs）的自动驾驶仿真器。与现有的工作相比，我们有三个显著的特点：

Instance-aware：前景目标和背景，单独建模，因此可以保证可控性Modular：
模块化设计，便于集成各种SOTA的算法进来Realistic：
由于模块化的设计，不同模块可以灵活选择比较好的算法实现，因此效果SOTA。

3.4、EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

论文地址：论文链接。
代码地址：添加链接描述。

加利福尼亚大学的工作：本文提出了EmerNeRF，这是一种简单而强大的学习动态驾驶场景时空表示的方法。EmerNeRF以神经场为基础，通过自举同时捕获场景几何、外观、运动和语义。EmerNeRF依赖于两个核心组件：首先，它将场景划分为静态和动态场。这种分解纯粹源于自监督，使我们的模型能够从一般的、野外的数据源中学习。其次，EmerNeRF将动态场中的感应流场参数化，并使用该流场进一步聚合多帧特征，从而提高了动态目标的渲染精度。耦合这三个场（静态、动态和流）使EmerNeRF能够自给自足地表示高度动态的场景，而无需依赖GT标注或预先训练的模型进行动态目标分割或光流估计。我们的方法在传感器仿真中实现了最先进的性能，在重建静态（+2.93 PSNR）和动态（+3.70 PSNR）场景时明显优于以前的方法。此外，为了支持EmerNeRF的语义泛化，我们将2D视觉基础模型特征提升到4D时空中，并解决了现代变形金刚中的普遍位置偏差问题，显著提高了3D感知性能（例如，职业预测精度平均相对提高了37.50%）。最后，我们构建了一个多样化且具有挑战性的120序列数据集，用于在极端和高度动态的环境下对神经场进行基准测试。总结来说，本文的主要贡献如下：

EmerNeRF是一种新颖的4D神经场景表示框架，在具有挑战性的自动驾驶场景中表现出色。EmerNeRF通过自监督执行静态动态分解和场景流估计；
一种简化的方法，可以解决ViT中位置嵌入图案的不良影响，该方法可立即应用于其他任务;
引入NOTR数据集来评估各种条件下的神经场，并促进该领域的未来发展;
EmerNeRF在场景重建、新视角合成和场景流估计方面实现了最先进的性能。

3.5、NeuRAD: Neural Rendering for Autonomous Driving

论文地址：论文链接。
代码地址：代码链接。

Zenseact的工作：神经辐射场（NeRF）在自动驾驶（AD）领域越来越受欢迎。最近的方法表明，NeRF具有闭环仿真的潜力，能够测试AD系统，并作为一种先进的训练数据增强技术。然而，现有的方法通常需要较长的训练时间、密集的语义监督或缺乏可推广性。这反过来又阻止了NeRFs大规模应用于AD。本文提出了NeuRAD，这是一种针对动态AD数据量身定制的鲁棒新型视图合成方法。我们的方法具有简单的网络设计，对相机和激光雷达进行了广泛的传感器建模，包括滚动快门、光束发散和光线下降，适用于开箱即用的多个数据集。我们在五个流行的AD数据集上验证了它的性能，全面实现了最先进的性能。

3.6、LidaRF: Delving into Lidar for Neural Radiance Field on Street Scenes

论文地址：论文链接。

加州大学欧文分校的工作：真实仿真在自动驾驶等应用中起着至关重要的作用，神经辐射场（NeRF）的进步可以通过自动创建数字3D资产来实现更好的可扩展性。然而，由于共线相机的大运动和高速下的稀疏样本，街道场景的重建质量会受到影响。另一方面，实际使用通常要求从偏离输入的相机视图进行渲染，以准确模拟车道变换等行为。在这篇论文中，我们提出了几个见解，可以更好地利用激光雷达数据来提高街道场景的NeRF质量。首先，我们的框架从激光雷达中学习几何场景表示，将其与隐式基于网格的表示融合用于辐射解码，然后提供显式点云提供的更强几何信息。其次提出了一种鲁棒的遮挡感知深度监督方案，该方案允许通过累积来利用密集的激光雷达点。第三本文从激光雷达点生成增强训练视图，以进一步改进。我们的见解转化为在真实驾驶场景下大大改进的新视图合成。

3.7、StreetSurf: Extending Multi-view Implicit Surface Reconstruction to Street Views

论文地址：添加链接描述。
代码地址：代码链接

在这里插入图片描述

上海AI Lab和商汤的工作：本文提出了一种新的多视图隐式表面重建技术，称为StreetSurf，该技术很容易应用于广泛使用的自动驾驶数据集中的街景图像，如Waymo感知序列，而不一定需要LiDAR数据。随着神经渲染研究的迅速发展，将其整合到街景中开始引起人们的兴趣。现有的街景方法要么主要关注新视图合成，很少探索场景几何，要么在研究重建时严重依赖密集的LiDAR数据。他们都没有研究多视图隐式表面重建，特别是在没有激光雷达数据的情况下。我们的方法扩展了现有的以目标为中心的神经表面重建技术，以解决由非以目标为核心、长而窄的相机轨迹捕获的无约束街景所带来的独特挑战。我们将无约束空间划分为近距离、远景和天空三个部分，具有对齐的长方体边界，并采用长方体/超长方体哈希网格以及路面初始化方案，以实现更精细和更复杂的表示。为了进一步解决无纹理区域和视角不足引起的几何误差，我们采用了使用通用单目模型估计的几何先验。再加上我们实施了高效细粒度的多级光线行进策略，我们使用单个RTX3090 GPU对每个街道视图序列进行训练，仅需一到两个小时的时间，即可在几何和外观方面实现最先进的重建质量。此外，我们证明了重建的隐式曲面在各种下游任务中具有丰富的潜力，包括光线追踪和激光雷达模拟。

持续更新ING…