摘要
由于固有的限制,如无法感知透明物体和有限的距离范围,室内深度传感器捕获的原始深度图像通常会有大面积的深度值缺失。这种不完整的深度图给许多后续视觉任务带来了负担,尽管提出了很多深度补全方法来缓解这一问题。但是现有的大多数方法都是从稀疏和均匀采样的深度图生成精确的稠密深度图,不适用于补充大面积连续的深度值缺失区域,而这是十分常见且至关重要。本文设计了一种新颖的两分支端到端融合网络,输入为RGB图像和不完整的深度图,输出为稠密且完整的深度图。第一个分支采用编码器-解码器结构,借助RGB图像中提取的局部引导信息从原始深度图中回归局部稠密的深度值。另一个分支中,我们提出了一个RGB-D融合GAN,用于将RGB图像转换为细粒度的纹理化深度图。我们采用了名为W-AdaIN的自适应融合模块,以在两个分支之间传播特征,并在最后附加了一个置信度融合头,用于融合两个分支的输出,得到最终的深度图。通过在NYU-Depth V2和SUN RGB-D数据集上的广泛实验,我们的方法显著提升了深度补全性能,特别是在伪深度图的帮助下得更真实的室内环境中表现更好。
1.简介
如今,深度传感器已广泛应用于增强现实、室内导航和3D重建任务等各种应用中,用于提供可靠的3D空间信息。然而,大多数现有的商用深度传感器(如Kinect、RealSense和Xtion)在室内空间感知方面并不够强大,无法生成精确且无损的深度图,如图1的上方所示。这些传感器通常会由于透明、光滑和暗色表面,以及距离传感器过近或过远的边缘,生成许多无效深度像素的孔洞区域,而这些孔洞会显著影响后续任务在深度图(也称为深度图像)上的表现。为了解决深度图不完美的问题,已经提出了许多方法来从原始深度图重建完整的深度图,称为深度补全。由于RGB图像相比深度图提供了丰富的颜色和纹理信息,通常使用对齐的RGB图像来引导深度图的补全。更具体地说,深度补全任务通常是通过使用由同一深度传感器捕获的一对原始深度图和RGB图像来完成和优化深度值。
最近的研究利用卷积神经网络(CNN)在深度补全任务中取得了显著进展。Ma和Karaman提出了一种编码器-解码器网络,直接从稀疏深度图和RGB图像中回归稠密深度图。与传统算法相比,该方法显示了很大进步,但其预测的稠密深度图通常过于模糊。为了进一步生成更精细的补全深度图,近期出现了许多相关工作,这些工作根据不同的优化方法可分为两类。第一类工作通过学习相对像素的亲和性并迭代优化深度预测结果。这些方法高度依赖于原始全局深度图的准确性,并且推理效率较低。另一类工作则分析几何特性,并相应地调整特征网络结构,例如通过估计表面法线或将深度投影到离散平面上。这些方法需要深度图的完整性,没有缺失区域,且模型参数可能无法高效地泛化到不同场景中。无论是哪种方法,RGB图像通常仅作为表面上的引导或辅助信息,较少有方法深入考虑纹理和上下文信息。在这一点上,深度补全任务或多或少退化为单目深度估计任务,虽然概念上简单,但实际上难度较大。
更值得注意的是,大多数上述方法通过从稠密深度图中随机均匀地采样一定数量的有效像素来模拟稀疏深度图,用于训练和评估。这种采样策略在某些场景中是可信的,例如由LiDAR生成的室外范围视图深度图。然而,这种采样模式与真实的缺失模式相差较大,例如在室内深度图中常见的大面积缺失区域和语义相关的缺失模式。因此,尽管现有方法已被证明对完成均匀稀疏的深度图有效,但尚未验证它们在室内深度补全任务中是否表现足够良好。
为了解决这些问题,我们提出了一种新颖的双分支端到端网络,用于生成室内环境中的完整稠密深度图。受到生成对抗网络(GANs)的启发,我们引入了RGB-深度融合GAN(RDF-GAN),用于融合RGB图像和深度图。RDF-GAN通过不完整深度图生成的潜在空间向量,将RGB域中的RGB图像映射到深度域中的稠密深度图。我们进一步设计了一个约束网络,结合加权自适应实例归一化(W-AdaIN)模块和局部引导模块,来限制融合后的深度图的深度值。最后,一个置信度融合头完成最终的深度图补全任务。
此外,我们提出了一种利用技术,通过采样原始深度图像生成伪深度图用于训练。根据室内深度缺失的特点,我们利用RGB图像和语义标签为原始深度图生成遮罩区域,这比简单的均匀采样更加现实。实验表明,基于伪深度图学习的模型能够更有效地填补室内捕获的原始深度图中的大面积缺失区域。
我们的主要贡献总结如下:
- 我们提出了一种新颖的基于GAN的端到端网络,有效融合原始深度图和RGB图像,生成合理的稠密深度图。
- 我们设计并使用了伪深度图,与室内场景中原始深度图的缺失分布一致。使用伪深度图进行训练显著提高了模型的深度补全性能,尤其是在更真实的室内环境设置中。
- 我们提出的方法在NYU-Depth V2和SUN RGB-D数据集的深度补全任务中达到了最新的性能,并证明其在提高物体检测等下游任务性能方面的有效性。
2.相关工作
深度补全近年来,深度神经网络已被广泛应用于深度估计和补全任务,并取得了显著的改进。Ma 和 Karaman [23] 使用了基于卷积神经网络(CNN)的编码器-解码器结构,直接从一组深度样本和RGB图像预测全分辨率的深度图。在此基础上,一些方法提出了增加额外的输出分支以辅助生成深度图。Qiu 等人 [32] 使用表面法线作为中间表示生成稠密深度。Huang 等人 [12] 应用了边界一致性来解决结构模糊的问题。Lee 等人 [18] 引入了平面-残差表示法来解释深度信息,并将深度回归问题分解为离散深度平面分类和逐平面残差回归的组合。Zhang 等人 [40] 使用生成对抗网络(GANs)解决了室外场景中的语义分割和深度补全任务。Cheng 等人 [3] 提出了卷积空间传播网络(CSPN),通过递归操作生成长程上下文信息,从而减轻了直接回归绝对深度信息的负担。Park 等人 [29] 通过非局部空间和全局传播改进了CSPN。这些方法证明了编码器-解码器网络可以有效地执行深度补全任务,并通过额外的优化获得更精细的深度图。在本工作中,我们扩展了编码器-解码器结构,构建了我们的深度补全模型。
RGB-D融合 RGB与深度数据的融合(即RGB-D融合)在许多任务中至关重要,例如语义分割和深度补全。大多数现有方法[23, 25]仅仅将RGB与深度特征的对齐像素进行简单的拼接,但最近提出了更为有效和先进的RGB-D融合方法。Cheng等人[4]设计了一个门控融合层,用于学习在不同场景中每种模态的不同权重。Park等人[30]通过残差学习在非常深的网络中融合了多层次的RGB-D特征。Du等人[6]提出了一种新颖的跨模态翻译网络,以表示互补信息并增强提取特征的区分度。在本工作中,我们设计了双分支结构和W-AdaIN模块,以更好地捕捉和融合RGB和深度特征。
生成对抗网络生成对抗网络(GANs)在各种图像生成任务中取得了巨大成功,如图像风格迁移、真实感图像生成和图像合成。Mirza等人[27]提出了条件GAN,通过结合附加信息作为条件来引导数据生成过程。Karras等人[15]引入了基于风格的GAN,将潜在编码嵌入到潜在空间中,以影响生成图像的变化。Ma等人[24]提出了一种用于红外和可见光图像的GAN。在本工作中,我们使用基于GAN的结构,将RGB图像和深度图融合,以生成具有细粒度纹理的稠密深度图。
3.方法
在本节中,我们描述了我们提出的端到端深度补全方法,如图2所示。该模型以原始(可能有噪声且不完整的)深度图及其对应的RGB图像作为输入,输出完成并优化后的稠密深度图估计。模型主要由两个分支组成:一个约束网络分支(第3.1节)和一个RGB-深度融合GAN(RDF-GAN)分支(第3.2节)。约束网络和RDF-GAN分别以深度图和RGB图像为输入,生成它们的深度补全结果。为了融合这两个分支之间的表示,在模型的不同阶段部署了一个局部引导模块和一系列称为W-AdaIN的中间融合模块(第3.3节)。最后,置信度融合头(第3.4节)将这两个通道的输出结合起来,提供更可靠和稳健的深度补全结果。此外,我们还介绍了使用伪深度图的训练策略(第3.5节),并描述了用于训练的整体损失函数(第3.6节)。
3.1 约束网络分支
第一个分支由一个约束网络组成,该网络通过卷积编码器-解码器结构生成局部全分辨率深度图和置信度图。编码器-解码器结构基于 ResNet-18 [10],并在 ImageNet 数据集上预训练 [5]。如图 3 和图 2 左下部分所示,给定原始深度图像 d raw ∈ R H × W × 1 d_{\text{raw}} \in \mathbb{R}^{H \times W \times 1} draw∈RH×W×1 和 RGB 图像 r r r,网络输出稠密的局部深度图 d l ∈ R H × W × 1 d_l \in \mathbb{R}^{H \times W \times 1} dl∈RH×W×1 和局部置信度图 c l ∈ R H × W × 1 c_l \in \mathbb{R}^{H \times W \times 1} cl∈RH×W×1。
该分支的输入是单通道原始深度图像 d raw d_{\text{raw}} draw 与来自 RGB 图像的双通道局部引导图 g g g 的拼接。给定该输入,编码器将特征尺寸下采样至 H 32 × W 32 \frac{H}{32} \times \frac{W}{32} 32H×32W,并将特征维度扩展至 512。编码器 M ( ⋅ ) M(\cdot) M(⋅) 学习从深度图到深度潜在空间 z z z 的映射,作为 RDF-GAN 的融合深度特征信息。解码阶段应用一组上采样块,通过编码器的跳跃连接来增加特征分辨率。解码器的输出是局部深度图和其对应的局部置信度图。
3.2 RDF-GAN 分支
为了生成具有细腻纹理的稠密深度图,我们在模型中提出了第二个分支,这是一个基于GAN的RGB和深度图像融合结构。与大多数现有的直接拼接来自不同领域输入的融合方法不同,我们的融合模型,称为RDF-GAN,灵感来源于条件GAN和风格GAN [15, 27]。如图2左上部分所示,我们使用从不完整深度图像映射得到的深度潜在向量作为输入,RGB图像作为条件,生成稠密的融合深度预测图和融合置信度图,并使用一个判别器来区分真实(即地面真值)的深度图像与生成的深度图像。生成器 G ( ⋅ ) G(\cdot) G(⋅) 的结构与约束网络类似。给定对应的RGB图像 r r r 作为条件,生成器 G ( ⋅ ) G(\cdot) G(⋅) 使用深度潜在向量 z z z 生成场景的融合稠密深度图 d f d_f df 和融合置信度图 c f ∈ R H × W × 1 c_f \in \mathbb{R}^{H \times W \times 1} cf∈RH×W×1。潜在向量 z z z 使用第3.3节中描述的W-AdaIN传播深度信息到RGB图像。我们通过判别器 D ( ⋅ ) D(\cdot) D(⋅),其结构基于 PatchGAN [14],来区分融合深度图 d f d_f df 和真实深度图像 d gt d_{\text{gt}} dgt。我们采用 WGAN [9] 的目标函数来训练 RDF-GAN。更具体地说,RDF-GAN 的损失包括判别器损失 L D L_D LD 和生成器损失 L G L_G LG:
L D = E d raw ∼ D raw [ D ( G ( M ( d raw ) ) ∣ r ) ] − E d gt ∼ D gt [ D ( d gt ∣ r ) ] L_D = \mathbb{E}_{d_{\text{raw}} \sim D_{\text{raw}}} \left[ D(G(M(d_{\text{raw}}))|r) \right] - \mathbb{E}_{d_{\text{gt}} \sim D_{\text{gt}}} \left[ D(d_{\text{gt}}|r) \right] LD=Edraw∼Draw[D(G(M(draw))∣r)]−Edgt∼Dgt[D(dgt∣r)]
L G = λ g L 1 ( G ( M ( d raw ) ) ) − E d raw ∼ D raw [ D ( G ( M ( d raw ) ) ∣ r ) ] L_G = \lambda_g L_1(G(M(d_{\text{raw}}))) - \mathbb{E}_{d_{\text{raw}} \sim D_{\text{raw}}} \left[ D(G(M(d_{\text{raw}}))|r) \right] LG=λgL1(G(M(draw)))−Edraw∼Draw[D(G(M(draw))∣r)]
其中,( d_{\text{raw}} ) 和 ( d_{\text{gt}} ) 分别是从域 ( D_{\text{raw}} ) 和 ( D_{\text{gt}} ) 中抽取的原始深度图像和真实深度图像。
3.3特征融合模块
为了使特征信息能够在两个分支的所有阶段共享,我们设计了局部引导模块和W-AdaIN,并将它们应用于网络中。
局部指导模块我们采用 U-Net [33] 作为特征提取器,从RGB图像 r ∈ R H × W × 3 r \in \mathbb{R}^{H \times W \times 3} r∈RH×W×3 生成局部引导图 g ∈ R H × W × 2 g \in \mathbb{R}^{H \times W \times 2} g∈RH×W×2。局部引导图的第一和第二通道分别表示前景概率和语义特征。因此,局部引导模块可以引导约束网络关注局部深度的相关性。
W-AdaIN如图4所示,我们根据深度像素与一组预定义的离散深度值之间的距离,将深度图的深度像素投影到多个离散的深度平面中。由于局部区域的深度值相似,它们更容易被分类到同一个深度平面中。我们还发现,局部区域内相似的颜色渐变通常也具有相似的深度值。因此,我们提出了一个用于融合RGB图像和深度图像特征的W-AdaIN模块。该模块从AdaIN [15]扩展而来,定义如下:
W-AdaIN ( z , f r ) = A ⋅ y s ⋅ ( f r − μ ( f r ) σ ( f r ) ) + B ⋅ y b , \text{W-AdaIN}(z, f_r) = A \cdot y_s \cdot \left( \frac{f_r - \mu(f_r)}{\sigma(f_r)} \right) + B \cdot y_b, W-AdaIN(z,fr)=A⋅ys⋅(σ(fr)fr−μ(fr))+B⋅yb,
其中, f r f_r fr 是RGB图像的特征图; A = Attention ( z ) A = \text{Attention}(z) A=Attention(z) 和 B = Attention ( f r ) B = \text{Attention}(f_r) B=Attention(fr) 是通过自注意力机制 [38] 分别在 z z z 和 f r f_r fr 上生成的权重矩阵; y s y_s ys 和 y b y_b yb 是通过潜在矩阵 z z z 的仿射变换 [15] 获得的空间缩放和偏置因子; μ ( ⋅ ) \mu(\cdot) μ(⋅) 和 σ ( ⋅ ) \sigma(\cdot) σ(⋅) 分别表示均值和方差。通过其设计, A A A 为具有相似深度值的区域分配相似的权重值。同样, B B B 通过为局部相似颜色渐变区域分配相似的权重值来平滑深度块。
3.4 置信融合头
在我们的框架中,每个分支都有其作用。RDF-GAN 分支基于 RGB 图像的纹理特征来估计缺失的深度,但可能会产生明显的异常值,即与原始深度值偏差较大的估计。约束网络分支通过编码器-解码器结构,依赖于更多有效的原始深度信息,生成局部准确的深度图。因此,我们引入了置信度图 [37],通过置信度融合头(如图 2 右侧所示)整合来自两个分支的深度图。我们引入了两个分支的置信度图 [37],通过学习到的置信度,将更多的注意力分配给可靠的深度预测区域。通常,局部深度图在原始深度值更准确的区域获得较高的置信度,而融合深度图在大面积缺失和噪声较多的区域获得较高的置信度。最终深度预测是两个深度图在对应的置信度图加权后的和,其公式如下:
d pred ( i , j ) = e c l ( i , j ) ⋅ d l ( i , j ) + e c f ( i , j ) ⋅ d f ( i , j ) e c l ( i , j ) + e c f ( i , j ) . d_{\text{pred}}(i,j) = \frac{e^{c_l(i,j)} \cdot d_l(i,j) + e^{c_f(i,j)} \cdot d_f(i,j)}{e^{c_l(i,j)} + e^{c_f(i,j)}}. dpred(i,j)=ecl(i,j)+ecf(i,j)ecl(i,j)⋅dl(i,j)+ecf(i,j)⋅df(i,j).
3.5训练用伪深度图
大多数现有的深度补全方法使用随机稀疏采样方法 [18, 23, 29] 进行训练和评估。采样后的深度图很好地模拟了户外深度,但其深度分布和缺失模式与实际的室内深度补全场景有很大不同。随机下采样的深度像素几乎覆盖了场景的所有区域,而室内环境中的缺失深度像素通常形成连续的区域。因此,我们提出了一套合成方法来生成用于模型训练的深度图,这些方法依赖RGB图像和语义掩码将原始深度图映射为合理的不完整(伪)深度图。伪深度图模拟了深度的缺失模式,比随机采样的深度图更接近真实的原始深度数据。
我们设计了五种方法来获得伪深度图:
(1) 高光掩码:我们在RGB图像中分割出可能出现镜面高光的区域 [1],并在原始深度图中对其进行掩码处理。
(2) 黑色掩码:我们随机掩盖RGB值全在 [0, 5] 范围内的深度像素(即,暗像素)。
(3) 基于图形分割的掩码:我们对通过基于图形的分割方法 [7] 从RGB图像中获得的深度图中的可能噪声像素进行掩码处理。
(4) 语义掩码:由于某些特定材料的物体通常缺失深度值,我们随机对一到两个物体根据其语义标签进行掩码处理,并且只保留这些物体边缘上的深度像素。
(5) 语义异或(XOR)掩码:我们在20%的RGB图像训练集上训练U-Net [33],并使用训练好的模型对剩余的RGB图像进行分割。我们对分割结果与地面真实值不同的深度像素进行掩码处理,即对分割结果和地面真实值进行异或(XOR)操作以生成掩码。
最后,我们从上述五种方法中随机选择并组合掩码来生成伪深度图,从而模拟更合理的深度缺失分布。伪深度图用于训练一个更为鲁棒的深度补全模型,以适应室内场景。更多细节见补充材料的第2节。
3.6 损失函数
我们在局部深度图和最终预测上使用L1损失函数。整体损失函数定义为:
L overall = L D + L G + λ l L 1 ( d l ) + λ pred L 1 ( d pred ) , ( 5 ) L_{\text{overall}} = L_D + L_G + \lambda_l L_1(d_l) + \lambda_{\text{pred}} L_1(d_{\text{pred}}), \quad (5) Loverall=LD+LG+λlL1(dl)+λpredL1(dpred),(5)
其中,公式 (2) 中的 λ g \lambda_g λg、 λ l \lambda_l λl 和 λ pred \lambda_{\text{pred}} λpred 是损失函数中不同项的权重超参数,分别设定为0.5、1和10。
4.实验
4.1 数据集和评价指标
我们在两个广泛使用的基准NYU-Depth V2和SUN RGB-D上进行了实验。
NYU-Depth V2 NYU-Depth V2 数据集 [28] 包含从 Microsoft Kinect 采集的 464 个室内场景中的 RGB 和深度图像对。密集标注的图像对被分为训练集和测试集,其中训练集包含 795 张图像,测试集包含 654 张图像,每个数据集都包括 RGB 图像、传感器采集的原始深度图像、标注(重建)的深度图以及分割掩码。按照现有的方法,我们使用了约 50K 未标注的图像进行训练,并使用测试集中标注的 654 张图像进行评估。输入图像的大小调整为 320×240,并进行中心裁剪,裁剪后的尺寸为 304×228。
SUN RGB-D. SUN RGB-D 数据集 [36] 包含由四种不同传感器采集的 10,335 张 RGB-D 图像。该数据集因其不同的场景和传感器具有多样性,有助于有效评估模型的泛化能力。此外,该数据集的密集语义标注和 3D 边界框使得能够评估更多的训练策略和下游任务。按照官方的划分,我们使用了 4,845 张图像进行训练,4,659 张图像进行测试,涵盖了 19 个主要场景类别。我们使用基于多帧的精细化深度图 [36] 作为评估的真实值。输入图像的大小调整为 320×240,并随机裁剪至 304×228。
评估指标。我们采用了三种指标来评估稠密深度预测:均方根误差(RMSE)、绝对相对误差(Rel)以及 δi,它是预测像素的相对误差在某个相对阈值内的百分比 [23]。
4.2与最先进方法的对比
NYU-Depth V2为了进行全面的性能分析,我们设置了三种不同的训练和评估方案。在测试中,我们分别使用三种不同的输入来预测和重建深度图 T T T,即:原始深度图 R R R,在原始深度图中随机采样500个有效深度像素的稀疏深度图 R ∗ R^* R∗,以及在重建深度图 T T T 中随机采样500个有效深度像素的稀疏深度图 T ∗ T^* T∗。关于这些方案的更多描述,请参阅补充材料的第3节。我们的方法与其他最先进方法在NYU-Depth V2上的性能比较如表1所示。根据结果,我们得出了以下结论:
-
R ⇒ T:我们使用第3.5节中生成的伪深度图作为输入,训练了所提出的模型和NLSPN [29]。同时,我们与在合成半稠密传感器数据 [35] 上训练的多个基准方法 [12, 19, 35, 37] 进行了比较。与所有基准方法相比,我们提出的方法在性能上显著提升,尤其是在RMSE和Rel指标上。我们选择了两个代表性场景,并在图6最后一列中可视化了我们的预测结果。通过伪深度图训练的模型在缺失深度区域产生了更准确且具有纹理的深度预测结果。
-
R∗ ⇒ T:按照之前的研究工作 [3, 18, 23, 29],我们使用RGB图像和原始深度图中随机采样深度像素的稀疏深度图作为输入进行训练。在测试阶段,输入与训练时相同,重建的深度图作为真实值。我们观察到,在RMSE指标上,我们的模型比基准方法表现出明显的优势。定性结果如图6的第二行和第四行所示。与其他方法相比,我们的方法准确预测了红色框中的沙发轮廓和光滑的窗户。这证明我们的稠密深度预测通过RDF-GAN分支很好地与RGB图像的纹理信息融合。
-
T∗ ⇒ T:此设置与大多数现有的深度补全工作 [3, 18, 23, 29] 一致。我们的模型无需迭代处理,其性能仅略低于NLSPN [32](但我们的推理时间比NLSPN快1.5倍)。如图6的第一行和第三行以及图7中的可视化结果进一步表明了我们方法的优越性。
-
如图6绿色框所示,从重建深度图下采样的输入(T∗ ⇒ T)揭示了实际中不可用的真实深度值,这支持了我们的观点:原始输入设置(R ⇒ T)在实际室内深度补全中更具可行性。
SUN RGB-D.
在 SUN RGB-D 数据集上,我们采用伪深度图作为输入,原始深度数据作为训练的真实值。在测试集中,使用原始深度图像作为输入,多帧合成的深度图作为真实值。表2显示,我们提出的方法在大多数指标中都取得了最佳表现。从图1的可视化结果中可以看出,我们的模型尽可能地补全了缺失的深度区域,并为不同的传感器提供了更详细的纹理信息。
4.3 消融实验
我们在NYU-Depth V2数据集上使用T∗⇒T设置了消融研究。
λ 的设置。我们研究了在不同的 λ 值设置下对模型性能的影响,结果如表3所示。我们比较了以下四种设置,并发现包含所有 L1 损失项的模型表现最佳。在设置 A 中,我们仅计算了最终深度预测的 L1 损失;在设置 B 中,我们计算了最终深度预测和融合深度图的 L1 损失。在这两种设置下,模型过度关注纹理信息,导致生成了许多局部异常值,如图8(a)所示,且在许多区域中预测的深度值与真实值存在较大偏差。在设置 C 中,我们计算了局部深度图和最终深度预测的 L1 损失。尽管性能略有提升,但由于模型退化为编码器-解码器结构,深度补全结果趋向于生成模糊的深度图,如图8(b)所示。计算两个分支的 L1 损失(设置 D)是我们最终采用的设置,在所有指标上都取得了显著提升,并生成了合理的深度预测结果,如图8c所示。
模块。基于双分支结构,我们通过与替代组件的比较评估了不同模块的影响。根据表4中的结果,我们得出以下观察结论:
-
关于融合头,置信度融合比卷积操作(Conv.)表现更好。此外,图9展示了一个RGB图像的融合置信度图。对于具有更丰富纹理信息的前景对象,置信度值较高。这表明RDF-GAN更好地利用了丰富的纹理信息来提升深度补全性能。
-
使用局部引导模块显著提升了性能。使用U-Net [33] 的模块比直接拼接RGB和深度图像(Concat.)的方法效果更好,基于ImageNet [5] 的预训练进一步提升了性能。通过利用测试场景的额外语义信息(即,使用NYU-Depth V2上的语义分割预训练U-Net),我们的方法可以取得更好的表现。
-
关于阶段融合模块,W-AdaIN 比其他模块(IN [11] 和 AdaIN [15])明显表现更好。
4.4 补全深度图后的目标检测
我们使用补全后的深度图作为SUN RGB-D数据集 [36] 上3D物体检测任务的输入,以评估深度补全的质量。我们选择了两个最先进的模型,VoteNet [31] 和 H3DNet [41] 作为检测器。表5显示,这两个模型在使用我们补全的深度图后都获得了显著的提升。如图10所示,由补全后的深度图转换得到的点云包含更多的点,并且比原始深度图更好地覆盖了物体的形状。更多讨论可以在补充材料的第4节中找到。
5.结论
在本工作中,我们提出了一种新颖的双分支端到端网络用于室内深度补全。我们设计了RDF-GAN模型,以生成具有细腻纹理的深度图,并通过约束网络进行约束。此外,我们提出了一种新颖且有效的采样方法,用于生成伪深度图,以训练室内深度补全模型。大量实验表明,我们提出的解决方案在NYU-Depth V2和SUN RGB-D数据集上达到了最先进的性能。