他们的方法在稀疏体素网格的层次结构上训练潜在扩散模型的层次结构。他们在稀疏结构 VAE 的潜在空间上进行扩散,它为层次结构的每个级别学习紧凑的潜在表示。
XCube 是稀疏体素层次上的分层潜在扩散模型,即从粗到细的 3D 稀疏体素网格序列,使得每个精细体素都包含在较粗体素内。
通过利用稀疏XCube,可以生成有效分辨率为1024^3的高分辨率场景,并具有TSDF或语义等属性。下面是使用 TSDF 对合成数据进行训练的模型生成的场景。
XCube 可用于语义完成等感知任务中的条件生成。在这里我们看到了单次 LiDAR 扫描完成的累积结果。
XCube 还可以生成高分辨率对象,并使用几何条件后处理步骤生成纹理。