WACV2024论文3D相关速览48篇

WACV2024 3D相关论文阅读

在这里插入图片描述

Paper1 Self-Supervised Edge Detection Reconstruction for Topology-Informed 3D Axon Segmentation and Centerline Detection

摘要小结:

许多基于机器学习的轴突追踪方法依赖于带有分割标签的图像数据集。这需要领域专家的手动标注，既耗时又对于在半球或全脑组织上进行细胞或亚细胞分辨率的大规模脑绘图来说不切实际。此外，保持轴突结构拓扑的完整性对于理解神经连接和脑功能至关重要。自监督学习（SSL）是一种机器学习框架，它允许模型在未标注的数据上学习一个辅助任务，以提高在监督目标任务上的性能。在这项工作中，我们提出了一个新颖的SSL辅助任务，即重构边缘检测器，用于面向拓扑的轴突分割和中心线检测的目标任务。我们使用小鼠大脑数据集对三种不同的SSL任务进行了3D U-Nets的预训练：我们提出的任务、预测排列切片的顺序以及玩魔方。然后，我们在另一个小鼠大脑数据集上评估了这些U-Nets和一个基线模型。在所有实验中，我们提出的任务预训练的U-Net将基线的分割、拓扑保持和中心线检测提高了最多5.03%、4.65%和5.41%。相比之下，切片排列和魔方预训练的U-Nets没有一致地超越基线。

主要内容概述：

这篇论文主要讨论了机器学习在轴突追踪中的应用，特别是自监督学习（SSL）的使用。作者提出了一种新的SSL辅助任务，用于轴突分割和中心线检测。通过预训练3D U-Nets在小鼠大脑数据集上的不同任务，他们发现使用提出的任务预训练的模型在分割、拓扑保持和中心线检测方面都有显著提升。其他预训练任务则没有带来一致的改进。

Paper2 BEVMap: Map-Aware BEV Modeling for 3D Perception

摘要小结: 在自动驾驶应用中，人们强烈倾向于以鸟瞰图（BEV）的形式对世界进行建模，因为这可以提高准确性和性能。BEV特征在感知任务中被广泛使用，因为它们能够以一种高效的方式融合来自多个视角的信息。然而，由于在透视视图中估计深度的困难，从摄像头图像生成的BEV特征往往不够精确。BEV特征的放置不当限制了下游任务的准确性。我们介绍了一种方法，通过融入地图信息来改善从2D摄像头图像的透视深度估计，从而生成几何和语义上稳健的BEV特征。我们表明，通过将摄像头图像与BEV地图和地图到摄像头的投影相结合，可以补偿深度不确定性。在nuScenes数据集上的实验表明，我们的方法在分割和检测任务上优于仅使用摄像头图像的先前方法。

概述主要内容：
这篇论文主要讨论了在自动驾驶应用中，使用鸟瞰图（BEV）进行世界建模的重要性，以及如何通过新方法提高BEV特征的准确性。新方法通过融入地图信息来改善深度估计，从而提高了BEV特征的几何和语义稳健性，实验证明这种方法在分割和检测任务上表现优于传统方法。

Paper3 NVAutoNet: Fast and Accurate 360deg 3D Visual Perception for Self Driving

摘要小结:

实现健壮和实时的3D感知对于自动驾驶车辆至关重要。虽然现有的3D感知方法大多数优先考虑检测精度，但它们常常忽视计算效率、车载芯片部署的友好性、对传感器安装偏差的适应性以及适应各种车辆类型的能力等关键方面。为了解决这些挑战，我们提出了NVAutoNet：一个专门为自动驾驶车辆量身定制的鸟瞰图（BEV）感知网络。NVAutoNet以同步的摄像头图像作为输入，并预测如障碍物、空闲空间和停车位等3D信号。NVAutoNet架构的核心（图像和BEV骨干网络）依赖于高效的卷积网络，使用TensorRT进行了高性能优化。我们的图像到BEV转换采用简单的线性层和BEV查找表，确保了快速推理速度。在大量专有数据集上训练后，NVAutoNet始终能够达到提升的感知精度，在NVIDIA DRIVE Orin SoC上以每秒53帧的速度运行，表现出色。值得注意的是，NVAutoNet显示出对不同车型引起的传感器安装偏差的适应性。此外，NVAutoNet在适应不同车辆类型方面表现出色，这得益于廉价的模型微调程序，这些程序加快了兼容性调整。

主要内容概述：
本文介绍了一种名为NVAutoNet的专门为自动驾驶汽车设计的3D感知网络。该网络能够处理来自同步摄像头图像的输入，并预测3D信号，如障碍物、空闲空间和停车位。NVAutoNet的设计重点考虑了计算效率、车载芯片部署的友好性以及对不同车辆类型的适应性。网络核心使用高效的卷积网络，并针对性能进行了优化。NVAutoNet在专有数据集上训练，并在NVIDIA DRIVE Orin SoC上实现了高精度的实时感知，同时显示出对传感器安装偏差的适应性，并且能够通过简单的模型微调适应不同类型的车辆。

Paper4 3D Super-Resolution Model for Vehicle Flow Field Enrichment

摘要小结:

在车辆外形设计中，从气动性能的角度来看，深度学习方法使我们能够在短时间内估计流场。然而，估计的流场通常较为粗糙且分辨率较低。因此，需要一种超分辨率模型来丰富这些流场。在本研究中，我们提出了一种新颖的超分辨率模型，以将车辆周围的流场丰富到更高的分辨率。为了处理车辆复杂的流场，我们在生成器中应用了残差-残差密集块（RRDB）作为基本网络构建单元，且不使用批量归一化。然后，我们应用了相对论判别器以提供关于高频成分缺失的更好反馈。此外，我们提出了一种距离加权损失，以获得尾流区域和车辆表面附近区域的更好估计。物理信息损失被用来帮助模型生成满足物理控制方程的数据。我们还提出了一种新的训练策略，以提高学习效果并避免训练过程中的不稳定。实验结果表明，所提出的方法在车辆流场丰富任务上明显优于之前的研究。

主要内容概述：

本文介绍了一种新型的超分辨率模型，用于提高车辆周围流场的分辨率。研究中使用了残差-残差密集块和相对论判别器来处理复杂流场，并提出了距离加权损失和物理信息损失来提高估计准确性。同时，提出了一种新的训练策略，实验证明该方法在车辆流场丰富任务上效果显著。

Paper5 TriPlaneNet: An Encoder for EG3D Inversion

摘要小结:

基于NeRF的生成对抗网络（GANs）的最新进展引入了多种方法，用于生成具有高分辨率和高保真度的人头模型，并支持新颖视角渲染。与此同时，人们必须解决一个逆问题，以便能够重新渲染或修改现有的图像或视频。尽管基于通用优化的方法在2D GAN逆映射中取得了成功，但应用于3D GANs的方法可能无法将结果推广到新视角，而基于优化的3D GAN逆映射方法耗时且每张图像至少需要几分钟。快速编码器技术，如为StyleGAN开发的技术，也可能因缺乏身份保持而吸引力较低。我们的工作引入了一种快速技术，通过直接利用为EG3D生成模型提出的三角平面表示，弥合了这两种方法之间的差距。特别是，我们在潜在代码上构建了一个前馈卷积编码器，并扩展了一个全卷积的三角平面数值偏移预测器。渲染质量与基于优化的技术产生的质量相似，并优于基于编码器的方法。正如我们实证证明的，这是直接在三角平面空间而非GAN参数空间操作的结果，同时利用了基于编码器的可训练方法。最后，我们展示了在3D中嵌入人脸图像的正确性显著高于所有基线，这一成果进一步得到了训练中可能对称的先验支持。

主要内容概述：

这篇论文主要讨论了基于NeRF的GANs在生成高质量人头模型方面的进展，并提出了一种新的方法来解决3D GAN逆映射问题。该方法结合了基于优化的技术和基于编码器的方法的优点，通过直接在三角平面空间操作来提高渲染质量和嵌入正确性。

Paper6 Towards Realistic Generative 3D Face Models

摘要小结: 近年来，在动画、合成数据生成和数字头像等应用的推动下，二维生成人脸模型取得了长足的进步。然而，由于缺乏三维信息，这些二维模型常常难以准确分离面部属性，如姿态、表情和光照，限制了它们的编辑能力。为了解决这一局限，本文提出了一种三维可控生成人脸模型，通过利用现有的二维生成模型，生成高质量的纹理和精确的三维形状。该方法结合了二维人脸生成模型和语义面部操作，能够编辑详细的三维渲染面部。所提出的框架使用了一种在形状和纹理上交替下降的优化方法。可微渲染用于在无三维监督的情况下训练高质量形状和纹理。此外，该方法在著名的NoW和REALY基准测试中，超过了大多数最先进（SOTA）方法，用于三维人脸重建。在恢复新姿势下渲染面部的身份方面，它也优于SOTA重建模型。此外，论文还展示了通过利用潜在空间直接控制三维面部表情，实现了基于文本编辑三维面部。

主要内容概述：本文介绍了一种新的三维可控生成人脸模型，该模型能够生成高质量的三维人脸形状和纹理，并允许对三维人脸进行详细编辑。该方法结合了二维人脸生成模型和语义面部操作，使用交替下降优化和可微渲染技术，无需三维监督即可训练。此外，该方法在多个基准测试中表现优于现有最先进的技术。

Paper7 Volumetric Disentanglement for 3D Scene Manipulation

摘要小结: 最近，差分体积渲染方面的进展使复杂3D场景的逼真和高细节重建取得了重大突破，这对于许多虚拟现实应用至关重要。然而，在增强现实背景下，人们可能还希望对场景中的对象进行语义操作或增强。为此，我们提出了一种体积框架，用于（i）分离给定前景对象与背景的体积表示，以及（ii）语义操作前景对象和背景。我们的方法能够分别控制像素颜色和深度以及前景和背景对象的3D相似变换。随后，我们展示了框架在多个下游操作任务中的适用性，不仅限于前景对象的放置和移动。这些任务包括对象伪装、非负3D对象修复、3D对象平移、3D对象修复和基于3D文本的对象操作。

以下是主要内容概述：

翻译内容：
最近，体积微分渲染技术的进步使得在复杂数字3D场景的光照真实感和精细细节重建方面取得了重大突破，这对于众多虚拟现实应用来说至关重要。

概述：
这篇论文讨论了一个新的体积框架，该框架能够分离前景和背景对象，并进行语义操作。此外，该框架在多个任务中展示了其适用性，包括一些超越前景对象放置和移动的任务。

Paper8 LInKs “Lifting Independent Keypoints” - Partial Pose Lifting for Occlusion Handling With Improved Accuracy in 2D-3D Human Pose Estimation

摘要小结: 我们介绍了LInKs，这是一种新颖的无监督学习方法，可以从单个图像中获得的2D运动骨架恢复3D人体姿态，即使在存在遮挡的情况下也能实现。我们的方法遵循一个独特的两步过程，首先将遮挡的2D姿态提升到3D域，然后使用部分重建的3D坐标填充遮挡部分。这种先提升后填充的方法与仅在2D空间完成姿态的模型相比，结果显著更准确。

以下是主要内容概述：

翻译：
我们提出了一种名为LInKs的新颖无监督学习方法，该方法能够从单个图像获得的2D运动骨架中恢复3D人体姿态，即使在存在遮挡的情况下也能做到。以下是翻译内容：

我们呈现了一种新的无监督学习方法LInKs，即使在存在遮挡的情况下，也能从单个图像获得的2D运动骨架中恢复3D人体姿态。我们的方法采用独特的两步流程，首先将遮挡的2D姿态提升到3D领域，然后使用部分重建的3D坐标填充遮挡部分。这种提升后填充的方法比仅在2D空间完成姿态的模型结果更准确。

主要内容概述：

LInKs是一种新的无监督学习方法。
它可以从单个图像中恢复3D人体姿态，即使有遮挡。
方法包括两步：先提升遮挡的2D姿态到3D，然后填充遮挡部分。
与2D空间完成姿态的模型相比，这种方法更准确。
方法还改进了正常化流的稳定性和可能性估计。
首次探究了2D运动骨架的不同部分是否可以独立提升，发现这样可以减少误差。
在各种遮挡情况下评估了误差，显示了模型的适用性和多样性。
在无遮挡情况下，该方法也表现出一致的准确性。
即使存在遮挡，该方法也能准确检索完整的3D姿态。

Paper9 3D Human Pose Estimation With Two-Step Mixed-Training Strategy

摘要小结: 在单目3D人体姿态估计中，目标动作通常是稳定且连续的，这意味着关节速度可以提供有价值的信息以实现更准确的估计。因此，从速度中学习关节运动轨迹和时空信息至关重要。先前的研究表明，Transformer在捕捉标记之间的关系方面是有效的。然而，在实践中，只有2D位置可用，3D速度尚未被明确用作模型输入。针对这一挑战，我们提出了TMT（两步混合训练策略），这是一种基于Transformer的方法，它有效地在训练过程中将3D速度融入输入向量，从而更好地学习浅层的相关特征。大量实验表明，TMT显著提高了现有先进模型（如MixSTE、MHFormer和PoseFomer）在两个数据集Human3.6M和MPI-INF-3DHP上的性能。TMT在Human3.6M数据集上的表现优于现有先进方法，最多提高了13.8%。

概述：
这篇论文主要讨论了在单目3D人体姿态估计中，如何利用3D速度信息来提高估计的准确性。作者提出了一种名为TMT的方法，它能在训练过程中有效整合3D速度信息，从而提高模型性能，并且在实验中显著提升了现有模型的性能。

Paper10 MuSHRoom: Multi-Sensor Hybrid Room Dataset for Joint 3D Reconstruction and Novel View Synthesis

摘要小结: 元宇宙技术要求在消费级硬件上实现准确、实时和沉浸式的建模，既适用于非人类感知（例如，无人机/机器人/自动驾驶汽车导航），也适用于像AR/VR这样的沉浸式技术，这需要结构准确性和照片级真实感。然而，目前存在一个知识空白，即如何在统一框架中应用几何重建和照片级真实感建模（新视角合成）。以下是翻译和概述：

翻译：
元宇宙技术要求在消费级硬件上实现精确、实时和沉浸式的建模，这适用于非人类感知（例如，无人机/机器人/自动驾驶汽车导航）以及像AR/VR这样的沉浸式技术，既需要结构准确性也需要照片级真实感。然而，如何在统一框架中应用几何重建和照片级真实感建模（新视角合成）存在知识差距。为了解决这一差距，并推动使用消费级设备进行稳健和沉浸式建模和渲染的发展，首先，我们提出了一个真实世界的多传感器混合房间数据集（MuSHRoom）。我们的数据集提出了激动人心的挑战，并需要最先进的方法以实现成本效益、对噪声数据和设备具有鲁棒性，并且可以共同学习3D重建和新视角合成，而不是将它们视为单独的任务，使其非常适合实际应用。其次，我们在数据集上对几款著名的管道进行了基准测试，用于联合3D网格重建和新视角合成。最后，为了进一步提高整体性能，我们提出了一种新方法，在两项任务之间取得了良好的平衡。

概述：
这篇论文主要讨论了元宇宙技术中对沉浸式建模的需求，以及存在的知识差距。作者提出了一个名为MuSHRoom的多传感器混合房间数据集，用于解决这一差距，并推动稳健的建模和渲染发展。他们还在数据集上进行了基准测试，并提出了一种新方法来提高整体性能。数据集和代码可在项目网页上获取。

主要内容是介绍了一个新的数据集和方法，旨在改进3D重建和高质量渲染的融合。

Paper11 A Generative Multi-Resolution Pyramid and Normal-Conditioning 3D Cloth Draping

摘要小结:

RGB布料生成在相关文献中已被深入研究，然而，3D服装生成仍然是一个未解决的问题。在本文中，我们构建了一个条件变分自编码器用于3D服装生成和披挂。我们提出一个金字塔网络，在规范空间中逐步添加服装细节，即相对于身体进行去姿态和去形状处理。我们研究了将网络条件化为表面法线UV图，作为一种中间表示，这是一个比3D坐标更容易优化的问题。我们在两个公共数据集CLOTH3D和CAPE上的结果显示，我们的模型具有鲁棒性，通过使用多分辨率金字塔在细节生成方面具有可控性，并且即使在训练数据量较小的情况下，也取得了能高度泛化到未见过的服装、姿势和形状的最先进结果。代码可在以下地址找到：https://github.com/HunorLaczko/pyramid-drape。

主要内容概述：

文章讨论了3D服装生成的问题，这是一个尚未解决的领域。
作者构建了一个条件变分自编码器用于此目的，并提出了金字塔网络。
金字塔网络能够在规范空间中逐步添加服装细节。
研究了使用表面法线UV图作为中间表示的优化问题。
实验结果显示模型具有鲁棒性和可控性，且在少量数据训练下也能泛化到新情况。
代码已公开。

Paper12 Progressive Hypothesis Transformer for 3D Human Mesh Recovery

摘要小结:

最近基于Transformer的人体网格重建（HMR）的进展是值得称赞的。然而，这些模型往往直接将2D图像提升到3D顶点，而没有明确的中间指导。此外，在人体网格估计过程中，全局注意力机制倾向于将注意力分散到更大的身体区域甚至不相关的背景区域，而不是聚焦于关键局部区域，如人体关节。这种倾向导致复杂活动的结果不准确、不真实。为了解决这些挑战，我们引入了渐进假设Transformer，它利用2D和3D姿态预测来逐步指导我们的模型。此外，我们提出了一种机制，为2D和3D姿态生成多个合理的假设，以减轻中间姿态估计可能产生的潜在不准确。我们的模型还结合了内外注意力，捕捉关节和假设之间的相关性。实验结果表明，我们的方法在Human3.6M [13] 和3DPW [36] 上超越了现有的基于图像的方法，且参数更少，计算成本相对较低。

主要内容概述：

这篇论文主要讨论了基于Transformer的人体网格重建技术的一些进展和挑战。作者指出了现有模型在直接从2D图像转换到3D顶点时缺乏中间指导的问题，以及全局注意力机制在人体网格估计中的不足。为了解决这些问题，作者提出了渐进假设Transformer，并通过2D和3D姿态预测来指导模型。同时，还提出了生成多个假设的机制，以及利用内外注意力捕捉关节和假设之间相关性的方法。实验证明，该方法在性能上超越了现有技术。

Paper13 LaughTalk: Expressive 3D Talking Head Generation With Laughter

摘要小结:

笑声是一种独特的表达方式，对人类的肯定性社会互动至关重要。尽管现有的3D说话头生成方法能够产生令人信服的口头表达，但它们往往无法捕捉到笑声和微笑的活力和微妙之处，尽管在社会情境中它们的重要性。在本文中，我们介绍了一项新的任务，以生成既能清晰发音又能展现真实笑声的3D说话头。我们新策划的数据集包括与伪注释和人类验证的3D FLAME参数和顶点配对的2D笑声视频。鉴于我们提出的数据集，我们提出了一个强大的基线，采用两阶段训练方案：模型首先学会说话，然后获得表达笑声的能力。大量实验表明，我们的方法在说话头生成和表达笑声信号方面优于现有方法。我们还进一步探索了在我们提议的方法之上构建真实头像的潜在应用。

主要内容概述：
这篇论文主要介绍了作者在文章中提出的一项新任务，即生成能够同时进行清晰发音和真实笑声的3D说话头。为了实现这一目标，作者策划了一个新的数据集，并采用两阶段训练方案进行模型训练。实验结果显示，该方法在说话头生成和表达笑声方面优于现有方法，并且还探讨了该方法的潜在应用。

Paper14 Top-Down Beats Bottom-Up in 3D Instance Segmentation

摘要小结: 大多数3D实例分割方法采用自下而上的策略，通常包括资源耗尽的后处理。在点分组方面，自下而上的方法依赖于对物体的先验假设，这些假设以超参数的形式存在，具有领域特异性，需要仔细调整。相反，我们采用TD3D来解决3D实例分割问题：这是一种首创的无聚类、全卷积、完全数据驱动的端到端训练方法。这是第一种在3D领域优于自下而上方法的自上而下方法。凭借其简洁的流程，它在标准基准测试ScanNet v2、其扩展ScanNet200和S3DIS上的表现非常出色。此外，我们的方法在推理速度上比当前基于分组的先进方法快得多：我们的旗舰修改版比最准确的自下而上方法快1.9倍，同时更准确，而我们的更快修改版在2.6倍速度下展示了最先进的准确度。代码可在 https://github.com/SamsungLabs/td3d 获得。

主要内容概述：
这篇论文介绍了3D实例分割的一种新方法TD3D，这是一种自上而下的方法，与传统的自下而上方法不同。它无需后处理，是全卷积和数据驱动的，并且在多个基准测试中表现出色。同时，该方法在推理速度上显著快于现有先进方法，并提供更高的准确度。代码已公开可用。

Paper15 Adaptive Latent Diffusion Model for 3D Medical Image to Image Translation: Multi-Modal Magnetic Resonance Imaging Study

摘要小结:

多模态图像在医学图像分析的全面评估中起着至关重要的作用，为识别临床重要的生物标志物提供了互补信息。然而，在临床实践中，由于扫描成本、有限的扫描时间和安全考虑等原因，获取多种模态可能具有挑战性。在本文中，我们提出了一种基于潜在扩散模型（LDM）的模型，该模型利用可切换块进行三维医学图像的图像到图像转换，而无需进行补丁裁剪。结合使用目标模态的条件，3D LDM能够生成高质量的目标模态三维图像，克服了2D生成方法中缺失切片外信息的不足。可切换块，即多个可切换的空间自适应归一化（MS-SPADE），动态地将源潜在转换为目标潜在所需的样式，以帮助扩散过程。MS-SPADE块使我们能够拥有一个单一模型来处理一个源模态到各种目标的许多翻译任务，无需为不同场景建立许多翻译模型。我们的模型在不同源-目标模态场景下展示了成功的图像合成，并在四种种不同模态的多模态大脑磁共振成像数据集上的定量评估中超过了其他模型。我们的模型在各种模态之间展示了成功的图像合成，甚至允许进行一对一到多模态的翻译。此外，它在定量评估中超过了其他一对一翻译模型。

主要内容概述：

这篇论文主要介绍了一种新的医学图像处理模型，该模型基于潜在扩散模型（LDM），并使用可切换块进行三维图像的转换。这个模型能够在不需要多个翻译模型的情况下，处理多种模态的图像转换任务。此外，该模型在定量评估中表现出色，能够成功合成不同模态的图像，包括一对一到多模态的翻译。

Paper16 AnyStar: Domain Randomized Universal Star-Convex 3D Instance Segmentation

摘要小结: 星状凸形状在生物显微镜和放射学中以核、结节、转移灶和其他单元的形式出现。现有的针对这类结构的实例分割网络需要针对每个数据集进行密集标注的实例训练，这需要大量的手动注释工作，而且往往是不可行的。此外，当面对新的数据集和成像方式时，由于对比度、形状、方向、分辨率和密度的变化，需要进行重大的重新工程或微调。我们介绍了AnyStar，这是一个领域随机化的生成模型，它模拟了具有随机外观、环境和成像物理的类似 blob 的对象的合成训练数据，以训练通用星状凸实例分割网络。因此，使用我们的生成模型训练的网络不需要来自未见数据集的注释图像。在合成数据上训练的单一网络能够准确地在3D中分割多种情况，包括C. elegans 和 P. dumerilii 核在荧光显微镜下，鼠标皮质核在微-CT下，斑马鱼脑核在EM下，以及人类胎儿MRI下的胎盘cotyledons，且不需要任何重新训练、微调、转移学习或领域适应。

以下是主要内容概述：

星状凸形状在医学成像中很常见。
现有分割网络需要大量手动标注，这在实践中不可行。
AnyStar是一个生成模型，可以生成用于训练的合成数据。
训练后的网络无需注释图像即可处理新数据集。
该模型已在多种成像情况下展示了其能力，无需任何额外训练。

星状凸形状在生物显微镜和放射学中以核、结节、转移灶等多种形式出现。现有的针对这类结构的实例分割网络需要对每个数据集进行密集标注的实例进行训练，这需要大量的且通常是不可行的手动注释工作。此外，当遇到新的数据集和成像方式时，由于对比度、形状、方向、分辨率和密度的变化，需要进行大量的重新工程或微调。我们介绍了AnyStar，这是一种领域随机化的生成模型。

Paper17 Synergizing Contrastive Learning and Optimal Transport for 3D Point Cloud Domain Adaptation

摘要小结: 最近，3D点云的无监督域自适应（UDA）基本问题受到了机器人、虚拟现实和场景理解等多个应用的广泛推动。点云数据采集过程表现为相似和不相似类别之间显著的域差异和几何变化。由于点云数据的复杂几何特性，为图像开发的标准域自适应方法不能直接应用于点云数据。为了应对这一挑战，我们借鉴了多模态和分布之间对齐的思想。我们提出了一种新的点云分类UDA架构，该架构利用多模态对比学习以在两个域中分别获得更好的类别分离。此外，使用最优传输（OT）旨在联合学习源和目标数据分布，以减少跨域偏差并提供更好的对齐。我们在PointDA-10和GraspNetPC-10上进行了全面的实证研究，结果显示我们的方法在GraspNetPC-10上取得了最先进的性能（约4-12%的差距）和在PointDA-10上最佳的的平均性能。我们的消融研究和决策边界分析也验证了我们对比学习模块和OT对齐的重要性。

概述主要内容：
这篇论文主要讨论了3D点云在无监督域自适应（UDA）方面的问题，并提出了一种新的方法来解决这些挑战。该方法利用多模态对比学习和最优传输来提高点云分类的性能，并在两个数据集上展示了其优越的性能和重要性。

Paper18 ZIGNeRF: Zero-Shot 3D Scene Representation With Invertible Generative Neural Radiance Fields

摘要小结: 生成神经辐射场（NeRFs）在合成多视角图像方面表现出色，通过学习一组无定位图像的分布来实现。尽管现有的生成性NeRFs在生成数据分布内三维一致的高质量随机样本方面具有天赋，但创建单个输入图像的三维表示仍然是一个艰巨的挑战。在这篇论文中，我们介绍了ZIGNeRF，这是一种创新模型，它执行零样本生成对抗网络（GAN）反转，以从单个分布外图像生成多视角图像。该模型基于一种新颖的反转器，将域外图像映射到生成器流形的潜在代码中。值得注意的是，ZIGNeRF能够将对象从背景中分离出来，并执行3D操作，如360度旋转或深度和水平平移。

以下是翻译和主要内容概述：

翻译：
生成神经辐射场（NeRFs）已经在通过学习一组无定位图像的分布来合成多视角图像方面显示出卓越的能力。尽管现有的生成NeRFs在生成数据分布内三维一致的高质量随机样本方面具有才能，但构建单个输入图像的三维表示仍然是一个巨大的挑战。在这篇手稿中，我们介绍了ZIGNeRF，这是一种新颖的模型，它可以执行零样本生成对抗网络（GAN）反转，从而从单个分布外图像生成多视角图像。该模型由一种新颖的反转器支撑，将域外图像映射到生成器的潜在代码中。值得注意的是，ZIGNeRF能够分离对象和背景，并执行3D操作，如360度旋转或深度及水平移动。

主要内容概述：
这篇论文主要介绍了ZIGNeRF模型，这是一种新型的生成模型，它利用零样本GAN反转技术，从单个分布外图像生成多视角图像。模型的关键在于其能够将域外图像映射到生成器的潜在代码中，并且能够执行3D操作。此外，它还提到了模型的有效性在多个真实图像数据集上得到了验证。

Paper19 Unsupervised 3D Pose Estimation With Non-Rigid Structure-From-Motion Modeling

摘要小结: 大多数现有的3D人体姿态估计工作严重依赖网络的强大记忆能力，以从训练数据中获得合适的2D-3D映射。很少有研究对运动中的人体姿态变形建模进行研究。在本文中，我们提出了一种新的人体姿态变形建模方法，并设计了一种伴随的基于扩散的运动先验。受非刚性结构运动领域的启发，我们将重建运动中的3D人体骨骼的任务划分为估计一个3D参考骨骼和逐帧骨骼变形。使用混合空间-时间NRSfMformer同时估计3D参考骨骼和每帧的骨骼变形，然后将其相加以获得每帧的姿态。随后，使用基于扩散模型的损失项来确保管道学习正确的先验运动知识。最后，我们在主流数据集上评估了我们的方法，并获得了超越现有技术的优异结果。

概述主要内容：
这篇论文介绍了3D人体姿态估计的一项研究，研究提出了一种新的人体姿态变形建模方法，并设计了一种基于扩散的运动先验。研究将任务分为3D参考骨骼估计和逐帧骨骼变形，使用混合空间-时间模型进行处理，并通过扩散模型确保学习正确的运动知识。研究在主流数据集上取得了优异的结果。

Paper20 Self-Supervised Learning With Masked Autoencoders for Teeth Segmentation From Intra-Oral 3D Scans

摘要小结: 在现代牙科中，从口腔内3D扫描中进行牙齿定位、分割和标注对于提高牙科诊断、治疗规划以及基于人口口腔健康研究至关重要。然而，由于可用于训练的数据有限，特别是从深度学习的角度来看，创建用于牙齿分析的自动化算法是一项挑战性的任务。本研究扩展了网格掩码自动编码器（MeshMAE）变换器的自监督学习框架。虽然MeshMAE损失衡量重建的掩码网格三角形的质量，但所提出的DentalMAE损失评估掩码网格三角形预测的深度嵌入。这使模型在非常有限的3D牙齿扫描数据上具有更好的泛化能力，正如我们关于口腔内扫描牙齿分割的结果所证明的。我们的结果显示，基于掩码的无监督学习方法可能首次为3D口腔内扫描提供令人信服的迁移学习改进，总体准确度超过了MeshMAE和之前的自监督预训练。

主要内容概述：本文讨论了现代牙科中牙齿分析的重要性，并提出了一种基于自监督学习的改进方法。该方法是对网格掩码自动编码器（MeshMAE）变换器的扩展，称为DentalMAE。DentalMAE通过评估掩码网格三角形的深度嵌入损失来提高模型在有限3D牙齿扫描数据上的泛化能力，实验结果表明，该方法在牙齿分割任务上取得了较好的效果，并提高了3D口腔内扫描的总体准确度。

Paper21 Cheating Depth: Enhancing 3D Surface Anomaly Detection via Depth Simulation

摘要小结: 基于RGB的表面异常检测方法已经取得了显著的进展。然而，某些表面异常在仅使用RGB时实际上是不可见的，这就需要融入3D信息。现有的采用点云骨干的方法由于表示不佳和处理速度慢，导致适用性降低。重新训练为快速密集输入处理设计的RGB骨干，在工业深度数据集上的应用受到大型数据集有限可用的阻碍。我们为解决这些挑战做出了几项贡献。（i）我们提出了一种新颖的深度感知离散自动编码器（DADA）架构，能够学习一个通用的离散潜在空间，共同建模RGB和3D数据以用于3D表面异常检测。（ii）我们通过引入模拟过程来应对工业深度数据集多样性不足的问题，以学习深度编码器中的信息丰富深度特征。（iii）我们提出了一种新的表面异常检测方法3DSR，它在具有挑战性的MVTec3D异常检测基准上优于所有现有技术水平，无论是在准确度还是处理速度上。

主要内容概述：
这篇论文介绍了RGB基表面异常检测方法的进展和挑战，并提出了一种新的方法来解决这些挑战。作者提出了DADA架构，处理3D信息，并引入了模拟过程来解决数据集问题。此外，他们提出了3DSR方法，在多个方面表现优于现有技术。

Paper22 ZRG: A Dataset for Multimodal 3D Residential Rooftop Understanding

摘要小结:

家庭中至关重要的部分是我们头顶上的屋顶，它保护我们免受自然元素的侵害。在本文中，我们介绍了Zeitview屋顶几何（ZRG）数据集，用于住宅屋顶理解。ZRG是一个大规模的住宅屋顶检查数据集，涵盖美国各地超过2万个房产，包括高分辨率航空正射影像、数字表面模型（DSM）、彩色点云和3D屋顶线框注释。我们提供了深入的分析，并进行了几项实验基线，包括屋顶轮廓提取、单目高度估计和平面屋顶结构提取，以说明这个数据集解锁的众多应用中的几个。

主要内容概述：

这篇论文介绍了一个名为Zeitview屋顶几何（ZRG）的数据集，它是一个用于住宅屋顶理解的大规模数据集。数据集包含了美国超过2万个房产的信息，包括高分辨率的影像和多种数据类型。作者还进行了深入分析，并通过实验基线展示了该数据集在屋顶轮廓提取等多个应用中的潜力。

Paper23 Robust Category-Level 3D Pose Estimation From Diffusion-Enhanced Synthetic Data

摘要小结:

获取准确的三维物体姿态对于许多计算机视觉应用至关重要，例如3D重建和场景理解。然而，对现实世界中的物体进行标注既耗时又具有挑战性。虽然合成生成的训练数据是一种可行的替代方案，但真实数据和合成数据之间的领域差距是一个重大挑战。在这项工作中，我们旨在缩小在合成数据上训练的模型与在大量真实数据上完全监督训练的模型之间的性能差距。我们通过从两个角度来解决这个问题：1）我们引入了P3D-Diffusion，这是一个新的合成数据集，具有通过图形引导扩散模型生成的准确3D标注。2）我们提出了Cross-domain 3D Consistency（CC3D），用于神经网格模型的无监督领域自适应。特别是，我们利用网格表面特征之间的空间关系和一个对比学习方案来指导领域自适应过程。结合这两种方法，我们的模型仅使用10%的真实训练图像就能与现有最佳模型竞争，而在使用50%的真实训练数据时，更是大幅超越SOTA模型。通过鼓励合成数据的多样性并以OOD感知方式生成图像，我们的模型进一步展示了在仅用少量真实数据训练的情况下对分布外情景的强大泛化能力。

主要内容概述：

这篇论文讨论了在计算机视觉应用中获取准确3D物体姿态的重要性，并指出了标注真实物体的挑战。提出了两种方法来解决这一挑战：1）创建了一个新的合成数据集P3D-Diffusion；2）提出了CC3D，用于神经网格模型的无监督领域自适应。这两种方法结合使用，显著提高了模型在少量真实数据训练下的性能，并展示了强大的泛化能力。

Paper24 Self-Annotated 3D Geometric Learning for Smeared Points Removal

摘要小结: 消费者级密集深度传感器的准确性和质量已经有了显著的提高。然而，仍然存在一个常见的深度像素伪影，我们称之为涂抹点。这些点不在任何3D表面上，通常出现在前景和背景对象之间的插值中。由于它们会引发虚构的表面，这些点可能会损害依赖深度图的应用。统计离群值去除方法在去除这些点时效果不佳，因为它们也倾向于移除实际表面点。基于训练网络的点去除在获取足够的注释数据方面面临困难。

主要内容概述：

这篇论文讨论了以下内容：

消费者级深度传感器的改进。
存在一个问题，即“涂抹点”，这是深度像素伪影。
涂抹点可能导致虚构表面，对某些应用有害。
传统去除方法效果不佳。
-以下是对以下内容的翻译：

翻译：

在提高消费者级密集深度传感器的准确性和质量方面已经取得了显著的进展。尽管如此，仍然存在一种常见的深度像素伪影，我们称之为涂抹点。这些点不在任何三维表面上，通常表现为前景和背景对象之间的插值。由于它们会引发虚构的表面，这些点可能会损害依赖深度图的应用。统计异常值去除方法在去除这些点方面表现不佳，因为它们也倾向于移除实际的表面点。基于训练网络的点去除在获取足够的注释数据方面遇到困难。

以下是翻译后的内容：

我们提出以下方法：

我们提出了一种完全自我注释的方法来训练涂抹点去除分类器。我们的方法依赖于从多个角度收集3D几何证据，以自动检测和注释涂抹点和有效点。以下是验证：

以下是验证细节：

我们提出了一个新的基准数据集：Real Azure-Kinect数据集。
实验结果和消融研究表明，我们的方法优于传统滤波器和其他自我注释方法。
我们的工作公开可用，以下是链接：https://github.com/wangmiaowei/wacv2024_smearedremover.git.

Paper25 Domain Adaptive 3D Shape Retrieval From Monocular Images

摘要小结: 在这项工作中，我们解决了一个新颖且具有挑战性的问题：从单张2D图像中进行域自适应的3D形状检索（DA-IBSR）。现有的基于图像的3D形状检索（IBSR）问题关注的是模态对齐，以便在给定的2D图像查询下从形状库中检索到一个可匹配的3D形状，但它并未考虑训练和测试图像-形状对之间的分布偏移，导致现成的IBSR方法性能不佳。相比之下，提出的DA-IBSR解决了模态转移以及训练和测试集之间的分布转移的非平凡问题。

以下是翻译和主要内容概述：

翻译：
在本研究中，我们处理基于单张2D图像的域自适应3D形状检索（DA-IBSR）这一新颖且具有挑战性的问题。当现有的基于图像的3D形状检索（IBSR）问题专注于为给定2D图像查询从形状库中检索可匹配的3D形状的模态对齐时，它并未考虑训练与测试图像-形状对之间的分布偏移，这使得现成的IBSR方法的性能不佳。相比之下，所提出的DA-IBSR解决了模态转移以及训练和测试集之间的分布转移问题。为了解决这些问题，我们提出了一种端到端可训练的模型，称为DAIS-NET。我们的目标是分别对两个域的图像和形状进行对齐，同时学习2D和3D模态的共享嵌入空间。

主要内容概述：

文章提出了DA-IBSR问题，这是一个关于从2D图像中进行域自适应3D形状检索的新问题。
现有的IBSR方法未考虑训练和测试数据之间的分布偏移。
提出的DAIS-NET模型旨在解决模态转移和分布转移问题。
DAIS-NET通过在两个域的2D图像和3D形状上分别使用最大平均差异损失来处理这些问题。
为了解决模态对齐问题，引入了负样本挖掘和三元组损失。
还采用了熵最小化策略，以在语义空间中对齐未标记的目标域数据。
作者在SHREC’14 <-> Pix3D和ShapeNet <-> SHREC’14等基准上定义了DA-IBSR的实验设置，并展示了其方法的有效性。

Paper26 When 3D Bounding-Box Meets SAM: Point Cloud Instance Segmentation With Weak-and-Noisy Supervision

摘要小结:

从边界框注释中学习在弱监督3D点云实例分割中显示出巨大的潜力。然而，我们观察到现有方法在受到扰动的边界框注释下会遭受严重的性能下降。为了解决这一问题，我们提出了一种补充图像提示诱导的弱监督点云实例分割（CIP-WPIS）方法。CIP-WPIS利用在2D基础模型SAM中嵌入的预训练知识和3D几何先验，从边界框注释中实现准确的点状实例标签。具体来说，CIP-WPIS首先选择3D实例的候选点完全可见的图像视图。然后，我们从投影中生成补充的背景和前景提示，以获得SAM的2D实例掩码预测。根据这些，我们为点分配置信度值，表示点属于实例的可能性。此外，我们利用超点提供的3D几何同质性来决定最终的实例标签分配。以这种方式，我们实现了高质量的3D点状实例标签。在Scannet-v2和S3DIS基准上的大量实验证明，我们的方法不仅实现了边界框监督点云实例分割的最先进性能，而且对噪声3D边界框注释也表现出鲁棒性。

主要内容概述：

这篇论文介绍了一种新的弱监督3D点云实例分割方法（CIP-WPIS），该方法旨在解决现有方法在边界框注释扰动下的性能问题。CIP-WPIS利用2D基础模型SAM的预训练知识和3D几何先验，从边界框注释中准确生成点状实例标签。方法包括选择可见的图像视图，生成补充提示以获得2D实例掩码预测，并为点分配置信度值。最后，使用3D几何同质性来确定实例标签。实验证明该方法在性能和鲁棒性方面表现出色。

Paper27 Slice and Conquer: A Planar-to-3D Framework for Efficient Interactive Segmentation of Volumetric Images

摘要小结: 互动分割方法已经被研究以应对自动分割中可能需要的额外细化，通过人机交互技术。我们提出了一个准确分割3D图像的方法，称为“切片与征服”，这是一种新颖的从平面到3D的管道，将体积掩膜构建分为两个阶段：1）2D互动分割和2）引导3D分割。具体来说，第一阶段使用户能够专注于单个2D切片，并提供相应的2D预测结果作为强大的形状先验。在平面引导下，可以通过最小化交互构建一个准确的三维掩膜。为了支持灵活的迭代细化，我们的系统在第二阶段的结尾推荐下一个切片进行标注。由于体积分割可以通过连续标注少数推荐的两个2D切片完成，我们的方法显著减轻了用户探索体积空间的认知负担。

交互式分割方法已经得到研究，以满足自动分割通过人机交互技术可能需要的额外细化需求。为了准确地对3D图像进行分割，我们提出了“切片与征服”方法，这是一种新颖的从平面到3D的管道，将体积掩膜构建分为两个阶段：1）2D互动分割和2）引导3D分割。具体内容如下：

主要内容概述：

提出了一种新的3D图像分割方法。
方法名为“切片与征服”，分为两个阶段进行体积掩膜构建。
第一阶段是2D互动分割，第二阶段是引导3D分割。
方法减轻了用户探索体积空间的认知负担。
通过实验，展示了该方法在不同3D生物医学图像数据集上的有效性。

Paper28 Ego2HandsPose: A Dataset for Egocentric Two-Hand 3D Global Pose Estimation

摘要小结:

在全局坐标系中基于颜色的双手3D姿态估计在许多应用中至关重要。然而，目前很少有数据集专门针对这项任务，而且没有现有的数据集支持在非实验室环境中的估计。这很大程度上归因于3D手部姿态注释所需复杂数据收集过程，这也导致难以获得具有视觉多样性级别的实例，以支持野外环境中的估计。为了实现这一目标，最近提出了一个大规模的数据集Ego2Hands，以解决在野外进行双手分割和检测的任务。所提出基于组合的数据生成技术可以创建质量、数量和多样性都很好的双手实例，能够很好地泛化到未见过的领域。在这项工作中，我们介绍了Ego2HandsPose，这是Ego2Hands的扩展，其中包含3D手部姿态注释，并且是第一个支持在未见过的领域中基于颜色的双手3D跟踪的数据集。为此，我们开发了一套参数拟合算法，能够实现：1)使用单个图像进行3D手部姿态注释，2)从2D自动转换到3D手部姿态，以及3)具有时间一致性的精确双手跟踪。我们提供了对多阶段管道的逐步定量分析，并展示了在我们数据集上训练可以得到最先进的结果，显著优于其他数据集，用于以自我为中心的双手全局3D姿态估计任务。

主要内容概述：
这篇论文讨论了在全局坐标系中基于颜色的双手3D姿态估计的重要性，并指出现有数据集在这方面的局限性。随后介绍了Ego2Hands数据集及其扩展Ego2HandsPose，这是首个支持在非实验室环境中进行基于颜色的双手3D跟踪的数据集。文章还描述了为实现这一目标所开发的参数拟合算法，并通过实验证明了使用该数据集训练可以得到优于其他数据集的先进结果。

Paper29 DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification

摘要小结:

大型预训练模型通过促进多模态学习，彻底改变了计算机视觉领域。特别是，CLIP模型在图像分类、目标检测和语义分割等任务中表现出色。然而，其在处理3D点云方面的有效性受到来自3D投影的深度图与CLIP训练图像之间的领域差距的限制。本文介绍了DiffCLIP，这是一种新颖的预训练框架，它无缝集成了稳定扩散与ControlNet。DiffCLIP的主要目标是弥合视觉分支中固有的领域差距。此外，为了解决文本分支中的少量样本任务，我们引入了一个样式提示生成模块。在ModelNet10、ModelNet40和ScanObjectNN数据集上的大量实验表明，DiffCLIP具有很强的3D理解能力。通过使用稳定扩散和样式提示生成，DiffCLIP在ScanObjectNN的OBJ_BG上实现了零样本分类的准确率为43.2%，这是最先进的性能，以及在ModelNet10上实现了82.4%的零样本分类准确率，这也是最先进的性能。

主要内容概述：

这篇论文主要介绍了DiffCLIP，这是一种新的预训练框架，旨在改善3D点云处理能力。它通过集成稳定扩散与ControlNet来弥合视觉领域的差距。此外，通过引入样式提示生成模块，它还解决了文本分支中的少量样本任务。实验结果显示，DiffCLIP在多个数据集上展现了强大的3D理解能力，并在零样本分类任务上取得了最先进的性能。

Paper30 A Geometry Loss Combination for 3D Human Pose Estimation

摘要小结: 多年来，根相对损失一直是3D人体姿态估计的基础。然而，这种点对点损失将每个关键点分开处理，忽略了人体内部的连接信息。这会导致非法的姿态预测，即真实世界中人类无法形成的姿势。此外，它还受到不同关键点估计难度差异的影响。关键点离躯干越远，其准确性就越低。为了解决上述问题，本文提出了几何损失组合，以充分利用每个关键点之间的几何关系。这个损失组合包括三个损失函数：根相对姿态、骨长度和身体部位朝向。前两个已经在之前的工作中使用。在此基础上，我们进一步开发了一个称为身体部位朝向损失的损失函数，用于局部身体部位。直观来说，人体可以分为三部分：头部、躯干和肢体。基于此，我们选择相应的关键点，并为每个身体部分创建虚拟平面。不同数据集和模型的实验表明，我们提出的方法提高了预测的准确性。我们还在3DPW测试集上实现了65.0的MPJPE，超过了现有最佳方法。

概述主要内容：
这篇论文主要讨论了3D人体姿态估计中的一个问题，即传统的根相对损失方法忽略了人体内部的连接信息，导致预测不准确。文章提出了一种新的几何损失组合方法，包括三个损失函数，并特别提出了一种新的身体部位朝向损失。实验证明，这种方法可以提高预测准确性，并在3DPW测试集上取得了优异的成绩。

Paper31 Dual Domain Diffusion Guidance for 3D CBCT Metal Artifact Reduction

摘要小结: 之前解决金属伪影减少（MAR）问题的方法大多集中在2D MAR上，这使得将其应用于具有三维CT的问题（如CBCT）变得具有挑战性。在本文中，我们提出了一种新的3D MAR方法，该方法利用两个扩散模型来模拟无金属CBCT先验和金属伪影先验。通过在图像域和投影域的双重域指导，恢复了图像中的3D连通性。此外，我们还提出了一种节省内存的技术，用于高效采样三维数据，使内存使用量降低几个数量级。实验表明，我们的方法不仅在与合成数据上，也在实际临床和分布外数据上达到了最先进的性能。

主要内容概述：
这篇论文介绍了作者提出的一种新的3D金属伪影减少方法，该方法通过使用两个扩散模型来处理先验问题，并在图像恢复中增强3D连通性。同时，还提出了一种节省内存的采样技术，实验证明该方法在多种数据上表现出色。

Paper32 Joint 3D Shape and Motion Estimation From Rolling Shutter Light-Field Images

摘要小结: 在这篇文章中，我们提出了一种方法，用于解决由配备滚动快门传感器的光场相机捕获的单张图像的场景三维重建问题。我们的方法利用了光场中的三维信息线索以及滚动快门效应提供的运动信息。我们提出了这种传感器的成像过程的通用模型，以及一个两阶段的算法，该算法在考虑相机位置和运动的情况下最小化重投影误差，采用运动-形状束调整估计策略。因此，我们提供了一个瞬时的三维形状-姿态-速度感知范式。据我们所知，这是第一个利用这种类型的传感器进行此类研究的工作。我们还提供了一个新的基准数据集，其中包含显示滚动快门效果的不同光场，可用作改进评估和跟踪该领域进展的公共基础。通过为不同场景和运动类型进行的实验，我们证明了我们方法的有效性和优势。源代码和数据集可公开访问：https://github.com/ICB-Vision-AI/RSLF。

概述主要内容：
这篇文章介绍了作者提出的一种新方法，用于单张图像的三维重建，特别是利用光场相机和滚动快门传感器。该方法结合了光场信息和运动信息，提出了一种算法，并引入了新的数据集。文章还强调了这是首次使用此类传感器的研究，并通过实验证明了方法的有效性。

Paper33 Enhancing Multi-View Pedestrian Detection Through Generalized 3D Feature Pulling

摘要小结:

多视角行人检测中的主要挑战是将视角特定特征整合到统一的空间中，以实现全面的端到端感知。之前的多视角检测方法主要集中在将透视视图特征投影到地面平面，创建场景的“鸟瞰视图”（BEV）表示。本文提出了一种简单但有效的架构，该架构利用了一种非参数化的3D特征提取策略。该策略直接提取3D特征体积内每个有效体素对应的2D特征，解决了先前方法中可能出现的特征丢失问题。所提出的框架引入了三个新颖的模块，每个模块都精心设计以增强多视角检测系统的一般化能力。通过大量实验，证明了所提模型的效力。结果显示，在传统场景以及场景泛化基准测试的背景下，都取得了新的最先进准确率。

主要内容概述：
这篇论文讨论了多视角行人检测的挑战，并提出了一种新的架构来提高检测效果。主要挑战是整合不同视角的特征。文中提出的架构使用了一种3D特征提取策略，以解决特征丢失问题，并引入了三个新模块来增强检测系统。实验结果表明，该模型在准确率上取得了新的突破。

Paper34 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic Segmentation

摘要小结: 随着3D感知问题的普及以及对大规模标记数据集的需求增加，用于LiDAR语义分割的新方法应运而生，这些方法旨在通过采用弱监督训练来减少对密集注释的需求。然而，这些方法在小型物体和远距离稀疏区域的边界估计仍然较弱，且假阴性率较高。我们认为，利用RGB图像可以弥补这些弱点，因为RGB图像提供了更密集的场景表示。我们提出了一个图像引导网络（IGNet），该网络基于将高层次特征信息从经过域适配的合成训练的2D语义分割网络中提取出来的想法。我们还使用了一种单向对比学习方案和一种名为FOVMix的新型混合策略，以解决两个传感器之间的水平视场不匹配问题，并增强图像引导的效果。IGNet在ScribbleKITTI上取得了弱监督LiDAR语义分割的最先进成果，仅用8%的标记点就达到了全监督训练的98%相对性能，同时在推理过程中没有引入额外的注释负担或计算/内存成本。此外，我们还展示了我们的贡献对半监督训练也有效，IGNet在ScribbleKITTI和SemanticKITTI上均取得了最先进的结果。

概述：
这篇论文主要内容是介绍了一种新的图像引导网络（IGNet），用于改善弱监督LiDAR语义分割的问题。该方法利用RGB图像来提高小型物体和远距离区域的分割效果，并通过特殊的学习方案和混合策略提升性能。IGNet在多个数据集上取得了最先进的结果，且在成本和效率上表现出色。

Paper35 MotionAGFormer: Enhancing 3D Human Pose Estimation With a Transformer-GCNFormer Network

摘要小结: 最近的基于变压器的 approach 在3D人体姿态估计中表现出色。然而，它们具有整体视角，通过编码所有关节之间的全局关系，不能精确捕捉局部依赖。在本文中，我们提出了一种新颖的Attention-GCNFormer（AGFormer）块，它通过使用两个并行的变压器和GCNFormer流来分割通道数。我们提出的GCNFormer模块利用相邻关节之间的局部关系，输出一种新的表示，与变压器输出相辅相成。通过以自适应方式融合这两种表示，AGFormer表现出更好的学习底层3D结构的能力。通过堆叠多个AGFormer块，我们提出了四种不同变体的MotionAGFormer，可以根据速度-精度权衡来选择。

以下是对主要内容概述：

翻译：
最近的基于变压器的方法在3D人体姿态估计方面表现出色。但是，它们具有全面的视角，通过编码所有关节之间的全局关系，它们不能精确捕捉局部依赖。在本文中，我们提出了一种新颖的Attention-GCNFormer（AGFormer）块，该块通过使用两个并行的变压器和GCNFormer流来分割通道数。我们提出的GCNFormer模块利用相邻关节之间的局部关系，输出一种新的表示，与变压器输出互补。通过以自适应方式融合这两种表示，AGFormer显示出更好的学习底层3D结构的能力。通过堆叠多个AGFormer块，我们提出了四种不同变体的MotionAGFormer。

概述：

文章介绍了一种新的模型块AGFormer，用于改善3D人体姿态估计。
AGFormer通过并行变压器和GCNFormer流来精确捕捉局部依赖。
提出的GCNFormer模块专注于相邻关节的局部关系。
MotionAGFormer是四种变体，根据需要选择，表现出色。
在两个基准数据集上评估模型，取得了最先进的结果。
模型在参数和计算效率方面优于之前领先模型。

Paper36 HD-Fusion: Detailed Text-to-3D Generation Leveraging Multiple Noise Estimation

摘要小结: 在这篇文章中，我们研究了利用2D扩散先验来提高生成3D模型的质量和细节的文本到3D内容生成。近年来，文本到3D的进展表明，使用高分辨率（例如，512 x 512）渲染可以生成高质量的3D模型，使用潜在的扩散先验。为了实现更高分辨率的渲染，这有可能进一步提高模型的质量和细节，我们提出了一种新颖的方法，该方法结合了多个噪声估计过程与预训练的扩散先验。与Bar-Tal等人研究的绑定多个去噪结果[1]从文本生成图像不同，我们的方法整合了计算评分蒸馏损失，如SDS损失和VSD损失，这些是使用2D扩散先验进行3D内容生成的重要技术。

主要内容概述：
这篇论文主要讲述了文章研究的内容，即如何通过2D扩散先验提升文本到3D内容生成的质量和细节。文章提出了一种新方法，通过结合多个噪声估计过程与预训练的扩散先验来实现这一目标。此外，该方法还集成了关键的评分蒸馏损失计算。

本文中，我们研究了一种利用2D扩散先验增强生成3D模型质量和细节的文本到3D内容生成方法。文本到3D的最新进展表明，使用高分辨率（例如512 x 512）渲染可以产生高质量的3D模型，利用潜在的扩散先验。为了能在更高分辨率下进行渲染，以进一步提升模型的质量和细节，我们提出了一种新颖的方法，结合了多个噪声估计过程与预训练的扩散先验。这与Bar-Tal等人的研究不同，我们的方法整合了SDS损失和VSD损失等评分蒸馏损失的计算，这是3D内容生成中使用2D扩散先验的关键技术。我们实验性地评估了XXX上的提议方法。结果显示，提出的方法比基线能生成更多高质量细节。

Paper37 3D Face Style Transfer With a Hybrid Solution of NeRF and Mesh Rasterization

摘要小结: 近年来，人脸风格迁移受到了广泛的研究。现有的大多数方法在2D图像领域工作，当应用于同一人脸的不同视角时，存在3D不一致的问题。在本文中，我们解决了3D人脸风格迁移的问题，旨在生成具有多视角一致性的3D人脸新颖风格化视图。我们提议使用神经辐射场（NeRF）来表示3D人脸，并将其与2D风格迁移相结合来风格化3D人脸。我们发现直接在2D风格迁移的样式化图像上训练NeRF会带来3D不一致的问题并导致模糊。另一方面，与2D风格迁移目标共同训练NeRF由于样式图像与内容图像之间的身份和头部姿态差异，收敛效果差。此外，由于需要对整个图像进行体积渲染以应用风格迁移损失函数，它在训练时间和内存方面也提出了挑战。因此，我们提出了一个NeRF和网格光栅化的混合框架，结合了NeRF高保真几何重建的优点和网格快速渲染速度。我们的框架包括三个阶段：1.在输入人脸图像上训练NeRF模型以学习3D几何；2.从训练好的NeRF模型中提取网格，并通过可微光栅化对其进行优化，以实现风格迁移目标；3.在NeRF中训练一个新的颜色网络，根据样式嵌入实现任意风格迁移到3D人脸。实验结果显示，我们的方法生成了高质量的 face 风格迁移，具有很好的3D一致性，同时也能实现灵活的风格控制。

主要内容概述：本文提出了一种解决3D人脸风格迁移问题的方法，该方法使用神经辐射场（NeRF）表示3D人脸并结合2D风格迁移来风格化3D人脸。文章还讨论了直接训练NeRF可能带来的问题，并提出了一种结合NeRF和网格光栅化的混合框架来提高风格迁移的质量和3D一致性。该框架分为三个阶段进行训练和优化，实验结果证明了方法的有效性。

Paper38 U3DS3: Unsupervised 3D Semantic Scene Segmentation

摘要小结: 当前点云分割方法很大程度上依赖于丰富的三维训练数据注释。然而，为这样的3D场景数据获取一致准确性的注释既费时又具有挑战性。此外，对于点云的全局无监督场景分割的研究仍然不足，特别是对于整体3D场景。本文提出了U3DS3，作为向完全无监督的点云分割迈出的一步，适用于任何整体3D场景。以下是翻译和主要内容概述：

翻译：
当代点云分割方法在很大程度上依赖于丰富注释的三维训练数据。然而，获取这种3D场景数据的一致准确注释既耗时又具有挑战性。此外，对于点云的全局无监督场景分割的研究仍然不够，特别是对于完整的3D场景。本文介绍了U3DS3，作为对任何完整3D场景实现完全无监督点云分割的一步。为了实现这一点，U3DS3利用了一种广义的无监督分割方法，适用于室内外静态3D点云的对象和背景，无需模型预训练，仅利用点云的固有信息实现全3D场景分割。我们提出的方法的初始步骤涉及根据每个场景的几何特性生成超点。随后，它通过基于空间聚类的方法进行学习过程，然后使用根据聚类中心生成的伪标签进行迭代训练。此外，通过利用体积表示的不变性和等变性，我们在体素化特征上应用几何变换，提供两组描述符以进行稳健的表示学习。最后，我们的评估在ScanNet和SemanticKITTI上提供了最先进的结果，并在S3DIS基准数据集上提供了有竞争力的结果。

主要内容概述：
本文介绍了U3DS3，这是一种针对完整3D场景的完全无监督点云分割方法。该方法不依赖于模型预训练，并使用点云的固有信息进行分割。它通过生成超点并使用空间聚类方法进行学习，最终在多个基准数据集上提供了有竞争力的结果。

Paper39 NeRFEditor: Differentiable Style Decomposition for 3D Scene Editing

摘要小结: 我们介绍了NeRFEditor，这是一个高效的学习框架，用于3D场景编辑。它以视频为输入，输出高质量、保持身份特色的风格化3D场景。我们的目标是弥合2D和3D编辑之间的差距，满足各种创意修改，如参考引导的更改、基于文本的提示和用户交互。我们通过鼓励预训练的StyleGAN模型和NeRF模型学习相互一致的渲染来实现这一点。具体来说，我们使用NeRF生成大量（图像，相机姿态）对来训练一个调整模块，该模块调整StyleGAN潜在代码，以从任何给定的视角生成高保真度的风格化图像。为了将编辑扩展到新颖视图，即那些在StyleGAN预训练中未见的视图，同时保持360度一致性，我们提出了第二个自我监督模块，将这些视图映射到StyleGAN的隐藏空间。

以下是主要内容概述：

翻译内容：
我们介绍了一种名为NeRFEditor的3D场景编辑高效学习框架。

主要内容概述：

NeRFEditor输入视频，输出高质量风格化3D场景。
旨在结合2D和3D编辑，支持多种创意修改。
使用预训练的StyleGAN和NeRF模型学习一致渲染。
通过NeRF生成训练数据，调整StyleGAN潜在代码。
提出新模块以保持360度一致性。
实验表明，NeRFEditor在多个方面优于先前的工作。

Paper40 AvatarOne: Monocular 3D Human Animation

摘要小结: 翻译：从单目视频中重建真实人类头像是一个挑战，需要精细地建模三维表面和关节活动。在本文中，我们介绍了一种综合方法，该方法协同了三个关键组成部分：（1）使用带体积渲染和基于网格的射线采样的符号距离场（SDF）表示来剪除空射线集，实现高效的三维重建；（2）通过为人体表面设置一个预热阶段，实现更快的3D表面重建，确保对身体四肢的详细建模；（3）时间上一致的主题特定正向规范蒙皮，有助于保持帧间的对应关系，所有这些都可以在30分钟内以端到端的方式进行训练。利用预热和基于网格的射线行进，以及更快的基于体素的对应搜索，我们的模型简化了问题的计算需求。我们进一步实验了不同的采样表示以改进射线辐射近似，并获得无浮点数的表面。

概述内容：

这篇论文主要介绍了一篇论文中提出的一种综合方法，用于从单目视频中重建真实的人类头像。该方法包括三个关键组成部分：符号距离场表示、预热阶段的3D表面重建以及时间一致的蒙皮技术。这些技术结合起来，能够实现高效的三维重建，并且在30分钟内可以端到端训练。此外，该方法还简化了计算需求，并通过实验提高了射线辐射近似，最终提供了高质量的表面。论文中的方法被认为与当前技术相当，并为未来的3D头像建模研究提供了新的见解和方向。整体上，这是一项快速、健壮的解决方案。

Paper41 3D Reconstruction of Interacting Multi-Person in Clothing From a Single Image

摘要小结: 这篇论文介绍了一种新颖的流程，可以从单个图像中重建全局一致的场景空间中穿着衣服的互动多人的几何形态。主要挑战来自遮挡：由于他人或自身的遮挡，从单一视角看，人体的一部分是不可见的，这导致了缺失的几何形状和物理上的不合理性（例如，穿透）。我们通过利用两个关于完整3D几何形状和表面接触的人体先验来解决这个挑战。

翻译：
本文提出了一种新颖的流水线方法，可以从单个图像中在全局一致的场景空间内重建穿着衣服的互动多人的几何形状。主要的挑战来自于遮挡：由于其他人物或自身的遮挡，从单一视图中无法看到人体的一部分，这会导致几何形状的缺失和物理上的不合理（例如穿透）。我们通过利用两个人体先验来解决这一挑战，以完成3D几何形状和表面接触。以下是主要内容概述：

概述：
主要内容是，作者通过以下方法克服遮挡挑战：

对于几何先验，一个编码器学会将缺失身体部分的图像回归到潜在向量；解码器解码这些向量以生成相关几何形状的3D特征；隐式网络将这些特征与表面法线图结合，重建完整且详细的3D人体。
对于接触先验，开发了一个图像空间接触检测器，输出3D中人与人之间表面接触的概率分布。

作者使用这些先验全局优化身体姿势，从而在场景空间中实现无穿透且精确的互动多人穿着衣服的重建。结果显示，与现有方法相比，该方法完整、全局一致且物理上合理。

Paper42 PMVC: Promoting Multi-View Consistency for 3D Scene Reconstruction

摘要小结: 从多视角二维观测重建三维场景的几何形状一直是3D计算机视觉的核心任务。最近基于神经渲染的方法，使用隐式形状表示，如神经符号距离函数（SDF），表现出令人印象深刻的性能。然而，它们在恢复场景的细节方面存在不足，尤其是当使用多层感知器（MLP）作为SDF表示的插值函数时。以下是翻译和概述：

翻译：
重建一个3D场景的几何形状从其多视角2D观测一直是3D计算机视觉的一个中心任务。最近基于神经渲染的方法，使用隐式形状表示，例如神经符号距离函数（SDF），已经显示出令人印象深刻的性能。然而，它们在恢复场景中的细微细节方面存在不足，特别是当使用MLP作为SDF表示的插值函数时。逐帧图像法线或深度图预测已被用来解决这一问题，但这些基于学习的方法仅基于单个图像帧，因此忽视了场景的底层多视角一致性，导致不一致的错误3D重建。为了缓解这个问题，我们提议利用在图像上计算的多视角深度特征。此外，我们采用了一种自适应采样策略，评估多视角图像一致性的真实性。我们的方法优于当前最先进的方法，特别是在那些薄或无纹理区域提供了准确且鲁棒的场景表示，细节得到了特别增强。

概述：
这篇论文主要内容是讨论了3D计算机视觉中的一个核心任务，即从多视角2D图像重建3D场景的几何形状。文中指出，尽管基于神经渲染的方法取得了进展，但在细节恢复上仍有不足。解决方案是利用多视角深度特征，并采用自适应采样策略来提高图像一致性。该方法在实验中表现出色，尤其是在细节丰富的区域，优于当前最先进的技术。实验在ScanNet和Replica数据集上进行。

Paper43 Spatio-Temporal Filter Analysis Improves 3D-CNN for Action Classification

摘要小结: 随着2D-CNN在图像识别文献中的发展，3D-CNN被热情地应用于视频动作识别。尽管时空（3D）卷积成功地源自空间（2D）卷积，但目前尚不清楚卷积如何在3D-CNN中编码时间运动模式。在本文中，我们从时间角度分析了时空滤波器，揭示了特征提取机制的奥秘。分析不仅描述了两个动作数据集Something-Something-v2（SSv2）和Kinetics-400的特征，还揭示了通过堆叠时空卷积如何表现时间动态。基于此分析，我们提出了改进时间特征提取的方法，包括时间滤波器表示和时间数据增强。提出的方法有助于扩大3D-CNN的时间感受野，而不会触及其基本架构，从而保持计算成本。以下是主要内容概述：

翻译内容概述：
3D-CNN在视频动作识别中的应用正在增加，但时间运动模式的编码仍不清楚。本文通过时间角度分析，探讨了特征提取机制，并提出了改进时间特征提取的方法，这些方法提高了3D-CNN的性能，而不会增加计算成本。

随着2D-CNN在图像识别领域的不断发展，3D-CNN被积极地应用于视频动作识别。尽管时空（3D）卷积成功地源自空间（2D）卷积，但3D-CNN中卷积如何编码时间运动模式仍然不清楚。在本文中，我们通过从时间角度分析时空滤波器，揭示了特征提取机制。分析不仅描述了Something-Something-v2（SSv2）和Kinetics-400这两个动作数据集的特征，还展示了如何通过堆叠时空卷积来表现时间动态。基于此分析，我们提出了改进时间特征提取的方法，包括时间滤波器表示和时间数据增强。提出的方法有助于扩大3D-CNN的时间感受野，且不改变基本架构，从而保持了计算成本。在SSv2和Kinetics-400的动作分类实验中，该方法显著提高了3D-CNN的性能。

Paper44 HAMMER: Learning Entropy Maps To Create Accurate 3D Models in Multi-View Stereo

摘要小结:

尽管大多数最新的多视角立体重建网络都是针对每张参考图像估计一个深度图，但它们的性能通常只在从所有图像中获得融合后的3D模型上进行评估。这种方法非常合理，因为最终我们最感兴趣的往往是点云结果。然而，另一方面，它常常导致在公共基准测试上获得好成绩时，需要进行繁琐的手动搜索以找到正确的融合参数。在这项工作中，我们使用HAMMER（一种具有熵过滤重建的分层且内存高效的多视角立体网络）来解决上述问题。我们提议学习一个基于熵的过滤掩模，该掩模与简单的双视图几何验证结合使用，足以生成任何输入场景的高质量3D模型。与现有工作不同，不需要进行繁琐的手动参数搜索以进行融合步骤。此外，我们采取了几项预防措施，以保持我们方法在训练和推理阶段的内存需求非常低。我们的方法在训练期间仅需要6 GB的GPU内存，而在推理期间处理1920 x 1024图像时，3.6 GB就足够了。实验表明，HAMMER在DTU和Tanks and Temples基准测试的官方指标中排名靠前，尤其是在保持融合参数固定时。

主要内容概述：

这篇论文主要介绍了一种名为HAMMER的多视角立体重建网络，该网络通过学习基于熵的过滤掩模和简单的双视图几何验证，能够生成高质量的3D模型，而无需进行繁琐的手动参数搜索。此外，该方法在内存需求方面非常低，实验证明其在某些基准测试中表现优异。

Paper45 Re-VoxelDet: Rethinking Neck and Head Architectures for High-Performance Voxel-Based 3D Detection

摘要小结: 当前，广泛使用的基于LiDAR的三维目标检测器采用网格化方法来有效地处理稀疏点云。然而，在这个过程中，降采样特征无疑会丢失空间信息，这可能导致检测器无法准确预测物体的位置和大小。为了解决这一问题，之前的研究提出了精心设计的颈部和头部模块，以有效补偿信息损失。受到之前研究核心见解的启发，我们提出了一种新型的基于体素的三维目标检测器，名为Re-VoxelDet，它结合了三个不同的组件，以实现良好的检测能力和实时性能。

以下是主要内容概述：

翻译：
目前，广泛应用于基于LiDAR的三维目标检测器采用基于网格的方法来有效地处理稀疏点云。然而，在此过程中，降采样特征无疑会丢失空间信息，这可能阻碍检测器准确预测物体的位置和大小。为了解决这一问题，之前的研究提出了精心设计的颈部和头部模块，以有效补偿信息损失。受到先前研究的核心见解启发，我们提出了一种名为Re-VoxelDet的新型基于体素的三维目标检测器，它结合了三个不同的组件，以实现良好的检测能力和实时性能。

概述：

该段话讨论了以下内容：

三维目标检测器使用基于网格的方法处理点云，但会丢失空间信息。
为了补偿这种损失，之前的研究设计了特定的模块。
新提出的Re-VoxelDet检测器，包含以下三个组件：
- 多视图体素骨干（MVBackbone），无需额外计算成本即可从不同角度学习特征。
- 分层体素引导辅助颈（HVANeck），有效补偿空间和强语义信息。
- 基于旋转的组头（RGHead），一个简单有效的头部模块，根据物体的朝向和纵横比设计。
通过大量实验，他们在多个数据集上证明了方法的有效性，结果明显优于现有技术。
他们计划在不久的将来发布模型和代码。

Paper46 Letting 3D Guide the Way: 3D Guided 2D Few-Shot Image Classification

摘要小结: 现有的少量样本图像分类网络旨在对在训练期间未见过的类的图像进行预测，仅使用从与支持集相同的图像池中随机挑选的几张带标签的图像。然而，这种传统方法存在两个主要问题：（i）在现实世界应用中，由于支持图像是随机挑选的，它们被捕获的角度可能与查询图像的角度差异很大，导致图像看起来非常不同，难以匹配；（ii）由于支持和查询图像（无论是训练还是测试）都是从同一图像池中采样，模型可能会过拟合数据集，尤其是如果图像池包含具有相似颜色、纹理或视角的图像。因此，数据集上的良好表现并不反映模型的实际能力。为了解决这些问题，我们提出了一种新颖的少量学习方法，称为3D引导2D（3DG2D）少量图像分类。

以下是对内容的概述：

主要内容概述：

现有方法的问题：当前的方法在处理未见过的类的图像时，使用随机挑选的图像，这会导致匹配困难，并且可能会过拟合数据集。

现有的少量样本图像分类网络旨在对训练期间未见过类的图像进行预测，仅使用从与支持集相同的图像池中随机挑选的少量带标签图像。然而，这种传统方法存在两个主要问题：（i）在现实世界应用中，由于支持图像是随机挑选的，捕获角度可能与查询图像差异很大，导致图像看起来非常不同，难以匹配；（ii）由于支持和查询图像（无论是训练还是测试）都是从同一图像池中采样，模型可能会过拟合数据集，尤其是如果图像池包含相似颜色、纹理或视角的图像。因此，数据集上的好表现并不真正反映模型的实际能力。为了解决这些问题，我们提出了一种称为3D引导2D（3DG2D）的少量图像分类新方法。以下是概述：

我们的方法：我们提出的方法中，查询是2D图像，支持集由3D网格数据组成，提供对象的不同视角，与提供单一视角的随机挑选图像形成对比。

以下是解决方法：

我们还提出了角度推理模块（AIM），用于推断查询图像的视角，以便更多地关注与查询图像相同视角的投影图像，以实现更好的预测性能。

实验和结果：

我们在ModelNet40、Toys4K和ShapeNet数据集上进行了4倍交叉验证实验，并显示我们的3DG2D少量分类方法始终优于现有最佳基线。以下是概述：

概述：

文章讨论了现有方法的挑战，提出了一种新的少量学习方法，并通过实验证明了其有效性。

Paper47 Back to Optimization: Diffusion-Based Zero-Shot 3D Human Pose Estimation

摘要小结: 基于学习的方法在3D人体姿态估计（HPE）任务中表现出色，大多数基准测试的性能显著优于传统的基于优化的方法。然而，在野外进行3D HPE仍然是基于学习的模型的最大挑战，无论是采用2D-3D提升、图像到3D还是基于扩散的方法，因为训练好的网络会隐式地学习相机内参和基于领域的3D人体姿态分布，并通过统计平均值估计姿态。另一方面，基于优化的方法逐个案例地估计结果，可以预测在野外更加多样化和复杂的人体姿态。通过结合基于优化和基于学习的方法的优点，我们提出了用于3D HPE的零样本基于扩散的优化（ZeDO）流程，以解决跨领域和在野外进行3D HPE的问题。我们的多假设ZeDO在Human3.6M上取得了最先进的（SOTA）性能，minMPJPE为51.4毫米，而无需用任何2D-3D或图像-3D对进行训练。此外，我们的单假设ZeDO在3DPW数据集上取得了SOTA性能，跨数据集评估的PA-MPJPE为42.6毫米，甚至超过了在3DPW上训练的基于学习的方法。

主要内容概述：这篇论文主要讨论了在3D人体姿态估计任务中，基于学习的方法相较于传统基于优化的方法表现更佳，但在野外环境下的3D HPE仍面临挑战。作者提出了一种结合优化和学习方法的零样本基于扩散的优化（ZeDO）流程，以解决跨领域和在野外进行3D HPE的问题，并在两个数据集上取得了最先进的性能。

Paper48 IKEA Ego 3D Dataset: Understanding Furniture Assembly Actions From Ego-View 3D Point Clouds

摘要小结: 我们提出了一个新的用于自我视角3D点云动作识别的数据集。近年来，虽然在RGB视频中理解人类动作的研究已经非常广泛，但对其3D点云对应物的研究相对有限。此外，RGB自我视角数据集正在迅速增长，但3D点云自我视角数据集却非常稀缺。现有的3D数据集在多个方面受限，有的包含可以通过全身动作区分的动作，而有的使用远距离的静态传感器，这阻碍了小物体的识别。我们引入了一个新的点云动作识别数据集——宜家自我3D数据集。它包括使用HoloLens 2设备从自我视角捕获的点云序列。该数据集包含大约493,000帧和56类复杂的家具组装动作，涉及四种不同类型的家具。我们在提出的数据集上评估了各种最先进的3D动作识别方法的性能，并显示它是极具挑战性的。

概述：
这篇论文主要内容是介绍了一个新的数据集，用于自我视角的3D点云动作识别。作者指出，尽管RGB视频在动作识别上的研究很广泛，但3D点云的研究较少。新提出的宜家自我3D数据集包含大量的帧和多种家具组装动作，并通过使用HoloLens 2设备捕获数据。同时，作者还评估了该数据集对于现有3D动作识别方法的挑战性。