论文笔记（五十一）Challenges for Monocular 6-D Object Pose Estimation in Robotics

Challenges for Monocular 6-D Object Pose Estimation in Robotics

文章概括
摘要
I. 介绍
II. 正在进行的研究和常见数据集
- A. 数据集
- B. 正在进行的研究问题
III. 未来挑战
- A. 物体本体
- B. 可变形和关节物体
- C. 场景级一致性
- D. 基准现实性
- E. 环境影响
- F. 通用物体操控
IV. 结论

Estimation in Robotics)

文章概括

引用：

@article{bauer2024challenges,title={Challenges for monocular 6d object pose estimation in robotics},author={Bauer, Dominik and H{\"o}nig, Peter and Weibel, Jean-Baptiste and Garc{\'\i}a-Rodr{\'\i}guez, Jos{\'e} and Vincze, Markus and others},journal={IEEE Transactions on Robotics},year={2024},publisher={IEEE}
}

Bauer, D., Hönig, P., Weibel, J.B., García-Rodríguez, J. and Vincze, M., 2024. Challenges for monocular 6d object pose estimation in robotics. IEEE Transactions on Robotics.

原文：https://ieeexplore.ieee.org/abstract/document/10609560
代码、数据和视频：

系列文章：
请在 $《$ 文章 $》$ 专栏中查找

摘要

物体姿态估计是一项核心的感知任务，例如，它使得物体操纵和场景理解成为可能。广泛可用的、价格低廉的、高分辨率的RGB传感器以及允许快速推理的CNN，使得单目方法特别适用于机器人应用。我们观察到之前的综述确立了针对不同模态、单视图和多视图设置、以及考虑多种应用的数据集和度量标准的最新技术水平。然而，我们认为，这些工作的广泛范围阻碍了对单目方法特有的未解决挑战的识别，以及推导出它们在机器人应用中的有前途的未来挑战。通过提供一个统一的视角，来自机器人和计算机视觉的最近出版物，我们发现遮挡处理、姿态表示以及形式化和改进类别级姿态估计仍然是对机器人来说非常相关的基本挑战。此外，为了进一步提高机器人性能，大型物体集、新颖物体、折射材料和不确定性估计是中心且基本上未解决的开放挑战。为了应对这些挑战，需要改进本体论推理、可变形处理、场景级推理、真实数据集和算法的生态足迹。

索引词—6D物体姿态估计、单目、开放挑战、操纵感知、场景理解。

I. 介绍

I. 引言

物体姿态估计是一项对于应用至关重要的任务，例如机器人抓取[1]、分拣[2]和语义场景理解[3]。虽然深度读数在推导具有独特几何形状的物体姿态方面已被证明是可靠的，但需要特殊的硬件。这些传感器相比较而言价格昂贵，不同距离、图像区域及不同传感器之间有不同的噪声模式，并且分辨率低于RGB传感器。由于成本低、表现力强、与深度传感器相比噪声低，以及能与CNN高效处理，RGB传感器的应用范围更广。它们提供丰富的信息以消除物体对称性的歧义，提供具有挑战性材质属性如透明度的物体的无噪声捕获，这些物体使用深度传感器难以检测，并且具有更适合非结构化开放世界的较大工作范围。因此，RGB在近年来的物体姿态估计中获得了显著的重要性。在最新版的6-D物体姿态估计基准测试(BOP)中，前两名以及前五名中的三个方法在RGB中生成初始姿态假设，并仅使用深度数据进行姿态精细化[4]。这种趋势，即单目方法以RGB作为输入，表现优于基于深度的方法，已在前一版BOP中开始[5]。因此，RGB方法是检测物体和提供初始姿态假设的首选。这证明了单目单次射击6-D物体姿态估计对机器人的重要性。图1显示了示例姿态注释。

在这里插入图片描述图1. 物体姿势。YCB-V [6] 物体与其注释姿势的叠加。

最近对物体姿态估计的最新技术总结[7]、[8]、[9]、[10]、[11]报告了领域转换、端到端训练、遮挡处理、对称性处理、改进数据集、推理几何属性、处理混乱以及金属、可变形和无纹理物体的姿态估计等未来挑战。由于该领域发展迅速，与此同时发表的作品基本解决了[7]中识别的问题，即领域转换、处理对称性和混乱、无纹理物体以及在标准数据集上的端到端训练。同时，相关调查考虑了方法在标准数据集上的性能或将它们归类为既定的分类法。在[8]中，作者使用标准数据集和度量呈现了姿态估计器的准确性分类，而在[9]中，讨论了用于自动驾驶车辆的3-D物体检测和6-D物体姿态估计方法。最近，范等人[10]介绍了在标准数据集上的实例和类别特定姿态估计和跟踪方法的最新技术。同时，Marullo等人[11]考虑了三个主要类别的方法；基于模板的、基于特征的方法和基于学习的方法。与所有这些工作相比，我们特别关注讨论用于机器人的单目物体姿态估计，强调未来发展。

我们讨论了其对不同机器人应用的相关性，并预测了机器人学习[12]、[13]、[14]、[15]泛化领域的最新进展将带来的变化。此外，我们将姿态估计的发展与机器人操作和策略学习的发展相关联，推导出这些领域之间的接触点，这将影响未来的研究。因此，本综述推导出在先前的评审中鲜有关注的正在进行和未来与机器人相关的感知挑战。

我们的讨论基于对当前关键问题的回顾，通过提取2021年、2022年、2023年和2024年（截至提交论文）在具有高科学影响力的机器人和计算机视觉领域发表的作品来识别。我们认为之前的调查中已经充分总结了之前的作品[7]，并且近年来选定的作品更能指示未来的挑战。我们对这些作品的回顾表明，在工业和家庭环境下闭环假设下克服领域转换似乎已基本解决。我们认为遮挡处理是通常提供准确姿态并处理离群值的方法的特征。我们强调更根本问题的重要性，如找到一个明确而紧凑的姿态表示、多对象处理、超越已知类别的类别级和新物体姿态估计、处理具挑战性的材料属性及由此产生的视觉不确定性的重要性。通过从机器人视角识别这个问题景观中的缺口，推导出未来的挑战。下游机器人和视觉任务利用场景级别的物体交互知识、描述非独特类别成员身份的物体本体论以及基于语言的基础模型帮助解决现实世界中的边缘案例。反映非结构化、自然机器人环境复杂性的新数据集将突出显示超越当前标准算法所需的改进，并推动机器人研究的进展。需要采取措施减少姿态估计研究及其在机器人应用中的环境影响。最后，近期在通用机器人策略、抓取泛化和基础模型方面的进展，必将导致物体操控和场景理解的范式转变。总之，本综述提供以下内容：

论点表明，许多由以前的调查识别的核心挑战，如领域适应，已在此期间被彻底调查；
对常用数据集在机器人学中开放挑战的相关性进行评估；
针对不断变化的非结构化环境中特定于机器人学的挑战进行的调查，使我们能够：a) 识别解决方案，例如处理许多新颖物体，这些在机器人应用中仍然缺乏性能；b) 识别典型机器人设置中出现的问题，如非独特的类别或自然场景结构，这些问题被以前的调查忽视了。

本文的其余部分组织如下。第二节，介绍了当前研究的问题分析。第二节A和第二节B介绍了常见数据集和解决这些研究问题的当前进展状态。随后，第三节介绍了有前景的新方向。最后，第四节总结了本文并讨论了未来的工作。

II. 正在进行的研究和常见数据集

为了调查问题，我们收集了2021年、2022年、2023年和2024年（直到本稿件的初稿提交为止）发表的代表性作品样本。从六大机器人和计算机视觉领域顶级会议和期刊中选取，这些会议和期刊是根据h5指数、影响因子和SCImage期刊排名（SJR）指标确定的。对于机器人领域，我们考虑在IEEE/RAS ICRA、IEEE T-RO 和 RA-L、IEEE/RSJ IROS、IEEE/ASME T-MECH和SAGE IJRR上发表的作品。对于计算机视觉领域，我们考虑在IEEE/CVF CVPR和ICCV、Springer ECCV、IEEE T-PAMI和T-IP以及Elsevier PR上发表的作品。

表I展示了各科学工作的动机问题，按频率排序。考虑到这些活跃研究问题的出版物总数为72篇，其中33篇发表在机器人领域，39篇在计算机视觉领域。单一作品可能涉及多个问题。下一节将介绍通常用于基准测试这些单次射击方法的6-D物体姿态估计的数据集。

在这里插入图片描述

A. 数据集

常用数据集对于以可复制的方式比较不同方法至关重要。因此，姿态估计方法的设计侧重于在这些数据集上最大化准确性。显然，如果数据集的复杂性无法反映机器人场景相关的实际世界复杂性，这将导致部署时的性能差异。因此，对这些数据集的讨论有助于识别主流方法问题景观中的不足，并允许提出改善数据集设计以提高实际世界中性能的重要挑战。不提供真实测试图像的数据集未包含在以下列表中，因为在这些数据集上测试的方法无法反映出在真实世界和因此在机器人应用中预期的性能。

我们首先介绍实例级数据集，这些是最常用的并被视为基准测试物体姿态估计方法的事实标准[83]、[84]、[85]、[86]、[87]、[88]、[89]。继之后，列出了类别级数据集。由于它们测试方法的泛化能力的可能性，这些对机器人学来说很有兴趣[90]、[91]、[92]、[93]、[94]。最后，我们讨论了包括抓取注释的数据集，用于基准测试在[95]、[96]和[97]中提出的物体姿态估计工作。

Linemod/Linemod-Occlusion [83], [84] (LM/LM-O)：总共提供了13个物体，每个物体约有1300张测试图像。LM因背景混乱而被认为具有挑战性，但几乎所有测试图像中的物体都完全可见。为了创造具有挑战性的遮挡模式，[84] 对LM的第二个测试序列重新进行了注释，引入了linemod-occlusion（LM-O）。LM-O为LM中的八个物体在严重遮挡下提供了注释。对于两者，都没有可用的真实世界训练图像，但已建立的标准是使用LM测试图像的15%用于训练[101]。
YCB-Video (YCB-V) [6]：总共有来自YCB [102]的21个物体在134k真实图像中被注释。在完整的集合中，113k图像用于训练，其余用于测试。挑战包括遮挡程度不同和照明条件多样。
TUD-L [85]：这个数据集是在2018年BOP的版本中提出的。在当前挑战的版本中，使用三个物体的11000张真实世界训练图像和每个物体的200张测试图像。挑战包括强烈的视点和照明变化。此外，与其他数据集不同，物体不是由桌面支撑，而只有小的物体大小的支撑。
IC-BIN [86]：这个数据集提供了八个物体在混乱和遮挡环境中的多物体测试图像。对于BOP，使用三个序列中的三个物体，共150张测试图像。测试集特征是在一堆中紧密堆叠的物体，导致严重遮挡。
Homebrewed-Database (HB) [87]：这个数据集包括33个家用和工业物体。没有官方的训练集可用。可用的13个序列中的每一个，340张图像用于验证。有三组各100张图像用作BOP测试集。这个数据集的挑战是对称性、遮挡和强烈的照明变化。
HOPE [98]：数据集包含28个玩具杂货物品在家庭场景中。用于测试的是50个不同场景中的238张图像。挑战包括每张图像中的多个物体实例、遮挡、强烈的照明变化和混乱。
T-LESS [88]：提供了30个高度对称、无纹理的物体，形状相似，有些物体是其他物体的部分；这些是在工业设置中可能找到的物体。对于数据集中的物体，提供了CAD模型、重建和1296张均匀分布视图的真实训练图像。挑战包括处理对称性、遮挡、无纹理物体和物体间的相似性。
ITODD [89]：这个数据集由28个金属工业物体和灰度图像组成。它也是BOP的一部分，但它是基准中唯一一个具有比漫反射表面更具挑战性的材料属性的数据集。测试集显示了严重的遮挡和对RGB和基于深度的方法具有挑战性的材料属性。
MP6D [99]：这个数据集提供了20100张真实图像，其中20个物体实例被注释。其中6k用于测试。这些完全镜面反射的工业物体被放置在多物体设置中。除了它们的反射性，挑战包括处理混乱、对称性和遮挡。
ClearPose [91]：数据集特点是63个透明物体，大多数显示对称性。提供了51个场景中的354481张真实图像，具有不同背景、变化的照明和带有遮挡的混乱。
NOCS [90]：提供了两个用于类别级物体姿态估计的数据集。Context-Aware MixEd ReAlity (CAMERA)包括300k张带有真实背景和渲染物体实例的图像，来自1085个物体，其中25k图像和184个物体实例用于验证。REAL提供了4300张训练图像、950张验证图像和2750张测试图像，用于训练的有六类中的三个物体，测试的也是三个。对于验证集，每个物体类别提供另一个实例。这些数据集的挑战是在多物体场景中进行类别级姿态估计，其中对称性和遮挡在混乱中。
PhoCal [93]：该数据集展示了60个镜面反射、不透明和透明物体，涵盖八个类别。场景为多物体场景并引入了遮挡。测试集还为每个类别提供了新的实例。
DREDS [92]：提供了119,580张丰富随机化的合成训练数据，其中19,380张用于测试。这些数据由七个类别的1,801个物体组成。另外提供了一个包含11,520张图像的合成测试集，涵盖60个新物体。在合成集中，物体材料随机化，从漫反射到镜面反射再到透明。真实数据集包含27,000张图像，涵盖七个类别的42个物体实例。此外，还提供了8个已知类别的新物体的11,000张图像。
KeyPose [94]：总共提供了五个类别的15个物体实例。测试集显示在不同背景上的孤立物体实例。挑战是检测和估计完全透明物体的姿态。
TransCG [96]：这个抓取数据集提供了57,715张图像，包含51个透明物体，其中12个用于测试。挑战是物体的透明性，与多样的不透明干扰物和变化的背景相互作用。每个物体上都附有不透明标签，并显示在图像中。因此，在使用该数据集训练网络时，需要评估这些标签对学习到的特征编码的影响。
HouseCat6D [95]：提供了41个场景中的194个物体实例的RGB、深度和偏振图像，用于姿态估计和抓取。对于姿态估计，有20,000张训练图像、3,000张测试图像和1,400张验证图像。这些结果在测试和验证集中产生了160,000个姿态，包括10个类别中未见过的物体实例。共有16个场景被标注了10,000,000个抓取点，用于机器人测试。已经建立了一个官方的评估抓取的数据集划分。测试和验证集呈现了属于已知类别的未见过物体实例的挑战，展示了强烈的反射、缺乏纹理和半透明特征。
GraspNet/SuctionNet-1billion [97],[100]：提供了97,000张RGB-D图像，分布在190个混乱场景中，每个场景有83个物体中的10个。数据集被划分为100个训练场景和90个测试场景。测试集分为30个已知实例的场景、30个已知类别的场景和30个完全新的物体的场景。这些数据集为所有物体提供了6-D姿态和抓取点。相关的挑战包括多物体学习，由于物体类别数量众多，以及估计新物体的姿态[103]。

B. 正在进行的研究问题

本节详细介绍了表I中列出的重要当前研究问题，并阐述了它们对机器人学的相关性。介绍了在解决各自问题方面有根本性贡献的工作，并评估了以识别剩余的开放研究问题。请注意，演讲的顺序不遵循各激励主题频率的顺序，以便通过对相关开放问题的分组提供更自然的推理。

1) 领域转换： 在训练和测试数据之间克服领域转换是机器学习中一个常在的主题。在应用机器人学中，这个问题更为相关，因为收集真实数据代价高昂（例如，由于机器人操作或人类示范），因此生成合成训练数据成为一个引人注目的选择。在机器人感知的挑战中，已经取得了实质性进展，尤其是在单目物体姿态估计方面。克服领域转换的各种策略取决于可用的数据和注释 [16], [17], [18], [20], [21], [22], [23], [104], [105]。在推理阶段，不确定性量化提高了在领域转换下的机器人任务执行效果[21]，在线自训练策略改善了机器人执行期间的姿态估计[22], [47]。[16], [104], 和 [106]的作者在目标域和源域之间对预测进行了对齐，无需在后者进行注释。在 [17], [24], 和 [105]中，作者提出了有效的合成到真实转移的解决方案，其中在目标域添加少量注释样本可以实现更有效的对齐。通过风格转移和少样本学习模仿目标域的外观和噪声模式，可以将合成数据的领域差距最小化[23],[24],[26]。除了这些策略，特别是领域随机化为克服机器人应用中神经网络的模拟到真实的差距提供了巨大的潜力[20], [107], [108], [109], [110]。通过假设除源域数据或注释外没有其他数据或注释，确保了在不同目标域的广泛适用性。特别是，使用基于物理的渲染（PBR）能够渲染物理上可行的材料反射和阴影，这已被证明对姿态估计很重要[110], [111]。

表III总结了姿态估计的平均召回率（AR）和物体检测的平均精度均值（mAP），比较了仅使用PBR数据进行训练的方法和使用包括真实数据的组合的方法。当在PBR和真实数据的组合上进行训练时，姿态估计性能的差异是否不显著，以及观察到的性能改进实际上是否仅因为使用了更多的训练数据而发生的问题仍然存在。对于TUD-L，由于每个物体可用的真实样本比T-LESS多超过八倍，性能增益更高。对于YCB-V，显示出更多的改进，这与每个物体类别使用的真实训练图像数量增加超过18倍有关。有趣的是，检测性能的提高与姿态估计的提高相似。姿态估计的改进与数据量的增加相关，也部分归因于更好的检测率。

在这里插入图片描述

表IV报告了BOP [4] 获胜方法GDRNet++与GDRNet [53]补充材料中报告的结果的比较。性能差异是通过使用更强的领域随机化，使用ConvNeXt [113]代替ResNet-34 [114]作为主干网络，两个掩膜头用于非可见和可见掩膜预测，以及优化训练过程的超参数来实现的。这表明，一些性能改进可能已经通过调整现有方法获得，无需提供复杂的解决方案来解决领域间的差距。

在这里插入图片描述

在VisDA-2021挑战赛[115]中观察到了类似的行为，该挑战赛提供了一个领域适应的基准测试。培训是在ImageNet1k [116]上进行的。提供了一个带注释的开发集和一个不带注释的测试集。开发集包括来自ImageNet-C [117]、ImageNet-R [118]和ObjectNet [119]的图像和注释，并引入了新的类别。对于测试集没有可用的注释，并且类别分布与开发集不同。在提交最终模型时，允许使用开发集进行超参数调整，但测试集只能用于领域适应。

表V报告了使用分类准确性（ACC）和接收器操作特征曲线下面积（AUROC）[120]的前三种方法的结果。ACC量化了类别预测中的真阳性率。AUROC量化了已知类和未知类之间的分离。表现最好的两种方法不使用领域适应策略。获胜方法通过使用ImageNet1k预训练变压器来实现其性能。第二好的方法使用EfficientNetB7 [121]结合广泛的数据增强和规范化。这些结果表明，调整超参数，如数据增强，在克服领域转换中起主导作用。

在这里插入图片描述
1: [Online]. Available：https://ai.bu.edu/visda-2021/assets/pdf/Burhan_Report.pdf
2: [Online]. Available: https://ai.bu.edu/visda-2021/assets/pdf/Chandramouli_Report.pdf

考虑到BOP和VisDA-2021挑战赛的排行榜，通过使用更深的模型、广泛的数据增强和训练期间进一步的规范化技术，领域转换似乎已经得到缓解。这些考虑仅适用于标准数据集，其中数据分布的变化例如，物体形状、支持平面、纹理和照明是有限的。
近期以应用驱动的作品考虑了显著更大的数据分布转移[58]、[59]、[60]、[61]、[63]。例如，与通常研究的工业和家庭环境不同，水下和空间应用的机器人感知[58]、[60]、[61]、[63]需要处理由于光学、感测原理和照明引起的完全不同的传感器噪声。由机器人驱动的这些环境的探索，这些领域将在未来自然地增加其相关性。同样，由于自动化和机器化日常任务的程度不断提高，医疗成像等应用特定的数据域将增加其相关性[59]。

2) 遮挡处理： 遮挡处理是物体姿态估计的一个重要挑战，在许多现实世界的机器人场景中都存在。密集的混乱、手或夹具操纵物体，甚至不恰当的观察点都可能导致感兴趣的物体的大部分被遮挡。表I显示遮挡处理是基于其作为当前研究动机的频率的主要挑战之一。图3展示了一般用途方法[16]、[39]、[101]、[123]、[124]、[125]、[126]与专为遮挡处理设计的方法[6]、[17]、[53]、[65]、[105]、[110]、[127]、[128]的性能比较。对LM [83]和LM-O [84]数据集的评估被展示出来。LM为数据集中的13个物体的每一个提供了没有遮挡的单独测试集，而在LM-O中，八个LM物体出现在强遮挡下。图3的左图显示了各种方法在LM-O [84]数据集上的表现，与发表年份相对应。一般用途方法和那些由遮挡激发的方法在多年中的改善程度相似。右图显示了LM-O和LM [83]上的表现相关性，对于一般用途方法和那些由遮挡处理激发的方法。这两种类型的方法展示了相似的性能比例。

在这里插入图片描述图 3.闭塞处理性能。专为闭塞处理（蓝色）和通用（红色）设计的方法比较。ADD/S 用作评估指标 [83]。

所展示的比较表明，一般姿态估计性能和遮挡处理之间存在相关性，因为处理遮挡较好的方法整体表现更佳。因此，遮挡处理不是一个需要改进的特定特性，而是一般姿态估计趋于集中的一个方面。进一步加强这一观察的指标是，最近提出的数据集（2017年之后）几乎专门包含有物体遮挡的图像（见表II）。唯一的例外是TUD-L，这个数据集专注于挑战性的照明变化，以及KeyPose，专注于透明性。

在这里插入图片描述

最近在处理遮挡方面取得的实质性进步应归因于不同的影响因素。在数据渲染方面的改进不仅减少了渲染域和真实域之间的领域差异，而且改善了遮挡处理。使用渲染训练数据的主要优势是，诸如遮挡模式、照明和观察点等方面的分布是任意多样的，因此减少了训练估计器的偏见[87]。遮挡处理的改进还归因于设计包括来自局部假设的概率[125]的方法、从多个姿态表征中推导姿态的策略[126]，以及对自我遮挡进行推理。然而，虽然存在系统分析姿态连续性[129]的影响和对称性处理策略[69]的作品，遮挡处理研究却缺乏相应的彻底性。缺少对特定遮挡模式和特定物体部分的可见性对姿态估计准确性的影响的详细系统调查。然而，这种调查是必需的，以设计表现出强大遮挡处理能力的方法，并提供可靠的不确定性估计。

3) 姿态表示： 许多机器人任务通过对他们需要导航或操纵的3D场景的显式几何信息得以简化。对于可分解为物体的场景，形状和姿态被用来表示这些信息。因此，参数化被分为估计欧几里得空间中三个平移和三个旋转自由度（DoF）的值的问题。参数化平移的3-DoF需要处理常用的裁剪级输入[109]的策略。由于物体对称性和从2D空间估计姿态产生的旋转空间歧义，估计旋转的3-DoF具有挑战性。深度学习姿态估计研究探索了欧拉角[130]、四元数[6]、[131]和连续的6D表示[129]。在图像空间中的物体与其对应的旋转值之间的无歧义映射对于有效解决物体姿态至关重要。将3-DoF物体旋转定义为物体空间中的相机，即以物心的旋转，可以减轻此类歧义[53]、[132]。最近的工作采用间接估计旋转的方法，使用模板匹配[50]、[133]、[134]。

早期的深度学习姿态估计工作发现，使用关键点作为回归目标而不是直接回归6D姿态时性能有所提升[6]、[127]、[135]、[136]。如今，这种几何对应关系是表示6D物体姿态的最常用的替代训练目标[5]、[17]、[31]、[36]、[37]、[39]、[66]、[128]。通过将估计的2D对应关系注册到相应的真实3D对应关系来推导6D姿态。这种2D-3D对应关系注册的算法要么是经典的，如透视n点（PnP）算法[137]，要么是学习的函数[53]、[54]、[128]、[138]。

最常用的替代训练目标是密集的uv坐标[5]、[17]、[31]、[36]、[37]、[66]、[101]、[109]、[110]或稀疏关键点[16]、[20]、[31]、[123]、[125]、[135]、[136]。对于稀疏关键点，通过将关键点分配到物体表面的几何相关位置并通过更复杂的关键点位置投票方案[31]、[125]、[135]来提出改进。关键点也有助于通过在不同领域间对齐关键点分布来引导领域适应[16]。Uv坐标被用作姿态估计的密集几何对应关系[101]、[109]。已经证明，它们更加多功能，例如，在对称性处理方面[5]。由于密集预测空间，遮挡处理得到改善[37]，物体对称性可以通过自监督的方式学习[5]、[66]。最近，Su等人[39]提出了对多层次顶点组分配的二进制模式进行逐像素回归，这一方法也得到了[42]的改进。这些层次化的密集几何对应关系导致与其它选择相比，遮挡处理得到改善。图4展示了上述几何对应关系类型的视觉示例。从多种表示中推导姿态的方法是改善机器人学鲁棒性的优秀候选者。这是因为它们克服了单个表示的缺点，并通过注册不同姿态表示所做的预测的一致性来量化不确定性[21]、[44]、[126]。

在这里插入图片描述图 4.几何对应关系。稀疏（左）、密集（中）和分层密集几何对应3（右）的示例。

目前提出的姿态表示允许改进遮挡和对称性处理、领域适应和一般姿态估计精度。我们推测，研究新的表示是一个可行的方向，可以显著提高现有和当前未解决任务的性能。未来的方向（见第三节）将提供改进的类别级姿态估计、具有挑战性的材料属性以及可变形和关节物体的解决方案。作为一种替代方案，不显式使用6D姿态或2D-3D对应关系作为回归目标的学习原则正在获得动力[18]、[26]、[81]、[105]、[139]。自监督具有改进手动设计的姿态表示的潜力，因为它允许学习不同物体和领域之间的语义对应关系[140]。最近已经表明，直接从几何对应关系中派生6D姿态，并以端到端可训练的方式进行，可以提高姿态估计精度，而不仅仅是回归几何对应关系并使用PnP推导姿态[138]。

4) 多物体和端到端训练： 处理多个不同的物体很重要，因为例如家庭助手任务的机器人场景包含具有多样性的大量物体。多物体姿态估计的概念与端到端的可训练性密切相关，但尚缺乏明确的区分。为了澄清，我们在这里分解这些概念。通过将它们与物体检测的相关概念相联系，突出了差异，从而揭示了潜在的挑战和改进姿态估计的方面。

目前物体检测的最新技术将算法分为单阶段[141]、[142]、[143]、[144]和多阶段[145]、[146]。这两种类型的区别取决于是否使用中间物体提议。单阶段物体检测器提取特征并直接预测属性，如物体类别和边界框。多阶段方法提取特征，创建一组物体提议，然后用于预测所需的属性。物体提议通常已包含类别、位置和尺度信息[146]。这两种类型的方法都是单一网络，可以同时处理 a) 多个物体类别，b) 多个实例，并且 c) 直接提供所需的物体属性，无需额外的单独训练或执行阶段。预测的物体属性是物体检测中的2D边界框坐标。

姿态估计研究中的这些概念处理方式不同。单阶段指的是在同一端到端可训练阶段中检测和估计姿态[74]、[128]、[138]。然而，这并不必然意味着可以处理同一物体的多个实例[138]。物体姿态估计研究中的端到端可训练性指的是直接估计6D姿态并将相应的姿态损失反向传播到学习特征或回归几何对应关系的层[37]、[53]、[128]。然而，这种端到端的可训练性与物体检测中的单阶段方法不是可互换的。这种方法是多阶段的，需要一个检测器来估计稀疏位置先验[37]、[53]。以下段落详细介绍了这两个概念，多物体和端到端可训练的姿态估计，并提出了相关的挑战。

多物体方法：与多物体学习相关的主要问题是需要处理训练数据中的不平衡，以减少网络偏差。这些偏差减少了训练数据中代表性不足的物体的估计精度，并且通常是每个物体的训练样本、不同物体的尺度和由于纹理、几何和材料属性等方面引起的每个物体的不同收敛行为。然而，多物体训练的优势是丰富的，并且对于机器人应用来说是一致重要的。最近的方法在运行时间、可扩展性、内存占用和通用适用性方面展示了优势[5]、[20]、[59]、[72]、[110]、[128]、[147]。尽管这些明显的优势，性能仍然落后于单一物体方法，后者训练每个物体的单独姿态估计器。

端到端可训练的方法：最近，通过将6D姿态作为下游学习任务额外监督学习取得了进展。这样，几何对应关系作为中间表示被回归，然后从中推断出6D姿态。以这种端到端的方式训练，比直接回归6D姿态或使用PnP及类似方法提高了性能[38]、[41]、[53]、[56]、[65]、[128]、[138]。

直接回归姿态还提供了更多监督的多样性[37]、[128]。通过使用估计的6D姿态对几何对应关系、关键点[128]或uv坐标以及自我遮挡图[37]进行重投影，训练过程中加入了额外的监督。端到端训练姿态估计器提供了一种手段，以强制与并行学习的任务的一致性。这样编码的表示更加通用，并且通过多任务学习得到改进[148]。

5) 精细化： 经典的多阶段基于深度的方法[83], [149], [150], [151], [152]使用迭代最近点算法（ICP）[153]来优化估计结果。同时，一些以单目方式估计姿态的方法[6], [101], [154], [155]也利用额外的深度信息进行基于ICP的精细化处理。因此，仅依赖于单目图像需要姿态优化的替代解决方案。一些早期的基于学习的方法使用基于轮廓[131], [154]或基于关键点的精细化[136]。一个被广泛采用和修改的开创性工作是在[156]中提出的。一个输入的图像对，包括观察到的图像和渲染的估计结果，通过网络处理以预测它们的相对变换。许多最近的工作基于这种迭代优化方法[17], [40], [55], [65], [66], [67], [110], [155]。最近的一些工作提出用并行假设评分和模板匹配来取代迭代优化[17], [76]。然而，这些方法仍然从使用额外的迭代优化阶段中受益[4]。这些方法的一个共同点是它们的渲染和比较性质，这导致了对（有纹理的）3D物体模型的依赖，这对于如新物体等情况来说不易解决。此外，这些方法需要能够以合理的真实感渲染目标物体。然而，对于高度反光或折射物体中的复杂材料，渲染可能需要极高的计算资源。而且，这通常依赖于现有模型中不易获得的材料属性，并且对于新物体来说很难获取。

这是一个特别限制性的问题，尤其是最近在姿态估计方面逐渐转向具有更具挑战性的材料属性的物体，例如金属和透明材料[93], [94]。为了足够精确地合成模板以匹配观测结果，必须推断出环境属性，例如光照和光线方向以及场景背景。

通常，随着单次姿态估计的快速进步，是否需要姿态精细化成为一个问题，并且诸如物体抓取这样的应用场景可以容忍一定的姿态不准确性。同样，机器人抓手通常被设计成能够容忍抓取姿态的不准确性，因此即使估计的姿态在视觉上有显著偏差，它们也经常能够成功执行任务。然而，由于诸如基于可行性抓取的机器人场景需要更高的精度，我们推测在不久的将来，姿态精细化仍将具有重要意义。

6) 对称性处理： 对于传统的基于模板的方法来说，处理物体对称性相对容易。模板围绕物体模型在一个观察球体中被渲染。视图被编码成描述符以创建训练样本的查找表[83]、[149]、[151]、[152]。这种模板匹配方法不需要学习表示或回归姿态。因此，与含糊视图匹配的模板，但姿态不正确，可以通过常见的度量来处理[83]、[136]、[157]。然而，纳入关于对称性的信息仍然有助于减少内存占用和运行时间[158]。

与此相反，深度学习方法对训练数据进行编码表示。基于监督学习的方法是最常见的，它们在训练期间需要6D姿态表示来进行反向传播。这些表示通常对视觉物体的歧义性不是不变的。因此，当训练时没有考虑这种视觉歧义时，深度学习方法会遭受姿态估计精度的降低[6]、[108]、[136]。

解决这个问题的常见策略包括限制训练期间看到的视图范围[136]，使用考虑含糊视图的损失函数[6]、[101]、[128]，以及设计网络结构以提供多个假设以供消歧[159]、[160]。为了使这些方法有效，通常需要预先知道对称性，这限制了它们的适用性和普遍性。此外，手动分配对称性也是错误的潜在来源，而且标准的几何对应关系公式往往不够[69]。当使用uv坐标作为回归目标时，存在用于解决训练期间物体对称性的复杂解决方案。图5展示了[5]中的方法，通过预测含糊的表面区域学习对称性，以及[66]编码对对称性不变的几何表示。更近期的方法还估计输出空间中的歧义[71]。

在这里插入图片描述图 5.对称处理。表面片段分类4 [5]（左），表面对应嵌入[66]（右）。

一个未解决的问题是为基于关键点的方法找到这样的解决方案，与基于uv坐标的方法相比，其稀疏性在运行时间和可扩展性方面有益。机器人应用可能还会从找到语义上重要的物体位置中受益，这些位置使得直接估计抓取点和使用基于关键点的方法进行基于可行性的抓取成为可能[161]。总体而言，存在用于处理对称物体的多种策略，现代方法在面对它们时经历的姿态估计精度下降很小。

7) 类别级训练： 实例级方法旨在检索已知物体实例的姿态。相比之下，类别级姿态估计旨在泛化到同一类别的未知物体实例[27]、[68]、[73]、[74]、[75]、[162]、[163]、[164]、[165]、[166]、[167]。常见的原则是编码规范或类别特定特征[68]、[73]、[74]、[163]以及渲染和比较[27]。在[163]中，使用类别特定特征根据姿态重建物体视图。在推理过程中，网络被迭代优化以确定姿态和形状。另外，[75]的作者通过将预测的深度与物体坐标对齐来检索物体姿态。同样地，在[74]中，作者通过将预测的物体深度和从提取的形状先验中的坐标对齐来估计6D姿态。在[68]中，将潜在表示与码本编码进行比较以检索物体姿态。[27]的作者使用一种对比学习框架，从中生成物体提议并与渲染的模板进行比较，以检索6D姿态。

表VI根据输入图像模式在CAMERA25和REAL275[90]上比较了不同方法。我们建议读者将此视为定性比较。首先，所展示的方法并未使用完全相同的训练和测试数据。其次，一些结果可能存在错误，正如[168]所指出的，他们在修正了错误的3D50度量计算后报告了更新的NOCS结果。尽管如此，所呈现的比较显示，与仅RGB方法相比，具有RGBD输入的方法的姿态和关键点估计精度显著提高。此比较的目的是突出单目方法观察到的巨大性能差距的开放性挑战，这似乎正在扩大，因为仅RGB研究在2023年到2024年间停滞不前。

在这里插入图片描述

从更广泛的视角检查类别级姿态估计，需要填补一些空白，以充分利用其在非结构化开放世界场景中的潜力，在这些场景中，使用实例级姿态估计器处理所有物体是不切实际的。用于设计和测试方法的标准数据集的类别内变异性很小。图6显示了DREDS的已知类别的个别实例和NOCS的类别相机。DREDS和NOCS的类别非常相似并且有显著的重叠。NOCS的四个类别：瓶子、碗、相机、罐子、笔记本和马克杯，也出现在DREDS中。这两个数据集在类别内变异小，但类别间变异大。

在这里插入图片描述图 6. 物体类别变化。图中显示的是 NOCS 的相机类别实例和 DREDS 的 42 个对象，类别沿行排列。

需要回答的重要问题是：需要哪种实例变异来有效地外推到一个类别的未知实例？如何处理位于两个相似类别交叉点的物体？在这种情况下应该检索哪个姿态？以及如何在现实世界中规避这些情况？为了回答这些问题，需要制定将物体实例分组到类别中的正式规则。因此，未来的工作必须研究类别级姿态估计的分类法。解决这个问题可能需要基于可以学习的实例相关特征的算法来建立这种分类法，因此类别聚类本身。理想情况下，这些也定义了物体起源，以避免算法在两个明显起源不同的类别之间插值估计的姿态。

类别级方法的一个有趣方面是，与实例级方法相比，它们在已知类别中泛化到已知物体之外，但仍然显示出快速的推理。如果快速推理不是必需的，替代方案是新物体姿态估计方法。

8) 新物体： 实例级和类别级方法无法泛化到未知的物体类别。新物体姿态估计旨在解决这一任务，而且通过单目图像进行这一任务是一个新兴的话题[18]、[46]、[47]、[51]、[139]、[156]、[170]、[171]、[172]。常见策略包括使用支持视图[45]、[173]，基于渲染的模板匹配[18]、[46]，以及基础模型[51]、[139]、[171]。

使用支持视图检索物体姿态的方法需要围绕物体的标记视图[45]、[170]。这些方法假设可用的真实视图比使用渲染模板的方法少。最近，[173]放宽了这些假设，只需要一个未标注的单一图像来检索相对姿态。尽管一般性和只需一个支持视图的要求使得应用变得简单，但其姿态估计精度仍落后于基于渲染模板的方法，如[18]、[46]和[139]。这些方法将查询图像与物体的均匀采样视图匹配，以检索查询的姿态。这是通过计算使用微调CNN提取的特征的相互相似性来完成的。另一种方法是使用如视觉变换器（ViTs）[174]这样的基础模型，它在ImageNet1k [171]上以自监督方式进行预训练[139]、[171]、[173]。使用预训练的ViTs有望泛化到任意物体，并绕过微调的需求。

新物体姿态估计对于遇到大量物体的辅助机器人来说具有巨大的潜力，这些机器人在部署过程中会遇到这些物体。使用这些方法，估计这些在训练期间未知的物体的姿态不需要重新训练姿态估计器[134]。深度模板匹配用于新物体姿态估计的挑战也被认为是BOP挑战下一版的一个重要任务。使用RGB进行精确度和效率（即物体属性，目前仅限于不透明物体）以及运行时间（取决于与查询比较的模板数量）方面仍有很大的改进空间。因此，预计未来的研究将通过探索替代方式来解决这些问题，以检索新物体的姿态，而不需要渲染模板。此外，考虑到当前解决方案及其对使用的物体的限制，将新物体姿态估计与机器人学（尤其是移动机器人学）联系起来将是具有挑战性和重要性的。考虑到非结构化开放世界场景，新物体姿态估计器需要处理强烈的光照变化、不同的摄像头、用于创建模板的可用物体模型与查询物体之间的差异以及不同的具有挑战性的材料属性，如光泽和透明性。特别是，处理具有挑战性的物体材料的问题，即使对于单目实例级姿态估计来说也基本上尚未解决。必须取得实质性进展，将高姿态估计精度从不透明物体转移到具有挑战性材料属性的新物体上。

9) 具有挑战性的材料属性： 大多数最先进的研究主要集中在物体表面材料属性的有限范围上。考虑到BOP，七个核心数据集中的六个都包含完全不透明和漫反射的物体[6]、[84]、[85]、[86]、[87]、[88]、[89]。其中四个数据集主要包含无纹理物体[84]、[87]、[88]、[89]。这七个数据集中只有一个包括金属的镜面物体表面[89]。

金属表面由于其镜面反射性，导致外观的高变异性，这取决于入射光和摄像机位置，如图7左侧的图像所示。特别是对于工业应用，处理金属物体非常重要。然而，与漫反射物体相比，处理它们的解决方案相对较少[76]、[89]。[89]的作者提出了一个金属物体数据集，并使用经典方法在灰度图像上解决了姿态估计问题。在[76]中，使用了一个非公开的数据集，从RGB中估计杂乱环境中的镜面反射物体的姿态。他们将查询图像与模板匹配，使用几何边缘表示作为输入。虽然这种方法为金属物体的姿态估计和抓取提供了一个可行的解决方案，但目前缺少对使用边缘表示而非RGB图像作为输入时预期的精确度改进进行经验分析。这可能有助于识别RGB输入导致姿态估计精度下降的具体场景属性和情况。拥有这些信息一方面有助于加强算法抵抗由于物体的镜面反射性而产生的图像伪像，另一方面，它将有助于设计特征这一具体挑战的基准测试数据集，使之偏离现实情景更少。

在这里插入图片描述图 7. 具有挑战性的物体材料。左栏将排水过滤器的图像与其 CAD 模型进行了比较。由于材料的镜面反射性，很难从捕捉到的图像中获取物体的几何形状。右栏是透明物体与不透明物体的对比。根据视角和填充物的不同，透明物体的外观差异很大。

更具挑战性的是透明物体表面。而不是显示物体本身的纹理，RGB观测可能只显示背景的折射视图，这取决于透明物体，如图7右侧的图像所示。此外，许多透明物体也具有镜面反射性。特别是对于机器人来说，透明物体非常重要，因为它们在人造环境中很常见，例如玻璃器皿或食品容器。处理这些物体在计算机视觉中获得了相当大的动力[91]、[94]、[175]、[176]、[177]。检索物体姿态的方法依赖于重建深度数据或多视图注册[91]、[94]、[177]。与[76]的方法类似，该方法显示了输入边缘图像对于金属物体姿态估计的有用性，已经显示这种边缘表示也改善了透明物体的姿态估计[77]。最近的研究表明，另一种方法是，广泛的随机合成数据帮助算法编码有意义的透明物体姿态估计的视觉线索[178]。对于未来工作，建议彻底调查RGB和深度数据对透明性处理的优势和劣势，这在考虑机器人视觉系统的需求时将是至关重要的。找到处理具有挑战性的材料属性的可行解决方案需要跨越计算机视觉（关注分析）和计算机图形学（关注合成）的桥梁。这些交叉点的方法不仅旨在分析数据，还旨在编码用于合成这些数据的基于物理的功能[176]。这需要在该交叉点上采用多样化的学习原则和算法设计，如神经辐射场和高斯溅射[179]、[180]、[181]、[182]。

10) 超越监督学习： 由于从2D输入推导6D姿态的复杂性，物体姿态估计传统上被视为一项监督学习任务。然而，替代训练原则揭示了许多优势，这些优势也已被应用于姿态估计。

自监督学习在目标域中有无标注数据时提高了姿态估计的准确性[19]、[26]、[47]、[105]。[19]和[105]的作者利用有限数量的无标注真实图像和可微渲染技术显示了性能的提升。[47]的方法通过在线自监督学习方案使新物体的姿态精度得到改进。使用目标域中的物体图像和粗略姿态，陈等人[26]在改善姿态估计的同时，提高了物体网格的纹理质量。

对比学习不仅在RGB中对新物体姿态估计显示出巨大潜力[18]、[46]、[134]，也适用于从大型网络到小型网络的知识蒸馏[81]。这类学习方案与ViTs结合使用尤其有趣，因为它们是通用的特征提取器，能够在无需微调的情况下提供稳定的图像到图像的对应关系[139]、[171]、[183]。在姿态精细化方面，强化学习（RL）方法允许通过利用分割掩码作为姿态标注的代理，减少数据标注的工作[184]，或者通过定义一个专家策略，在训练期间随着代理探索姿态空间而标注新样本[185]。此外，在RL框架中，利用精细化序列的重放缓冲区进行训练允许使用大量的精细化步骤。虽然端到端监督精细化[186]需要保留所有步骤的信息以便反向传播，因此受内存限制，但在RL中通过计算回报来强制时间一致性。这允许在重放缓冲区中使用更小的批量进行训练。RL的另一个好处是，任何不可微的额外学习目标都可以纳入奖励中[187]。为了提高基于RL方法的收敛速度，它们通常与模仿学习以行为克隆的形式相结合[184]、[185]、[187]。使用RL进行机器人行动建模还使得在杂乱场景中简化物体姿态估计成为可能，使物体单独化[188]、[189]。

研究非监督学习原则鼓励探索替代研究途径，例如解决领域适应、少样本学习、克服标注需求和知识蒸馏等问题。自监督学习与ViTs[183]的成功，尤其是它们的特征编码，也表明可能的性能改进。

11) 不确定性估计： 在计算机视觉的几乎所有任务中，估计不确定性的分数是必不可少的，从检测分数[144]、描述符相似性[108]到内点评级[137]、[190]。姿态估计方法通常通过提供许多按信心分数排名的假设而受益。一方面，评估指标主要对准确性敏感[157]，另一方面，机器人场景受益于剪枝假设，以便检索最高信心的假设。不确定性估计允许选择用于下游任务的最佳物体姿态。例如，当所有姿态假设都不确定时，机器人改变视点可能比尝试可能不成功的操作更好。不确定性的概念也可以用来解释人机交互（HRI）场景中的机器人行为。最后，当任务允许时，我们可能选择在最有前景的假设上花费额外的计算时间进行细化。理想情况下，信心是从描述实际概率的假设分布中检索的。

不确定性以不同的方式用于提高姿态估计的准确性。在[125]中，提出了一个修改过的PnP，以纳入预测的关键点位置的2-D分布。[159]的作者通过分析姿态假设分布来识别物体的歧义轴。在[191]中，通过从连续帧中派生旋转估计不确定性来识别物体歧义。[123]和[128]的作者旨在为假设派生信心，以检索在准确性高的假设上平均的姿态。通过量化姿态估计器合奏中的不一致，在[21]中实现了不确定性估计。[192]的作者学会以无监督的方式预测关键点的信心。在[71]中，利用物体歧义来推导关键点选择的不确定性。最近，杨和帕沃尼[80]提出了一个框架，从关键点热图中估计不确定性，这与从地面真实关键点位置的估计偏差相关。

12) 单目物体姿态估计的应用： 许多最近的工作探索了超出标准数据集场景的物体姿态估计，这些数据集展示了手掌大小的物体，距离有限，并且在光照变化方面的变化有限[58]、[59]、[60]、[61]、[62]、[63]、[64]。卫星在轨道上的姿态估计正变得越来越重要，这与欧洲航天局（ESA）为机器人太空碎片清除而进行的努力是一致的。由于太空中的挑战性场景，RGB是首选模态，挑战是大的深度和极端的照明范围[25]、[58]、[63]、[193]、[194]、[195]、[196]、[197]。与太空并行，基于学习的姿态估计研究也开始探索水下的机器人应用[60]、[61]、[198]、[199]。由于深度估计需要特定的工作原理或修改的深度传感器系统[200]，RGB对于不受约束的水下姿态估计具有优势[60]、[61]。此外，特定物体类型及其与环境的配置估计要求为机器人应用开发姿态估计解决方案[62]、[64]。总之，虽然常规数据集（见第II-A节）的性能似乎已饱和，但机器人应用正在扩展到超出封闭世界假设的特定场景。因此，机器人学需要特定的解决方案，这将从信息丰富且研究充分的RGB模态和基础模型中受益[12]。

III. 未来挑战

前一节介绍了当前流行的研究主题。接下来，我们将基于这个概述来识别现有问题景观中的空白。通过积累这些未解决的问题，我们能够推导出需要解决的高层次挑战，以有效推动机器人学的发展。

A. 物体本体

一个几乎未被触及且完全未解决的话题是如何估计那些不属于已知类别的物体的姿态，这些物体没有如CAD模型或训练图像等先前信息。新颖和类别级别的姿态估计假设有关物体起源的先前信息，这些信息用于预测。再次回到开放世界场景，将姿态推广到分布外的物体带来了许多问题。如果没有先前信息，如何将真正未知的物体的姿态纳入视觉管道中呢？类别级别方法在已知类别的训练样本之间进行插值。如果未知的物体位于两个类别的交界处会怎样呢？考虑图8左侧的图像，杯子的形状类似于DREDS类别的碗的实例，但有一个杯柄，就像类别杯中的实例一样，见图6。虽然碗由于缺乏消除歧义的线索而被视为旋转对称，但杯子却不是对称的。如何处理这种场景并避免在两个或可能更多的物体起源类别之间插值？另一个相关问题是那些是其他物体的一部分的物体。这个例子在图8右侧的图像中可见。TLESS的对象6是对象7的一部分。如果物体的本体未知，这种情况难以解决。

在这里插入图片描述图 8. 物体模糊性。左图是一个杯子，与图 6 中 DREDS 的杯子和碗类别相似。右图显示了一个物体是另一个物体的一部分的例子。

大型语言模型（LLM）和视觉语言模型（VLM）编码了潜在的物体本体，从而使其能够推广到已知甚至未知类别的新实例[13]、[201]、[202]。使用正式本体来验证LLM的推理可能增强学习本体的稳健性和可信度，确保遵守工业和机器人标准[203]。

B. 可变形和关节物体

大多数用于单目姿态估计的常见方法和数据集都是基于物体刚性的假设，即形状保持固定，只有位置和方向发生变化。然而，可变形和关节物体的姿态估计呈现出由于它们形状的可变性而带来的重大挑战。关节物体可以被视为通过关节相连的各个物体部分，因此，与刚性物体相比，只引入有限数量的额外自由度[204]。[205]中的方法假设有一个有限的关节集，并使用NOCS[90]在每个部分上预测局部几何对应关系。虽然这为仅有几个自由度的非刚性物体提供了一种直观的解决方案，但将这些策略转移到由于其形状的无限自由度而显得不可行的可变形物体上。物体通常会被分解成子实体，最终退化为对其表面或体积的密集预测。因此，处理可变形物体的方法通常是特定于任务的，可能涉及机器人操纵以增量学习物体形态[206]，[207]。然而，处理这些类型的物体特别有趣，因为它们在日常生活中很常见，例如包和纺织品，因此对于机器人学很重要。

处理小规模变形的物体可以通过估计局部对应关系来处理[140]，[171]。这些方法允许通过估计局部邻域的密集几何对应关系，将此类物体纳入现有的姿态估计框架。另一种方法是，考虑到基于机器人的纺织品处理方法，推理物体的可变形可能需要解决如学习语义上有意义的部分[208]等任务。

除了从静止形态学习密集位移外，对于可变形物体的“姿态”和起源没有明确的共同定义。因此，相关工作使用不同的度量标准进行评估，这使得比较变得复杂。通过代理任务进行评估（例如抓取）有效地展示了该任务的效果，但需要度量标准和正式定义以进行一般性定量评估、可重复性和可比性。

处理任意物体需要算法从全局、拓扑和局部、几何两个角度理解物体。描述物体在变形下物理配置变化的因素需要被编码，以便有效地推广到分布外的物体。

C. 场景级一致性

将几何反馈循环纳入姿态估计可通过多个物体的联合姿态精细化[130]，[155]，[209]和物理合理性验证[210]来提高性能。通过同时考虑场景中的多个物体，它们的相互遮挡和支持关系可以限制允许姿态的空间，从而简化姿态估计任务。

由于在深度图像中相机与物体的距离可以直接观察到，因此可以更准确地预测[186]，最近的方法探索了从单目输入估计深度和占用率[36]，[40]，[56]。虽然深度传感器产生的观测结果对透明和反射物体是嘈杂或不完整的，基于RGB的方法能够重建完整的深度观察[91]。发现深度数据具有良好的泛化能力，并且比RGB方法需要更少的数据[187]。然而，这是以无法辨别几何上模糊但在纹理上有区别的对称性为代价的。因此，从RGB输入开始（可选择深度估计）预计能覆盖比单独使用深度传感器更具挑战性的情况。与深度估计不同，第II-B4节中详细介绍的端到端训练类似地为学习过程提供了几何指导。同时回归多个姿态表示可以加强它们之间的一致性[37]，[128]。

一个未来工作的有希望的方向是考虑估计的场景配置与例如其模拟、重建或渲染的一致性。后者可能还需要包括像表面材料这样的因素，这对于反光和折射物体尤其相关，因为它们的外观依赖于更广泛的场景。我们推测，逆渲染或像NeRF[179]这样的方法将推进这种情况下的姿态估计。

D. 基准现实性

现有的数据集与现实世界相比在复杂性和挑战性方面仍处于早期阶段。有许多方面为了便于数据集的创建和注释而被简化了。这些方面包括场景设置、物体变化、物体间的交互以及变化的材料属性。以下是现有数据集未能反映现实世界复杂性的例子：

杂乱：丰富的多物体、多实例场景是必需的，以彻底评估和改善遮挡处理，从而提升一般性能。然而，现有数据集只包括手工制作的场景。因此，感兴趣的物体通常放置在场景（和相机视角）的中央，遮挡干扰物的多样性及其放置是有限的。这与真实场景存在很大的差距。例如在厨房场景中，遮挡物是不受限制的，可以是随机的如蔬菜残渣。相同物体的多个实例明显以不同状态出现，经常相互作用，它们的姿态只受场景几何限制，物体甚至可能出现在像冰箱架这样的折射遮挡物后面。
背景：相关数据集大多只包含在单一支撑平面上排列的物体，背景纹理和非数据集干扰物的种类有限（见图2）。只有少数数据集假设更复杂的场景背景[98]，[211]。然而，通常缺乏将物体多方位放置于世界水平和垂直位置的数据集，并且显著变化的场景背景也不存在。
物体变化：正如第II-B9节和第III-B节所述，主流方法处理物体属性变化的能力非常有限。这是标准数据集通常只包含一种材料类型（例如，有纹理的、金属的和折射的），以及大小和刚性相似的物体的后果。相比之下，一个现实的数据集需要包含多样化的物体本体。物体需要1)在实例和类别级别上进行注释，并在测试时引入未在训练中可用的新物体和类别。2)物体大小需要从小到大变化，形状从简单到复杂变化。3)视觉材料需要包括不透明和透明、漫反射和反射以及有纹理和无纹理的变化。这些维度理想地用易于处理的指标量化，以便创建全面的测试场景并量化姿态估计准确性。

图9展示了一个真实的家庭场景，有不同大小和材料的多种物体，一些物体还在玻璃后面，作为多个实例存在。物体分布在整个图像空间，许多物体比大多数标准数据集假定的距离相机更远，图像并未以支持平面为中心。为了改进数据集创建，需要发生一种范式转变。首先，数据集创建和注释过程本身需要改进。标准流程是选择一组物体，然后故意将它们放置在背景中，这样可以进行姿态注释，或者简化注释，例如在[83]、[86]、[87]、[88]、[90]、[94]、[96]和[99]中所做的使用标记板。相反，家庭机器人的测试场景应该是自然发展的，感兴趣的物体理想地应从恰好在场的物体集中选出。这样，不仅物体排列更自然，遮挡模式也更自然，最终，以这种方式创建的数据集更准确地描述了现实世界的复杂性和物体变化。为此，最近的注释工具允许在给定足够精确的摄像机姿态的情况下[212]，在连续帧上传播姿态，这样姿态注释错误的下限就受到摄像机姿态精度的限制。然而，严重遮挡的物体实例将很难注释。在注释期间需要对物体及场景进行几何推理，以缓解此类问题。

在这里插入图片描述图 9. 真实的家庭场景，具有多种挑战性条件，包括刚性和可变形物体、透明和不透明物体（其中一些在玻璃后面）、物体大小和相对于摄像机的位置的巨大变化，以及视图不是以单一支撑平面为中心。

E. 环境影响

物体姿态估计的研究和应用消耗了大量的能源。特别是在当前关注可持续研究和环境影响的背景下，解决这个问题是未来研究的义务。

使用实例级别的姿态估计器仍然是机器人场景的标准情况。这要求每次使用新的物体或物体组时都重新训练它们。例如，GDR-Net[53]的姿态估计器平均需要在NVIDIA RTX 3090（TDP为350W）上训练约6小时，以最大化其对BOP挑战中单个物体的性能。这需要连续使用GPU超过八天，为HB的33个物体，或者仅GPU约69千瓦时的电能（假设满负荷使用）——这是2021年平均美国消费者2.1天或全球平均消费者7.9天所使用的电量。

类别级物体姿态估计可能具有较低的环境影响，因为经过训练的模型可以泛化到同一类别的物体，因此可以在更多应用场景中使用，但通常仍然需要为每个类别单独训练模型。这两种类型的方法都展示了快速的推理能力，通常在几秒钟内，但对于可以推断姿态的物体非常有限。新物体姿态估计器有可能减轻长时间训练的需求[171]，[173]，尽管大多数方法的范围仍在数小时至数天[46]，[134]，[139]。运行时间通常在几分钟范围内，因为模板匹配需要计算与数千个模板的相似性。因此，新物体姿态估计尚未达到大幅改善功耗的状态。

探索模板匹配的替代方法可能会减少新物体姿态估计的运行时间。例如，从少量或单个参考图像进行推理的方法是一种潜在的解决方案，尽管目前仍然缺乏准确性。另一种选择是使用ViTs等基础模型，这些模型预先在大型数据集上训练，已经显示出它们能够很好地转移到姿态估计上[139]，[171]，[173]。全面探索这些不需要针对新物体或变化测试领域重新训练的方法，有潜力减少研究和机器人应用的功耗，因为虽然预训练阶段的功率较大，但这种消耗在所有最终应用中是共享的。总的来说，不需要训练并且展示快速推理能力的方法对于轻松且资源高效地应用于多样化场景非常重要。

F. 通用物体操控

在工业或家庭环境中的许多机器人任务，例如，可视为各种重排活动的不同实例[213]，这些活动通常可以通过抓取和放置动作来解决，因此与抓取行为密切相关。虽然通常通过物体的几何形状，即通过抓取或物体姿态估计来处理抓取，但还存在诸如通用抓取[14]、[100]、[214]、[215]、通用机器人政策学习[13]、[216]以及基础模型[12]、[15]等多种研究方向。通用物体抓取是基于姿态的抓取的有效替代方法，甚至有其优势。大多数关于可抓取性和抓取位置的方法都能极好地泛化到不同物体类型[14]、[100]、[214]、[215]。这些方法展示了对完全新的几何形状的抓取泛化，而不需要在推理时使用先验信息，这是物体姿态估计的一个主要缺点。然而，基于姿态的物体抓取使复杂的拾取和放置应用成为可能，因为可以推断出目标位置的变换。一系列方法正解决这些情况，包括通用机器人政策[13]、[216]。它们利用VLM的联合嵌入来执行物体操作，而不需要显式的姿态知识。最近的工作表明，可以执行复杂的操作任务，如物体堆叠和相对于其他物体排列物体。特别是对机器人学领域来说，处理多种输入模态的能力非常有意义，例如将视觉与语言指令或声音相结合，并控制不同的机器人实体和运动结构，如具有不同关节数的机器人手臂和抓手。通过基础模型如[217]的兴起，使得这些进展成为可能。对于视觉[218]、[219]已显示出允许零次执行视觉和机器人任务的能力[12]、[15]、[220]。结合视觉图像描述[221]和NeRF或高斯喷涂，使得可以将语言编码进重建中，从而允许具有一定泛化能力的物体姿态查询[222]。

对于需要高精度的场景理解和复杂操作任务，机器人的物体姿态估计仍然有用。然而，趋势显示，物体定位，从而操作，已在某种程度上在编码空间中进行[13]、[216]。这是朝着类似人类的感知迈出的重要一步，它不需要显式的物体姿态就能实现物体的操作。

IV. 结论

这篇论文识别并展示了单目单拍6D物体姿态估计的当前研究问题，并导出了重要的未来挑战。揭示了旨在提高基准数据集性能的物体姿态估计研究与机器人需求之间的差异。因此，我们提出了将这两个领域更紧密结合起来的重要未来研究挑战。基准数据集需要展示更多的现实性，以加速机器人领域的计算机视觉研究。拥有多样化的已知和未知物体、已知和未知类别的数据集，允许在基本层面上寻找描述物体的本体论。丰富的多物体场景、不同的挑战性表面材料和形变要求提高现有技术以处理这些属性，并使机器人能够在家庭中有效实施。将姿态估计提升到场景级一致的配置，将为机器人下游任务提供可靠的先验。特别是可变形和可动物体需要新的指标来衡量基准测试进展。最后，气候变化和可持续研究要求减少算法的生态足迹。