3D 视觉语言推理中的态势感知

大家读完觉得有帮助记得关注和点赞！！！

概要

能够在 3D 空间中执行复杂的视觉语言推理任务是开发家用机器人和以人为本的具身 AI 的一个重要里程碑。在这项工作中，我们证明了 3D 视觉语言推理中一个关键而独特的挑战是态势感知，它包含两个关键组成部分：（1）自主代理根据语言提示进行自我定位。（2）代理从其计算位置的角度回答开放式问题。为了应对这一挑战，我们引入了 SIG3D，这是一种用于 3D 视觉语言推理的端到端 Situation-Grounded 模型。我们将 3D 场景标记化为稀疏体素表示，并提出一个基于语言的情境估计器，然后是一个定位问答模块。在 SQA3D 和 ScanQA 数据集上的实验表明，SIG3D 在态势估计和问答方面的表现大大优于最先进的模型（例如，态势估计精度提高了 30% 以上）。随后的分析证实了我们的建筑设计选择，探索了视觉和文本标记的不同功能，并强调了态势感知在 3D 问答领域的重要性。项目页面位于 https://yunzeman.github.io/situation3d。

1介绍

人类通过与 3D 世界的交互和多模态信息（例如口头指导或指示）的集成来有效地学习知识。同样，在视觉理解任务中引入语言引导，可以大大提高模型的学习效率[3,42].尽管如此，尽管语言理解取得了长足的进步[31,7,58,11]和视觉语言整合[3,37,54,61]，目前的方法仍然缺乏在真实世界 3D 环境中准确感知和合理化，这在很大程度上归因于缺乏 3D 情境推理能力。

Refer to caption

图 1：以前的方法执行直接的 3D 视觉语言推理，而无需在 3D 环境中对具体代理的情况进行建模。我们的方法 SIG3D 将情境描述置于 3D 空间中，然后在视觉-语言融合之前从代理的预期角度对视觉标记进行重新编码，从而产生更全面和广义的 3D 视觉语言（VL）表示和推理框架。Q、K、V 分别代表 query、key 和 value。

与机器学习模型相比，人类将自己置于 3D 世界中，然后从自我的角度感知周围环境并与之互动（图 1）。这种态势感知是 2D 和 3D 视觉理解之间的关键区别，也是在更复杂的现实世界环境中实现对空间概念的无缝理解的关键。一些现有的方法认识到 3D 中缺乏位置理解，并提出了新的基准和联合优化函数[44]或位置嵌入方法[25]以增强整体推理性能。

然而，缺乏明确的情境建模和基于情境的 3D 推理方法限制了他们获得可推广且一致的 3D 视觉语言（VL）表示。如图 2 所示，最先进方法的情况预测[44]（蓝色）在数据集中几乎所有场景中都与地面实况向量（红色）存在显著差异[13].此外，我们在第 3 节中的试点研究还表明，尽管情境理解在理解问题上下文方面非常重要，但在现有方法的最终问答（QA）性能中只起很小的作用。

Refer to caption

图 2：现有方法中的情况估计[44]在大多数情况下失败，指示情境描述和 3D 嵌入之间缺少对准。红色：真值（GT）向量。蓝色：估计向量。

在这项工作中，我们提出了 SIG3D，这是一种新颖的方法，旨在从文本描述中精确建模和估计具身代理的自我位置和方向，然后从代理以自我为中心的角度执行多模态 QA 任务，如图 1 所示。具体来说，我们利用大规模的预训练语言和视觉编码器来处理输入文本和 3D 数据，并将标记与注意力模块融合以预测情境向量。以前直接预测自我状况的尝试受到 3D 环境中固有的广阔搜索空间的阻碍。为了应对这一挑战，我们将任务重新概念化为基于锚点的分类，其中视觉标记被视为锚点，并且每个视觉标记的位置可能性和一组旋转参数同时回归。在获得情境估计后，我们提出了一个情境对齐和一个情境引导的标记重新编码策略，从智能体的预期角度感知环境。这些策略增强了视觉标记，为后续 QA 任务提供了更准确的态势感知。

在两个具有挑战性的 3D 视觉问答（VQA）数据集上进行实验[44,5]展示我们模型在情况估计和 QA 任务方面的显着改进。特别是，我们将情况估计的准确性提高了 30% 以上，并将随后的 QA 性能提高了 3%。进一步的定性和定量分析验证了我们的设计选择，并突出了态势感知在 3D 推理任务中的重要性。

综上所述，我们的论文有以下贡献：（1）我们认识到缺乏态势感知是现有研究中的一个重大疏忽。为了解决这个问题，我们引入了 SIG3D，这是一种基于情境的 3D VL 推理架构，专门用于填补这一空白。（2）我们提出了一种基于锚点的情况估计方法，它有效地缩小了 3D 环境中的广泛搜索空间，以便通过文本描述精确定位 3D 位置和方向。此外，我们还研究了情境对齐和视觉重新编码机制，以利用态势感知来增强 QA 性能。（3）我们的模型在两个具有挑战性的数据集 SQA3D 和 ScanQA 上表现出卓越的性能，在情况估计和 QA 指标方面都超过了最先进的技术水平。消融研究强调了情境引导编码的重要性，揭示了它对一般 QA 任务的有益影响。

2相关工作

视觉语言模型（VLM）。早期的 transformer 驱动[59]文本和视觉编码器[31,17]促进了近期视觉语言学习的巨大进步。文本-图像对比模型[54,30]建议将两种模态的特征空间与大规模预训练保持一致，为广义开放词汇视觉感知的大量下游任务提供动力[34,21,36]到文本到图像的生成[56].同时，一些工作在不同的模态上使用文本和视觉编码器，然后进行特征融合[18,33]用于多模态推理任务。自大型语言模型（LLM）出现以来[7,58,69]，在 LLM 作为多模式学习架构的构建块的帮助下，VLM 经历了巨大的改进。具体来说，最近的工作直接将视觉嵌入投影到语言空间标记中，作为 LLM 的输入[40,47,70]，或者使用 latent 瓶颈结构进行跨模态视觉解码[3,25,37,38]，或者将 LLM 层视为各种视觉任务的编码器块[49].

在视觉问答（VQA）领域[4,73]，最近的工作推动了视频理解的前沿[40,29,28,62,14]、基于知识的理解[46,57,20,23,41,63]和常识性推理[68]. 尽管在 2D 图像解释方面表现出色，但大多数现有方法缺乏推广到 3D 场景的能力。相比之下，我们的工作通过针对 3D 情境引导的视觉语言解释来研究视觉信息的表示及其与 3D 领域中语言嵌入的融合。

在 3D 空间中接地语言。与 2D 图像相比，仅存在于 3D 世界中的空间关系、交互式探索和拓扑分析等知识为开发基于真实世界 3D 场景的具有更强常识推理能力的更好的语言模型提供了额外的挑战和机遇。在这个方向上，早期的工作试图将孤立的物体接地[9,1]或更复杂场景中的对象[8,2,27,19]使用自然语言描述。最近，随着收集了更多 3D 视觉语言基准测试，一些工作开始在各种数据集上探索语言引导的 3D 视觉解释和推理，包括 3D 场景字幕[10]、开放词汇分割[51,16,32]和问答[5,24,15,65,74,26].

LLM 的成功还促使它们在 3D 视觉语言推理中用于任务分解[64]、数据生成和多模态特征融合[25].由 ScanQA 激励[5]、SQA3D[44]通过开发情境问答基准，并针对该基准提出第一个联合学习基线，迈出探索具有挑战性的 3D 情境推理问题的第一步。我们的工作强调了态势感知在 3D 视觉语言学习范式中的独特性和重要性，从而显着提高了 3D 情境基础和问答性能。

3情境推理试点研究

Refer to caption

图 3：代表性 SQA3D 基线方法变体的结果[44]证明情境理解尽管在感知问题的背景方面是必不可少的，但在现有方法中的贡献可以忽略不计。这激发了我们模型中的情境引导 3D 编码机制。

尽管强调了情境理解和推理的重要性，但现有的方法[44]在提供有效的情况估计方面存在不足，如图 2 所示。本节深入探讨一项试点研究，该研究考察了情境理解对下游推理任务的影响。SQA3D 基线[44]在直接回归任务中，结合情境描述并使用真实（GT）情境向量进行监督。我们研究了该基线的三种变体，以评估情境理解的效果。在第一个变体中，我们通过传入空的情境标记，从模型中删除了情境描述和监督。在另一种变体中，我们通过向 GT 向量引入非常大的高斯噪声来有效地随机化它们，从而破坏了情境监督。最后，我们尝试用可学习的多层感知器（MLP）层对输入中的 GT 情境向量进行编码，以形成 GT 情境标记。

图 3 展示了这项研究的结果，揭示了这些变体的性能变化可以忽略不计。值得注意的是，破坏 GT 情境信息或直接合并它只会导致 QA 结果的边际变化。如果从输入中完全省略情境描述，则会导致精度略有下降 2%。但是，在没有此信息的情况下，该模型在确定正确答案时会采用随机猜测，因为所有响应都取决于情况。图 2 和图 3 的发现共同表明，现有方法在情境估计和情境理解在后续推理任务中的应用存在缺陷。这些未解决的挑战激发了我们提出的方法的开发。

4方法

Refer to caption

图 4：我们的 SIG3D 模型概述，其中包括 3D 场景和文本编码、基于锚点的态势估计、情境引导的视觉重新编码和多模态解码器模块。我们将 3D 场景标记化为体素，将每个标记视为一个锚点，并查询文本标记以预测标记级位置似然和旋转矩阵，以定位与文本描述相关的情境向量。然后，我们使用情境位置编码（PE）更新场景标记，最后使用大型 transformer 解码器执行 3D VL 推理任务。

图 4 说明了我们的方法 SIG3D 的概述。我们的方法从一组代表 3D 场景的点开始，并附有定义问题整体上下文的情境描述和问题。我们将它们标记成单独的标记嵌入（第 4.1 节），并使用包含位置和方向的向量将文本描述置于 3D 场景中。由于 3D 搜索空间的庞大和复杂性质，我们发现直接的单向量估计具有挑战性，因此我们提出了一种基于锚点的情况估计策略（第 4.2 节）。随后，我们从情境向量的角度对视觉标记进行重新编码，增强了下游推理任务的态势感知（第 4.3 节）。最终确定的视觉和文本标记由 transformer 解码器融合以生成最终响应。

4.1视觉和文本标记化

利用输入场景点云和文本提示，我们的目标是生成三种不同类型的标记：3D 视觉标记z3⁢D∈ℝNv×Cv、情境标记zS∈ℝNs×Cs和 question 标记zQ∈ℝNq×Cq.每种类型的令牌都由两个主要组件组成：N，表示令牌数量，以及C封装特征嵌入。为了对情境输入和问题进行标记和捕获特征嵌入，我们采用了共享文本标记器ETXT 格式遵循先前的方法[5,44].我们假设 situation 和 question prompt 在输入数据中是分开的。如果没有，则为 LLM[7]可用于解析文本输入，而不改变句子的语义。然而，对于标准的 3D 视觉标记化方法缺乏共识E3⁢D这适用于 3D VL 推理任务，促使在接下来的段落中进行更详细的探索。

视觉标记化。给定一个输入点云𝐩∈ℝN×3、大多数先前的方法[5,44,15]采用 VoteNet[53]detector 获取对象级令牌z3⁢D∈ℝN对象×C对象作为视觉表示，其中N对象是对象提议的数量，而C对象是对象级特征嵌入。然而，我们指出了这种抽象策略的几个问题：（1）基于检测的标记化方法往往会忽略场景中的非对象区域，这在某些推理场景中可能是必不可少的（例如，地面上的地毯、天花板、墙壁）。（2）在对象级抽象之后，视觉表示失去了场景的高级信息（例如，客厅的形状、厨房的角落）。（3）从头开始训练的监督检测器只能识别训练集中的对象（例如，ScanNet 只有 20 个类别[13]），这意味着该方法不具有零镜头功能来推理在现实世界场景中不可避免地常见的新奇的看不见的对象。

有鉴于此，我们采用了来自 OpenScene 的预训练的基于体素的开放词汇标记化方法[51].首先将场景离散化为常规的小 3D 体素，并馈送到可视编码器中以进行特征提取：

z3⁢D=E3⁢D⁢(𝒱⁢(𝐩)),

(1)

哪里𝒱表示体素化过程，并且E3⁢D是一个 Minkowski 稀疏 3D 卷积网络[12].稀疏网络是通过 CLIP 的蒸馏进行预训练的[54]嵌入渲染的多视图 2D 图像，从而生成具有更好语言对齐和 3D 感知能力的特征图。我们从编码器网络中获取上采样的瓶颈层特征嵌入，并计算z-axis （vertical）将体素投影到x-yplane 并将生成的 2D 特征图中的特征网格视为我们的Nv视觉令牌。我们发现，这种鸟瞰投影可以产生更紧凑的表示并提高最终性能。

4.2情况估计

给定 3D 视觉标记z3⁢D和情境令牌zS，我们的目标是估计情境向量s→由情境描述所指，该描述包括一个位置组件sPOS位置由坐标表示(x,y,z)和 Rotation 组件s腐烂由 Euler angles 表示(θ,ψ,φ)，其中俯仰角ψ始终定义为 0，这意味着情境向量被定义为与地平面平行。前一种方法[44]利用 transformer 块来计算视觉和语言标记之间的交叉注意力特征，并从平均注意力图中直接回归最终的情境向量。我们发现这种策略产生的估计非常不准确，如图 2 所示，因为整个 3D 体积中的搜索空间很大。受到最新 3D 对象检测方法的启发[66,71,45]，我们通过将本地化问题转化为分类问题来减少搜索空间。

位置嵌入和特征融合。在体素化和 3D 编码过程之后，每个 3D 标记都与一个 3D 位置相关联(x,y,z)表示其体素的中心。我们首先通过使用两层感知器为每个Nv视觉标记，并向标记特征添加可学习的位置嵌入z3⁢D.我们使用情景解释器[55]提取情境信息，并要求更新的视觉标记处理具有多个 transformer 层的这些情境标记，以生成联合特征嵌入。

基于锚点的情况估计。我们将特征融合模块的每个输出 token 视为一个锚点，并使用它来预测位置似然p∈[0,1]和轮换估计。由于每个令牌都有一个关联的 3D 位置(x,y,z)、位置似然p指示情境向量位于此标记（体素）中心的可能性。我们使用高斯核为这个分类任务定义了一个软真实值，这意味着标记越接近实际的情境向量sPOS位置，则真值概率较高p将分配给该令牌。为了抵消稀疏监控信号并增加围绕矢量位置的正监控，我们在 CenterPoint 中采用了峰放大技术[66]，其中高斯核的大小增加（意味着σ增加），以允许在向量位置周围进行更密集的监督。此外，我们探讨了不同的旋转表示形式，发现与四元数和(罪⁡θ,因为⁡θ)表示形式，由[72]实现最佳性能。因此，我们采用一个带有 MLP 层的情境估计头为每个标记输出 7 维向量，其中第一个通道代表位置似然，其他六个通道代表 6D 旋转矩阵。我们以具有峰值位置似然的代币中心作为我们的估计sPOS位置，并将其相应的 6D 旋转向量转换为我们的估计值s腐烂.估计值可以等效地表示为旋转矩阵R和平移矩阵T.有关架构和设计选择的更多讨论在 Section 5.3 中。

4.3情境引导的视觉编码

在获得情况估计后，我们研究了一种更好的方法来增强下游反应的产生，其灵感来自人类认知过程。直观地说，人类通常通过首先解释自己在太空中的情况，然后从适当的角度辨别周围环境来理解他们周围的 3D 环境。我们的模型旨在模拟这种自然策略。使用情境向量s→，我们通过将原点重新定位在sPOS位置，然后根据s腐烂，以便新的 y 轴与指示的方向对齐。我们保持z-轴垂直方向，并将情境向量投影到x-y飞机。这与数据集的格式一致[44]，其中假设情境向量与地平面平行。随后，我们为每个Nv视觉标记，类似于第 4.2 节中概述的可学习 3D PE。它们允许模型从当前情况的角度掌握位置相互关系。这些情境嵌入被添加到情境估计模块的输出嵌入中，该模块由具有视觉标记的自我注意层的块组成，然后是桥接视觉和情境信息的交叉注意力层。这种结构允许在情境和问题上下文的影响下对视觉标记进行重新编码，指导模型为与情境相关和问题相关的视觉标记分配更高的权重。输出被称为情境引导的视觉标记，体现了这种重新语境化的理解。

4.4问答头

我们遵循现有的方法[25]使用大型视觉语言解码器来融合最终的视觉和文本标记，并生成对输入问题的文本响应。我们探索了自回归响应生成和基于分类的答案预测[44,5].对于分类，我们预测一个向量v回答∈ℝn一个对于候选人n一个训练集中的答案如下[5].

Model	Question Breakdown						Overall
Model	What	Is	How	Can	Which	Other	Overall
GPT-3 [7]	39.7	46.0	40.5	45.6	36.1	38.4	41.0
ClipBERT [35]	30.2	60.1	38.7	63.3	42.5	42.7	43.3
MCAN [67]	28.9	59.7	44.1	68.3	40.7	40.5	43.4
ScanQA [5]	28.6	65.0	47.3	66.3	43.9	42.9	45.3
SQA3D [44]	33.5	66.1	42.4	69.5	43.0	46.4	47.2
Multi-CLIP [15]	-	-	-	-	-	-	48.0
LM4Vision [49]	34.3	67.1	48.2	68.3	48.9	45.6	48.1
3D-LLM [25]	36.5	65.6	47.2	68.8	48.0	46.3	48.1
3D-VisTA [74]	34.8	63.3	45.4	69.8	47.2	48.1	48.5
SIG3D (Ours)	35.6	67.2	48.5	71.4	49.1	45.8	52.6

表 1：我们提出的 SIG3D 在 SQA3D 基准测试中实现了最先进的性能[44].我们在 “Is”、“How” 和 “Can” 类型的细分问题以及EM@1指标的平均准确性上表现最佳。结果将在测试集上报告。

Model	Localization		Orientation
Model	Acc@0.5m	Acc@1.0m	Acc@15°	Acc@30°
Random	7.2	25.8	8.4	16.9
SQA3D [44]	9.5	29.6	8.7	16.5
SQA3D (separate)	10.3	31.4	17.1	22.8
3D-VisTA [74]	11.7	34.5	16.9	24.2
SIG3D (Ours)	27.4	59.1	28.7	42.5

表 2：我们提出的方法 SIG3D 的性能明显优于以前的方法[44]在情境估计任务中。“Acc@0.5m”代表定位精度，阈值为 0.5m。“Acc@15°” 表示方向精度，阈值为 15°。Separate 表示禁用其他任务，让模型只关注情况估计。

53D VQA 任务分析

我们在两个具有挑战性的基准上评估了 SIG3D 的 3D VL 推理，解决了面向视觉的情况估计和以文本为中心的 QA 任务。我们详细研究了我们研究中采用的实施策略、采用的数据集和应用的指标。有关详尽的理解，请参阅补充材料中的实施、培训详细信息和其他附加信息。

数据。我们在 SQA3D 上评估我们的方法[44]和 ScanQA[5]，两个具有挑战性的室内 3D VQA 数据集。这两个数据集都源自 ScanNet 数据集[13]，作为其 3D 场景的基础来源。SQA3D 具有超过 33K 个用于 3D VQA 任务的问答对和用于情境估计任务的 26K 个独特的情境描述。此数据集中的每个条目都包含一个 3D 场景点云、一个情境描述、一个问题和相关注释。ScanQA 由超过 41K 个问答对组成，没有情境描述和情境注释。我们用它来证明我们的方法在一般 QA 任务上的通用性。我们使用这些数据集提供的分片。

评估指标。对于 SQA3D，为了与基线方法进行比较[44,49,74]，我们使用浅层 transformer 解码器 task head 来执行答案分类任务，并使用精确匹配（EM@1）来评估性能，这相当于 Top-1 答案准确率。我们还根据问题句子中的第一个单词提供了有关问题类型细分的EM@1，包括“What”、“Is”、“How”、“Can”、“Which”和“Other”。此外，我们还通过定位精度和定向精度来评估态势估计性能。在这两项任务中，我们使用不同距离或角度阈值内的准确性作为我们的指标。例如，“Acc@0.5m”表示当正阈值设置为 0.5 米时，位置估计的准确性。对于 ScanQA，我们使用大型 transformer 解码器执行自回归答案生成[25]，并使用 BLEU 进行评估[50]胭脂[39]流星[6]和 CIDEr[60]指标。

Model	BLEU-1	BLEU-4	ROUGE	METEOR	CIDEr
BLIP2 [38]	29.7	5.9	26.6	11.3	45.7
Flamingo [3]	25.6	8.4	31.1	11.3	55.0
VN+MCAN [67]	28.0	6.2	29.8	11.4	54.7
SR+MCAN [67]	26.9	7.9	30.0	11.5	55.4
ScanQA [5]	30.2	10.1	33.3	13.1	64.9
3D-LLM [25]	39.3	12.0	35.7	14.5	69.4
SIG3D	39.5	12.4	35.9	13.4	68.8

表 3：SIG3D 在 ScanQA 数据集上的性能[5]与大规模文本 3D 预训练的最新技术相当。VN 和 SR 分别代表 VoteNet 和 ScanRefer。3D-法学硕士[74]利用预训练的 2D VL 基础模型和 LLM 模型[38,3,7,37]，并在 ScanQA 上进行微调之前在大规模保留的 3D 文本数据集上进行预训练。

5.1位置问答

基线。我们的研究涉及对 SQA3D 数据集上的一系列代表性基线的比较分析。特别是，我们根据 GPT-3 进行评估 [7]、ClipBERT [35]和 MCAN [67]，正如之前的工作中报告的那样[44]、基线分别侧重于纯语言、2D 视频和 2D 图像 QA。对于 GPT-3，我们遵循 SQA3D[44]使用 Scan2Cap 将视觉输入转换为字幕[10]供 LLM 处理。扫描 QA [5]表示忽略情境输入的 3D QA 基线。SQA3D [44]和 Multi-CLIP [15]将情境描述和注释用于直接回归任务。LM4Vision [49]利用 LLM 作为视觉和文本编码器。此外，3D-VisTA [74]在对该数据集进行微调之前，在其大规模 3D 场景文本数据集 ScanScribe 上进行预训练过程。

（一）视觉令牌数量

	Acc@1.0米	Acc@30°	EM@1
128	48.9	38.2	49.2
256	59.1	42.5	50.9
512	57.8	42.1	50.7

（二）体素大小（以米为单位）

	Acc@1.0米	EM@1
0.01	54.1	49.5
0.02	59.1	50.9
0.05	47.3	48.8

（三）旋转表示

	Acc@30°	EM@1
四元数	31.4	50.0
6D 矢量	42.5	50.9
罪⁡θ,因为⁡θ	42.6	50.6

表 4：消融研究验证了我们的各种设计选择提高了性能。“Acc@1.0m”、“Acc@30°”和“EM@1”分别是定位估计、方向估计和 QA 任务的准确率（%）。我们的设置标记为灰色。

表 5：SIG3D 的性能通过更强大的视觉和语言编码器得到提高。我们发现开放词汇点编码器和基于 MPNet 的句子 BERT （SBERT）导致最佳性能。“Acc@1.0m” 和 “Acc@30°” 分别代表态势估计任务中的定位和方向精度。“EM@1”演示了 QA 任务中的精确匹配量度。

情况估计。如表 2 所示，我们的工作表现明显优于最先进的[44,74]在定位和方向估计任务中。用于 3D-VisTA[74]，我们使用预训练模型，并使用下面的 SQA3D 数据集微调新的情况头部[44].我们还报告了一个随机基线，其中我们从均匀分布中随机采样位置和方向作为下限性能。请注意，原始 SQA3D 的性能仅略好于随机基线，这意味着尽管存在态势估计损失，但它没有获得任何态势感知。禁用 QA 任务并要求模型只关注情况估计任务会导致性能略有提高。我们的方法采用基于锚点的位置似然估计，可以更好地理解 3D 情境关系。我们的方法也优于 3D-VisTA，后者是在大规模 3D 文本数据集上进行预训练的，这表明仅靠大型预训练不足以解决态势感知问题。请注意，我们不包括[44]，因为每个值都是通过生成三个随机值并取最接近地面的 true 值获得的，因此它不反映真正的“随机”基线。

位置问答。SIG3D 在大多数问题细分类别和总体准确性方面都优于以前的方法，如表 1 所示。我们的工作在没有大规模预训练（与 3D-VisTA 相比）和 LLM（与 GPT-3 相比）的情况下取得了领先的结果，表明它在态势感知方面的优势。请注意，LLM 基线 GPT-3 在 “What” 类别上取得了最佳性能，这表明更强大的语言编码器在解释复杂问题方面的潜力。

5.2ScanQA 上的一般问答

基线。我们与基于 VQA MCAN 的基线 2D 图像进行比较[67]、ScanQA [5]、3D-LLM [25]它利用大规模预训练的 2D VLM 和 LLM 作为主干模型，以及 3D-VisTA [74]在他们提议的大规模 3D 文本数据集上进行预训练。

问答。如表 3 所示，尽管这些问题没有明确要求在 ScanQA 中理解情境来回答，但 SIG3D 在没有大规模 3D 文本预训练和强大的 2D VLM 和 LLM 主干模型的情况下，与最先进的方法取得了相当的结果。我们在 SQA3D 上预训练的工作[44]导致在 BLEU-1、BLEU-4 和 ROUGE 指标上获得更高的性能，显示出其在一般 3D QA 场景中的通用性。

Refer to caption

图 5：定性结果表明 SIG3D 比以前的方法有显着改进。第一行是 SQA3D 的结果[44]，第二行是我们方法的结果。在 3D 场景中，红色：真值（GT）向量，蓝色：估计向量。

5.3消融研究与分析

视觉和语言编码器。我们在表 5 中研究了不同视觉和文本分词器的影响。据观察，开放词汇表视觉编码器（OpenScene）在所有指标上都优于基于检测的编码器（例如 VoteNet 和 3DETR）。OpenScene 的这种卓越性能归因于 3D 检测器的局限性，这些检测器通常在一组有限的对象类别上进行训练，这使得它们在识别文本提示中提到的新对象时效果较差。关于语言编码器，我们的研究结果表明，更强的主干与更好的性能相关，这主要是由于它解释了复杂文本输入的能力得到了提高。这导致了将 LLM 与我们的方法集成以潜在地进一步提高性能的建议，这是我们打算在未来研究中探索的途径。

表 6：消融研究验证了我们提出的模块可以带来更好的情况估计和更好的 QA 性能。

态势感知。在表 6 中，我们验证了态势感知在 3D VL 任务中的关键作用。首先，我们表明 3D PE、6D 旋转估计和基于锚点的位置估计都会导致更好的位置和方向估计性能。我们进一步确定，情境 PE 和视觉标记重新编码模块可以更好地利用预测的情境向量进行 QA 任务。此外，我们在可以访问地面实况向量作为输入的假设下设计了两个预言机模型。这些模型的结果揭示了一个关键的见解：当模型直接合并到输入视觉嵌入中时，该模型无法有效地解释情境信息。这强调了我们提出的中间表示和编码机制的必要性，肯定了它在实现最佳 3D VL 任务性能方面的重要性。

建筑设计。我们在表 4 中探讨了模型的不同架构设计选择。我们发现，从视觉特征嵌入中采样的视觉标记数量会影响情境估计和 QA 任务的性能。对视觉标记进行较少采样会增加丢失显著性区域的风险，而对视觉对象标记进行采样较多也不会带来更好的性能。我们研究了体素的大小，发现 0.02m 是最有效的选择，因为 OpenScene[51]backbone 使用相同的体素大小进行预训练。我们还发现，(罪⁡θ,因为⁡θ)在旋转估计任务中，6D 向量表示的性能比四元数好得多。这与[72].

5.4定性分析

最后，我们在图 5 中展示了 SIG3D 的一些定性结果。我们在相应的 3D 场景中分别用红色和蓝色显示真实值和估计的情境向量。我们还打印带有红色叉号或绿色复选标记的答案，以指示正确性。很明显，我们的方法在情境估计任务中表现得明显更好，导致向量在位置和方向角度都非常接近地面实况。更好的态势感知也有助于复杂的嵌入式导航和常识性 QA 活动。这进一步证明了我们的方法在开发室内机器人和/或对话代理方面的巨大潜力。

补充材料。补充部分提供了广泛的分析，包括对情境重新编码前后 3D 视觉令牌激活变化的详细研究。此外，它还包括全面的阳性和阴性样本集合、富有洞察力的失败案例分析以及关于局限性和未来工作的前瞻性讨论。