论文：https://arxiv.org/abs/2308.04352

代码: GitHub - 3d-vista/3D-VisTA: Official implementation of ICCV 2023 paper "3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment"

摘要

三维视觉语言基础(3D- vl)是一个新兴领域，旨在将三维物理世界与自然语言联系起来，这对实现具身智能至关重要。目前的3D-VL模型严重依赖于复杂的模块、辅助损耗和优化技巧，这需要一个简单而统一的模型。在本文中，我们提出了3D- vista，一个预训练的3D视觉和文本对齐转换器，可以很容易地适应各种下游任务。3D-VisTA简单地利用self attention层进行单模态建模和多模态融合，而无需任何复杂的特定任务设计。为了进一步提高其在3D- vl任务上的性能，我们构建了ScanScribe，这是第一个用于3D- vl预训练的大规模3D场景文本对数据集。ScanScribe包含2,995个RGBD扫描，用于源自ScanNet和3R-Scan数据集的1,185个独特的室内场景，以及从现有3D-VL任务，模板和GPT-3生成的配对278K场景描述。3D-VisTA通过屏蔽语言/对象建模和场景文本匹配在ScanScribe上进行预训练。它在各种3D-VL任务上实现了最先进的结果，从视觉基础和密集的字幕到问题回答和情境推理。此外，3D-VisTA展示了卓越的数据效率，即使在下游任务微调期间注释有限也能获得强大的性能。

背景

将三维物理世界与自然语言结合起来是实现具身人工智能的关键一步[18,26,37]，智能体可以在现实世界中理解并进一步执行人类指令[5,29]。最近，3D视觉语言(3D- vl)任务引起了越来越多的关注[19]，包括3D视觉基础（3D visual grounding）[8,1]、密集字幕（dense captioning）[11]、语法学习（grammar learning）[23]、问题回答（question answering）[3,56]和情境推理（situated reasoning ）[36]。

然而，大多数为3D-VL开发的模型只关注这些3D-VL任务中的一个或两个，并采用特定的任务设计[7,3,36,35,10]。

例如，3D-SPS[35]和BUTD-DETR[27]通过关注VL特征，对每一层的物体进行检测，逐步发现目标物体。3DVG[55]、MVT[24]和ViL3DRel[10]通过在模型设计中明确地注入空间关系信息，改善了三维视觉基础。

3DJCG[7]通过共享的3D对象建议模块shared 3D object proposal module[16]和两个独立的任务头two separate task-specific heads[7]，共同学习3D密集字幕和视觉接地（dense captioning and visual grounding）。

此外，训练这些模型通常需要手动指定辅助损耗(例如，3D物体检测/分类和文本分[35,24,7,3,36])或优化技巧(例如，知识蒸馏[4,53])。

缺乏一个简单而统一的方法会造成严重的开发通用3D-VL模型的差距。

为了填补这一空白，我们引入了3D-VisTA，一个基于transformer的模型的3D视觉和文本对齐，可以易于适应各种下游任务。与之前的在设计复杂的任务特定模块的模型中，我们简单地使用一个普通的self attention transformer[46]对于单模态建模和多模态融合3 d-vista。作为一般做法进一步加强三维空间理解[10,55,7]，我们明确的将成对的空间关系编码成为对象间的self attention权重用于3D对象建模。

受NLP[15、41、42、6、52、31]、CV[22、17、21、25、38]和2D-VL[30、2、34、40]中大规模预训练成功的启发，我们提出在3D场景文本数据上预训练3D- vista，以期在3D- vl任务上获得更好的性能。为此，我们构建了ScanScribe，这是第一个用于3D- vl预训练的大规模3D场景文本对数据集。

我们在提议的ScanScribe数据集上预训练3D-VisTA。我们的预训练任务包括掩码语言建模、掩码对象建模和场景文本匹配。值得注意的是，类似的目标在2D-VL中被广泛采用，但在3D-VL领域却很少被探索。所提出的预训练过程有效地学习了三维点云和文本之间的对齐，从而消除了下游任务微调中对辅助损失和优化技巧的需要。

贡献

1）提出3D- vista，一个简单而统一的transformer，用于对齐3D视觉和文本。所建议的Transformer只是利用了自注意机制，没有任何复杂的特定于任务的设计。

2）构建了ScanScribe，这是一个大规模3D- vl预训练数据集，包含278K 3D场景文本对，用于1,185个独特室内场景的2,995个RGB-D扫描。

3）提出了一种基于掩码语言/对象建模和场景文本匹配的自监督预训练方案。它有效地学习了三维点云和文本对齐，进一步简化和提高了下游任务的微调。

4）对3D-VisTA进行微调，并在各种3D-VL任务上实现最先进的性能，从视觉基础和密集字幕到问题回答和情境推理。3D-VisTA还展示了卓越的数据效率，即使在有限的注释下也能获得强大的结果。

方法

3D-VisTA

如图2所示，3D-VisTA以一对场景点云和句子作为输入。首先通过文本编码模块对句子进行编码，然后通过场景编码模块对点云进行处理。然后通过多模态融合模块将文本和3D对象标记融合，以捕获3D对象和文本之间的对应关系。3D-VisTA使用自我监督学习进行预训练，可以很容易地对各种下游任务进行微调。

Text Encoding 文本编码

我们采用四层Transformer将句子S编码为文本标记{wcls,w1,w2，···，wM}序列，其中wcls为特殊分类标记([CLS])， M为句子长度。该文本编码模块由预训练BERT的前四层进行初始化[15]。?

Scene Encoding 场景编码

给定一个3D场景的点云，我们首先使用分割蒙版将场景分解成一包（bag）物体。
分割掩码既可以从ground truth中获得，也可以从实例分割模型中获得[16,28,44]。

1）对于每个对象，我们采样1024个点，并将其坐标归一化为单位球。

2）将目标点云输入PointNet++[39]获取其点特征和语义类。我们将点特征fi、嵌入语义类ci和位置li(即3D位置、长度、宽度、高度)组合为对象标记i的表示。其中Wc和Wl是附加的投影矩阵，将ci和li映射到与fi相同的维度↓

3）为了进一步提供对象的上下文表示，我们通过将对象token注入四层Transformer来捕获对象到对象的交互。受前人研究[55,24,10]的启发，我们将对象的成对空间关系明确编码到Transformer中(图2中的spatial Transformer)。

我们按照[10]定义了对象对i, j的成对空间特征↓

其中dij是欧几里得距离θh， θv是连接两个物体i，j中心的直线的水平线和对顶角

两两空间特征S = [sij]∈RN×N×5用于调节Transformer中自关注层的关注权重:

其中w∈R5用于将空间特征映射到注意分数，σ为sigmoid函数。

Multi-modal Fusion 多模态融合

我们简单地将文本和3D对象标记连接起来（？如何连接？直接相加还是相乘？看代码），并将它们发送到l层变压器(图2中的统一变压器)进行多模态融合。可学习的type embeddings 被添加到token中，以区分文本和3D对象。对于[CLS]、文本标记和3D对象标记，我们将多模态融合模块的输出分别表示为{wcls,w1:M, o1:N}。

Self-supervised Pre-training 自监督预训练

为了以自监督的方式学习3D场景和文本对齐，我们通过以下代理任务对3D- vista进行3D场景-文本对的预训练:

Masked Language Modeling (MLM)

Masked Object Modeling (MOM)

Scene-Text Matching (STM)

Downstream Task Finetuning

预训练的3D-VisTA可以很容易地适应各种
3D-VL任务通过添加轻量级任务头。更具体地说，我们在以下任务上微调3D-VisTA↓

3D Visual Grounding

3D Dense Captioning

3D Question Answering

3D Situated Reasoning

ScanScribe

scanscribe是我们建立的一个大规模的三维场景文本对数据集

如表3所示，ScanScribe中三维场景文本对的构建包括两部分:

3D场景：

我们从ScanNet[12]和3R-Scan[48]收集室内场景的RGB-D扫描。为了增加这些场景中3D对象的多样性，每个场景中10%的对象实例根据类别随机替换为Objaverse 3D对象数据库[13]中的对象。对于每个ScanNet和3R-Scan对象类别，我们从Objaverse下载大约40个对象实例作为候选对象替换。因此，我们收集了1,185个室内场景的2,995个RGB-D扫描，其中包含56.1K唯一对象实例

文本：

对于来自ScanNet的扫描，我们将基于ScanNet的现有数据集中的文本转换为场景描述，包括来自ScanQA[3]的问答对和来自Scan- reference[8]和refit3d[1]的引用表达式。对于来自3RScan的扫描，我们同时采用模板和GPT-3[6]，基于它们的场景图注释生成场景描述[51]。

具体地说，对于每个对象，我们首先从场景图中提取所有的〈object, relation, neighbor〉三元组。然后我们使用模板“This is a object, a neighbor is relation to object” 来生成描述。

注意，在基于模板的生成中，我们只选择邻居少于7个的对象。

我们进一步探索使用GPT-3生成带有如下提示“object is relation to neighbor...(repeat until all the neighbors have been used). Where is object? or Summarize the scene.”最终，对收集到的3D场景生成278K的场景描述。

这个貌似就可以解决我LISA:通过大语言模型进行推理分割_Scabbards_的博客-CSDN博客中如何用gpt3生成/改写提示的疑问了