-
作者:Chan Hee Song, Valts Blukis,Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield
-
单位:俄亥俄州立大学,NVIDIA
-
论文标题:ROBOSPATIAL: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
-
论文链接:https://arxiv.org/pdf/2411.16537
主要贡献
-
论文介绍了ROBOSPATIAL数据集和ROBOSPATIAL-Home基准,包括图像和3D扫描,并配有关于空间问题的问答对,包括多个参考框架、物体间空间关系、物体与空间的关系以及物体兼容性。
-
通过在ROBOSPATIAL数据集上训练视觉语言模型(VLMs),显著增强了这些模型的空间推理能力。实验结果表明,这些模型在自然语言指定的机器人操作任务和室内场景问答任务中表现优于先前的VLMs。
-
通过机器人实验展示了ROBOSPATIAL的实际应用效果。实验结果表明,ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够理解和应用空间推理能力。
研究背景
研究问题
现有的视觉语言模型(VLMs)在处理涉及物体间细微空间关系的问题时表现不佳,例如描述物体在另一物体上的位置或确定在特定条件下放置物品的最佳位置。
论文主要解决的问题是视觉语言模型在机器人应用中的空间理解能力不足。
研究难点
该问题的研究难点包括:
-
现有数据集缺乏对参考系理解的捕捉,无法有效处理从第一人称视角、物体视角或世界视角的空间关系;
-
现有VLMs在处理动态环境中的空间关系时表现有限。
相关工作
-
VLMs在机器人中的应用:
-
VLMs已成为机器人系统中至关重要的工具,使系统能够解释和执行复杂的视觉和文本信息。它们通过结合视觉感知和语言理解,促进了更直观的人机交互,并增强了自主决策能力。
-
近期的进展展示了VLMs在各种机器人应用中的潜力,例如通过视觉-语言动作模型(VLAs)来解释和执行复杂指令,以及使用GPT-4v进行高层次任务规划等。
-
-
空间理解的挑战:
-
尽管VLMs在理解和生成语言方面表现出色,但在动态环境中理解和推理空间关系仍然存在限制。这种能力对于机器人导航和操作至关重要。
-
现有的工作主要集中在模拟环境或通用图像上,缺乏对机器人应用中所需的实际空间关系的关注,如空间兼容性和上下文。
-
-
空间理解的研究:
-
空间理解一直是视觉问答任务的一部分,许多基准和方法已经被提出。然而,这些方法通常存在局限性,例如专注于模拟环境、难以评估、依赖完整的3D扫描或使用可能缺乏足够准确性的LLM生成的数据。
-
论文扩展了空间理解的应用范围,将其应用于机器人特定的上下文中,并强调了对机器人工作流(如任务规划和验证)的直接应用。
-
-
ROBOSPATIAL的目标:
-
论文旨在通过引入大规模的2D/3D预训练数据集和自动化数据标注流程,降低探索针对机器人应用的空间理解的门槛。
-
作者展示了如何利用ROBOSPATIAL数据集来教授视觉语言模型进行空间推理,并在领域内和领域外的空间推理数据集上进行测试。
-
研究方法
- 空间关系选择:
-
数据集围绕三个核心空间关系组织:对象配置(Object Configuration)、对象上下文(Object Context)和对象兼容性(Object Compatibility)。
-
这些关系旨在解决机器人任务中空间推理的基本方面,帮助机器人理解对象的相对位置、评估对象与其周围空间的关系,以及判断对象是否可以在给定空间中共存或互动。
-
-
数据集生成:
-
数据生成过程的目标是通过使用精心构建的启发式方法,以最小的人工干预生成高精度的空间关系数据集。
-
输入数据集包含RGB视图、相机姿态和对象标注(文本标签和有向3D边界框),输出数据集包含图像、问题、答案和参考帧标签。
-
数据生成过程分为两个阶段:空间关系提取和问答生成。
-
-
空间关系提取:
-
在空间关系提取阶段,分析数据集以发现对象之间或自由空间中的空间关系。
-
每个空间关系由图像、锚对象、目标对象或目标自由空间点、大小测量、空间关系介词和参考帧标签组成。
-
使用有向3D边界框标注自动生成空间关系。通过分析3D边界框的方向和位置信息,自动提取对象之间的空间关系。
-
-
问答生成:
-
基于生成的关系,构建三种类型的问答对:空间配置、空间上下文和空间兼容性。
-
为了确保模型通过视觉而非语言进行推理,问题和答案采用模板化结构,避免歧义。
-
通过生成平衡的数据集,避免模型偏差,并使用2D边界框创建辅助的对象指代数据集,以教授模型识别对象。
-
实验设置
-
实现细节:
-
实验将数据生成过程应用于三个场景数据集和两个桌面数据集,包括ScanNet、Matterport3D、3RScan、HOPE和GraspNet-1B。
-
这些数据集提供了多样化的室内场景和桌面环境,覆盖了大物体和小物体的导航和操作。
-
选择了多种2D和3D视觉语言模型(VLMs)进行评估,包括VILA、LLaVA-NeXT、SpaceLLaVA、RoboPoint、3D-LLM、LEO、Molmo和GPT-4o等模型。
-
-
空间理解评估:
-
通过回答测试集中的3000个问题(每种空间关系1000个问题)来评估模型。
-
这些问题包括二元(是/否)问题和需要数值响应的问题。评估指标包括正确回答的成功率和数值答案的准确性。
-
-
跨数据集泛化评估:
-
通过在不同场景类型(室内和桌面)上进行训练和测试,评估模型的泛化能力。
-
-
领域外评估:
-
在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。
-
ROBOSPATIAL-Home是一个手动标注的室内场景数据集,用于测试模型在真实生活杂乱场景中的泛化能力。
-
Blink-Spatial是一个视觉推理基准,用于评估模型在未见过的空间关系上的泛化能力。
-
结果与分析
- 模型性能提升:
-
经过ROBOSPATIAL训练的模型在空间推理任务中表现出显著的性能提升。
-
与未经过ROBOSPATIAL训练的基线模型相比,训练后的模型在各项任务中均取得了更高的成功率。
-
例如,VILA模型在室内场景的配置、上下文和兼容性任务上的成功率分别从54.7%、18.3%和56.3%提高到71.4%、45.9%和77.2%。
-
- 跨数据集泛化能力:
-
评估了模型在不同场景类型(如室内和桌面)之间的泛化能力。
-
结果显示,经过ROBOSPATIAL训练的模型在未见过的场景类型上也能保持良好的性能。
-
例如,当在室内场景上训练并在桌面场景上测试时,RoboPoint模型的成功率从38.7%提高到48.9%。
-
-
领域外评估:
-
在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。
-
结果显示,ROBOSPATIAL训练的模型在这些基准上也表现出色。
-
例如,在Blink-Spatial基准上,经过ROBOSPATIAL训练的SpaceLLaVA模型在多项任务上的成功率显著提高。
-
-
对细微视角的理解:
-
模型在理解细微视角方面表现出色。经过ROBOSPATIAL训练的模型能够更好地推断出问题中的参考框架。
-
例如,在ROBOSPATIAL-Home数据集上,模型能够正确理解“在床头柜前面”的问题。
-
-
3D VLMs的表现:
-
3D VLMs在处理空间关系方面显示出一定的优势,尤其是在涉及深度信息的任务中。
-
例如,LEO模型在室内场景的配置、上下文和兼容性任务上的成功率分别从56.1%、11.3%和58.3%提高到80.2%、56.7%和82.5%。
-
真实机器人实验
- 实验设计:
-
设计了一系列需要空间推理和物体操作的机器人任务。实验使用了多种形状、颜色和日常物品,目的是使对象识别尽可能简单且无歧义。
-
对于每个场景配置,实验包括两个是/否问题,随后是一个拾取和放置问题。拾取和放置被视为独立的任务进行评估。
-
使用Kinova Jaco机器人和ZED2相机进行RGB-D感知。机器人系统使用cuRobo进行无碰撞运动规划。
-
- 模型评估:
-
评估了多个VLMs的表现,包括LLaVA-NeXT、RoboPoint、Molmo和GPT-4o。实验比较了经过ROBOSPATIAL训练的模型与未经过训练的基线模型。
-
结果显示,经过ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够更好地理解和应用空间推理能力。
-
- 实验结果:
-
经过ROBOSPATIAL训练的模型在大多数情况下表现优于基线模型。例如,在“放在小马前面”任务中,只有经过ROBOSPATIAL训练的模型能够正确预测位置。
-
在“放在橙汁盒前面”任务中,经过训练的模型能够识别出相对于对象大小的适当距离来放置物体,而未经过训练的RoboPoint模型的预测点距离太远,难以正确放置物体。
-
总结
论文介绍了ROBOSPATIAL和ROBOSPATIAL-Home,一个大规模的空间理解训练和评估数据集,专为机器人应用设计。
实验结果表明,ROBOSPATIAL训练的模型在空间理解方面表现优异,能够泛化到未见过的空间关系,并在真实机器人实验中展现出实际应用能力。