具身智能体空间感知基础!ROBOSPATIAL:评测并增强2D和3D视觉语言模型空间理解水平

  • 作者:Chan Hee Song, Valts Blukis,Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield

  • 单位:俄亥俄州立大学,NVIDIA

  • 论文标题:ROBOSPATIAL: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

  • 论文链接:https://arxiv.org/pdf/2411.16537

主要贡献

  • 论文介绍了ROBOSPATIAL数据集ROBOSPATIAL-Home基准,包括图像和3D扫描,并配有关于空间问题的问答对,包括多个参考框架、物体间空间关系、物体与空间的关系以及物体兼容性。

  • 通过在ROBOSPATIAL数据集上训练视觉语言模型(VLMs),显著增强了这些模型的空间推理能力。实验结果表明,这些模型在自然语言指定的机器人操作任务和室内场景问答任务中表现优于先前的VLMs。

  • 通过机器人实验展示了ROBOSPATIAL的实际应用效果。实验结果表明,ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够理解和应用空间推理能力。

研究背景

研究问题

现有的视觉语言模型(VLMs)在处理涉及物体间细微空间关系的问题时表现不佳,例如描述物体在另一物体上的位置或确定在特定条件下放置物品的最佳位置。

论文主要解决的问题是视觉语言模型在机器人应用中的空间理解能力不足。

研究难点

该问题的研究难点包括:

  • 现有数据集缺乏对参考系理解的捕捉,无法有效处理从第一人称视角、物体视角或世界视角的空间关系;

  • 现有VLMs在处理动态环境中的空间关系时表现有限。

相关工作

  • VLMs在机器人中的应用

    • VLMs已成为机器人系统中至关重要的工具,使系统能够解释和执行复杂的视觉和文本信息。它们通过结合视觉感知和语言理解,促进了更直观的人机交互,并增强了自主决策能力。

    • 近期的进展展示了VLMs在各种机器人应用中的潜力,例如通过视觉-语言动作模型(VLAs)来解释和执行复杂指令,以及使用GPT-4v进行高层次任务规划等。

  • 空间理解的挑战

    • 尽管VLMs在理解和生成语言方面表现出色,但在动态环境中理解和推理空间关系仍然存在限制。这种能力对于机器人导航和操作至关重要。

    • 现有的工作主要集中在模拟环境或通用图像上,缺乏对机器人应用中所需的实际空间关系的关注,如空间兼容性和上下文。

  • 空间理解的研究

    • 空间理解一直是视觉问答任务的一部分,许多基准和方法已经被提出。然而,这些方法通常存在局限性,例如专注于模拟环境、难以评估、依赖完整的3D扫描或使用可能缺乏足够准确性的LLM生成的数据。

    • 论文扩展了空间理解的应用范围,将其应用于机器人特定的上下文中,并强调了对机器人工作流(如任务规划和验证)的直接应用。

  • ROBOSPATIAL的目标

    • 论文旨在通过引入大规模的2D/3D预训练数据集和自动化数据标注流程,降低探索针对机器人应用的空间理解的门槛。

    • 作者展示了如何利用ROBOSPATIAL数据集来教授视觉语言模型进行空间推理,并在领域内和领域外的空间推理数据集上进行测试。

研究方法

  • 空间关系选择
    • 数据集围绕三个核心空间关系组织:对象配置(Object Configuration)、对象上下文(Object Context)和对象兼容性(Object Compatibility)。

    • 这些关系旨在解决机器人任务中空间推理的基本方面,帮助机器人理解对象的相对位置、评估对象与其周围空间的关系,以及判断对象是否可以在给定空间中共存或互动。

  • 数据集生成

    • 数据生成过程的目标是通过使用精心构建的启发式方法,以最小的人工干预生成高精度的空间关系数据集。

    • 输入数据集包含RGB视图、相机姿态和对象标注(文本标签和有向3D边界框),输出数据集包含图像、问题、答案和参考帧标签。

    • 数据生成过程分为两个阶段:空间关系提取和问答生成。

  • 空间关系提取

    • 在空间关系提取阶段,分析数据集以发现对象之间或自由空间中的空间关系。

    • 每个空间关系由图像、锚对象、目标对象或目标自由空间点、大小测量、空间关系介词和参考帧标签组成。

    • 使用有向3D边界框标注自动生成空间关系。通过分析3D边界框的方向和位置信息,自动提取对象之间的空间关系。

  • 问答生成

    • 基于生成的关系,构建三种类型的问答对:空间配置、空间上下文和空间兼容性。

    • 为了确保模型通过视觉而非语言进行推理,问题和答案采用模板化结构,避免歧义。

    • 通过生成平衡的数据集,避免模型偏差,并使用2D边界框创建辅助的对象指代数据集,以教授模型识别对象。

实验设置

  • 实现细节

    • 实验将数据生成过程应用于三个场景数据集和两个桌面数据集,包括ScanNet、Matterport3D、3RScan、HOPE和GraspNet-1B。

    • 这些数据集提供了多样化的室内场景和桌面环境,覆盖了大物体和小物体的导航和操作。

    • 选择了多种2D和3D视觉语言模型(VLMs)进行评估,包括VILA、LLaVA-NeXT、SpaceLLaVA、RoboPoint、3D-LLM、LEO、Molmo和GPT-4o等模型。

  • 空间理解评估

    • 通过回答测试集中的3000个问题(每种空间关系1000个问题)来评估模型。

    • 这些问题包括二元(是/否)问题和需要数值响应的问题。评估指标包括正确回答的成功率和数值答案的准确性。

  • 跨数据集泛化评估

    • 通过在不同场景类型(室内和桌面)上进行训练和测试,评估模型的泛化能力。

  • 领域外评估

    • 在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。

    • ROBOSPATIAL-Home是一个手动标注的室内场景数据集,用于测试模型在真实生活杂乱场景中的泛化能力。

    • Blink-Spatial是一个视觉推理基准,用于评估模型在未见过的空间关系上的泛化能力。

结果与分析

  • 模型性能提升
    • 经过ROBOSPATIAL训练的模型在空间推理任务中表现出显著的性能提升。

    • 与未经过ROBOSPATIAL训练的基线模型相比,训练后的模型在各项任务中均取得了更高的成功率。

    • 例如,VILA模型在室内场景的配置、上下文和兼容性任务上的成功率分别从54.7%、18.3%和56.3%提高到71.4%、45.9%和77.2%。

  • 跨数据集泛化能力
    • 评估了模型在不同场景类型(如室内和桌面)之间的泛化能力。

    • 结果显示,经过ROBOSPATIAL训练的模型在未见过的场景类型上也能保持良好的性能。

    • 例如,当在室内场景上训练并在桌面场景上测试时,RoboPoint模型的成功率从38.7%提高到48.9%。

  • 领域外评估

    • 在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。

    • 结果显示,ROBOSPATIAL训练的模型在这些基准上也表现出色。

    • 例如,在Blink-Spatial基准上,经过ROBOSPATIAL训练的SpaceLLaVA模型在多项任务上的成功率显著提高。

  • 对细微视角的理解

    • 模型在理解细微视角方面表现出色。经过ROBOSPATIAL训练的模型能够更好地推断出问题中的参考框架。

    • 例如,在ROBOSPATIAL-Home数据集上,模型能够正确理解“在床头柜前面”的问题。

  • 3D VLMs的表现

    • 3D VLMs在处理空间关系方面显示出一定的优势,尤其是在涉及深度信息的任务中。

    • 例如,LEO模型在室内场景的配置、上下文和兼容性任务上的成功率分别从56.1%、11.3%和58.3%提高到80.2%、56.7%和82.5%。

真实机器人实验

  • 实验设计
    • 设计了一系列需要空间推理和物体操作的机器人任务。实验使用了多种形状、颜色和日常物品,目的是使对象识别尽可能简单且无歧义。

    • 对于每个场景配置,实验包括两个是/否问题,随后是一个拾取和放置问题。拾取和放置被视为独立的任务进行评估。

    • 使用Kinova Jaco机器人和ZED2相机进行RGB-D感知。机器人系统使用cuRobo进行无碰撞运动规划。

  • 模型评估
    • 评估了多个VLMs的表现,包括LLaVA-NeXT、RoboPoint、Molmo和GPT-4o。实验比较了经过ROBOSPATIAL训练的模型与未经过训练的基线模型。

    • 结果显示,经过ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够更好地理解和应用空间推理能力。

  • 实验结果
    • 经过ROBOSPATIAL训练的模型在大多数情况下表现优于基线模型。例如,在“放在小马前面”任务中,只有经过ROBOSPATIAL训练的模型能够正确预测位置。

    • 在“放在橙汁盒前面”任务中,经过训练的模型能够识别出相对于对象大小的适当距离来放置物体,而未经过训练的RoboPoint模型的预测点距离太远,难以正确放置物体。

总结

论文介绍了ROBOSPATIAL和ROBOSPATIAL-Home,一个大规模的空间理解训练和评估数据集,专为机器人应用设计。

实验结果表明,ROBOSPATIAL训练的模型在空间理解方面表现优异,能够泛化到未见过的空间关系,并在真实机器人实验中展现出实际应用能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10428.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】动态内存管理

1、为什么存在动态内存分配?2、动态内存管理函数介绍(1)malloc(2)free(3)calloc(4)realloc 3、常见动态内存错误(1)使用free释放动态内存开辟的一…

实验八 JSP访问数据库

实验八 JSP访问数据库 目的: 1、熟悉JDBC的数据库访问模式。 2、掌握使用My SQL数据库的使用 实验要求: 1、通过JDBC访问mysql数据,实现增删改查功能的实现 2、要求提交实验报告,将代码和实验结果页面截图放入报告中 实验过程&a…

RabbitMQ5-死信队列

目录 死信的概念 死信的来源 死信实战 死信之TTl 死信之最大长度 死信之消息被拒 死信的概念 死信,顾名思义就是无法被消费的消息,一般来说,producer 将消息投递到 broker 或直接到queue 里了,consumer 从 queue 取出消息进…

【项目初始化】

项目初始化 使用脚手架创建项目Vite创建项目推荐拓展 使用脚手架创建项目 Vite Vite 是一个现代的前端构建工具,它提供了极速的更新和开发体验,支持多种前端框架,如 Vue、React 等创建项目 pnpm create vuelatest推荐拓展

一文读懂 Faiss:开启高维向量高效检索的大门

一、引言 在大数据与人工智能蓬勃发展的当下,高维向量数据如潮水般涌现。无论是图像、音频、文本,还是生物信息领域,都离不开高维向量来精准刻画数据特征。然而,在海量的高维向量数据中进行快速、准确的相似性搜索,却…

基于Django的Boss直聘IT岗位可视化分析系统的设计与实现

【Django】基于Django的Boss直聘IT岗位可视化分析系统的设计与实现(完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 该系统采用Python作为主要开发语言,利用Django这一高效、安全的W…

python 语音识别

目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…

栈和队列特别篇:栈和队列的经典算法问题

图均为手绘,代码基于vs2022实现 系列文章目录 数据结构初探: 顺序表 数据结构初探:链表之单链表篇 数据结构初探:链表之双向链表篇 链表特别篇:链表经典算法问题 数据结构:栈篇 数据结构:队列篇 文章目录 系列文章目录前言一.有效的括号(leetcode 20)二.用队列实现栈(leetcode…

使用 OpenResty 构建高效的动态图片水印代理服务20250127

使用 OpenResty 构建高效的动态图片水印代理服务 在当今数字化的时代,图片在各种业务场景中广泛应用。为了保护版权、统一品牌形象,动态图片水印功能显得尤为重要。然而,直接在后端服务中集成水印功能,往往会带来代码复杂度增加、…

C++并行化编程

C并行化编程 C 简介 C 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言,支持过程化编程、面向对象编程和泛型编程。 C 被认为是一种中级语言,它综合了高级语言和低级语言的特点。 C 是由 Bjarne Stroustrup 于 1979 年在新泽西州美…

Java开发vscode环境搭建

1 几个名词 JDK Java Development Kit JRE Java Runtion Environment JVM JDK 包括 Compiler,debugger,JRE等。JRE包括JVM和Runtime Library。 2 配置环境 2.1 安装JDK 类比 C/C的 g工具 官网:https://www.oracle.com/java/technologies/downloads/ 根据自己使…

pytorch基于FastText实现词嵌入

FastText 是 Facebook AI Research 提出的 改进版 Word2Vec,可以: ✅ 利用 n-grams 处理未登录词 比 Word2Vec 更快、更准确 适用于中文等形态丰富的语言 完整的 PyTorch FastText 代码(基于中文语料),包含&#xff1…

riscv xv6学习笔记

文章目录 前言util实验sleeputil实验pingpongutil实验primesxv6初始化代码分析syscall实验tracesyscall实验sysinfoxv6内存学习笔记pgtbl实验Print a page tablepgtbl实验A kernel page table per processxv6 trap学习trap实验Backtracetrap实验Alarmlazy实验Lazy allocationxv…

FFmpeg(7.1版本)编译:Ubuntu18.04交叉编译到ARM

一、本地编译与交叉编译 1.本地编译 ① 本地编译:指的是在目标系统上进行编译的过程 , 生成的可执行文件和函数库只能在目标系统中使用。 如 : 在 Ubuntu中,本地编译的可执行文件只能在Ubuntu 系统中执行 , 无法在 Windows / Mac / Android / iOS 系…

创新创业计划书|建筑垃圾资源化回收

目录 第1部分 公司概况........................................................................ 1 第2部分 产品/服务...................................................................... 3 第3部分 研究与开发.................................................…

如何利用天赋实现最大化的价值输出

这种文章,以我现在的实力很难写出来。所以需要引用一些视频。 上92高校容易吗 如果基于天赋努力,非常容易。 如果不是这样,非常非常难。 高考失败人生完蛋?复读考上交大,进入社会才发现学历只是一张纸,98…

LigerUI在MVC模式下的响应原则

LigerUI是基于jQuery的UI框架,故他也是遵守jQuery的开发模式,但是也具有其特色的侦听函数,那么当LigerUI作为View层的时候,他所发送后端的必然是表单的数据,在此我们以俩个div为例: {Layout "~/View…

【力扣】49.字母异位词分组

AC截图 题目 思路 由于互为字母异位词的两个字符串包含的字母相同,因此对两个字符串分别进行排序之后得到的字符串一定是相同的,故可以将排序之后的字符串作为哈希表的键。 可以遍历strs,将其中每一个str排序,然后用unodered_ma…

docker安装nacos2.2.4详解(含:nacos容器启动参数、环境变量、常见问题整理)

一、镜像下载 1、在线下载 在一台能连外网的linux上执行docker镜像拉取命令 docker pull nacos:2.2.4 2、离线包下载 两种方式: 方式一: -)在一台能连外网的linux上安装docker执行第一步的命令下载镜像 -)导出 # 导出镜像到…

【图床配置】PicGO+Gitee方案

【图床配置】PicGOGitee方案 文章目录 【图床配置】PicGOGitee方案为啥要用图床图床是什么配置步骤下载安装PicGoPicGo配置创建Gitee仓库Typora中的设置 为啥要用图床 在Markdown中,图片默认是以路径的形式存在的,类似这样 可以看到这是本地路径&#x…