具身导航如何利用取之不尽的网络视频资源!RoomTour3D:基于几何感知的视频-指令训练调优

  • 作者:Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev

  • 单位:穆罕默德·本·扎耶德人工智能大学计算机视觉系,中山大学深圳校区,悉尼科技大学ReLER实验室,中国科学技术大学

  • 论文链接:RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation (https://arxiv.org/pdf/2412.08591)

  • 项目主页:https://roomtour3d.github.io/

  • 代码链接:https://github.com/roomtour3d/roomtour3d-NaviLLM

主要贡献

图片

  • 提出了RoomTour3D,从网络上的房间观游视频中提取的视频指令数据集,通过捕捉现实世界中的室内空间和人类行走演示,提供了大规模、多样化的训练数据。

  • 设计了自动化的流程来从视频中提取几何感知的导航指令,结合3D重建技术来获取房间的几何信息,并使用大模型(如GPT-4)来生成详细的导航指令。

  • 通过广泛的实验和消融研究,展示了RoomTour3D数据集在多个视觉语言导航任务中的有效性,特别是在CVDN、SOON、R2R和REVERIE任务中取得了新的最佳结果。

  • 介绍了基于RoomTour3D数据集的zero-shot导航智能体,在开放世界导航中展示出潜力,展示了在复杂现实场景中实现通用导航能力的挑战和机遇。

研究背景

研究问题

现有的视觉语言导航(Vision-and-Language Navigation, VLN)数据集主要依赖于手动设计的模拟器和标注轨迹,缺乏场景多样性和真实世界的复杂性。

论文主要解决的问题是突破VLN模型在训练数据多样性和规模上的限制。

研究难点

该问题的研究难点包括:

  • 如何利用在线视频的规模和多样性生成开放式的行走轨迹和导航指令;

  • 如何在在线视频中补充导航数据;

  • 如何在不依赖模板指令的情况下进行路径标注。

相关工作

  1. 视觉语言导航

    • 研究重点在于让机器人或智能体能够理解自然语言指令并在未见过的室内环境中进行导航。

    • 已经探索了多种场景,包括基于细粒度指令跟随(如R2R)、基于对话的导航(如CVDN)、从指令中进行对象定位(如SOON和REVERIE),以及通过主动3D探索进行具身问答(如Embodied Question Answering)。

  2. 以数据为中心的VLN方法

    • 由于VLN训练数据的稀缺性,研究者们提出了多种方法来增强数据集的多样性和可扩展性,包括数据增强、在模拟环境中进行自我探索、使用Web图像-字幕对进行预训练,以及自动数据生成等。

    • AirBERT、ScaleVLN、PanoGen和YTB-VLN等现有方法在扩展性和真实世界泛化方面具有局限性。

  3. zero-shot导航

    • zero-shot VLN旨在消除对环境和指令的先验知识,以减少环境偏差并提高模型的泛化能力。

    • 闭源模型方法利用先进的LLMs和强大的框架来实现无缝解决方案,而开源通过使用语言作为主要感知空间或引入参数高效的训练来允许LLMs自主推理和行动。

RoomTour3D

图片

介绍了RoomTour3D数据集的自动化数据处理流程。

描述加持的轨迹

  • 生成开放式的轨迹描述,通过从视频中均匀采样帧来生成人类行走轨迹。

  • 使用专家模型(如BLIP-2、RAM、Grounding-DINO和Depth-Anything)来收集关于物体种类、空间位置和深度测量的信息。

  • 将这些信息整合到GPT-4中,生成详细且连贯的轨迹描述,以增强对象多样性和空间感知。

动作加持的轨迹

  • 使用COLMAP进行3D重建,以获取轨迹内的几何信息。

  • 通过在视频中采样帧来增强导航动作的多样性,特别是在视点变化显著的点上进行采样。

  • 识别不同的行走路径,并选择最近的帧作为正样本候选,以增强导航动作的多样性。

3D环境重建

  • 通过COLMAP对视频片段进行结构从运动(SfM)和多视图立体视觉处理,以重建室内场景的3D布局。

  • 使用深度优先搜索(DFS)合并相邻视频片段的重构模型,以创建统一的3D表示。

房间位置标注

  • 使用BLIP-2来确定每个帧相对于房间类别的相机位置。

  • 通过分析视频中的房间类型来增强轨迹描述的上下文信息。

VLN模型

图片

NaviLLM回顾

  • NaviLLM是基于大模型(LLM)的SOTA具身导航智能体,在CVDN和SOON等测试基准上表现优异。详情请参考CVPR-2024 | 具身导航模型大一统!NaviLLM:学习迈向具身导航的通用模型。

  • NaviLLM通过编码环境视图并与导航指令结合来处理全景输入。模型在每个导航步骤中接收指令和候选视图,并选择合适的视图进行下一步导航。

基于Summarization的预训练

  • 为了充分利用视频所具有的丰富信息和顺序特性,提升对未来规划的效能,论文预训练NaviLLM模型使其适应于基于RoomTour3D数据集描述加持轨迹的总结任务。

  • 每个帧被视为候选视图,并使用GPT-4生成包含目标导航进度和房间位置的轨迹总结。

基于导航的微调

  • 为了使模型能够从可扩展的场景中学习导航决策,论文微调NaviLLM使其适应于使用RoomTour3D的动作加持的轨迹。

  • 每个视频序列中的帧被视为潜在的可导航动作,并使用GPT-4处理输入以预测下一步动作。

  • 在微调过程中,模型使用历史观察和导航指令来迭代预测下一步动作,并在最后一步总结导航路径。

实验设置

数据集

  • 在预训练阶段,使用RoomTour3D数据集与其他数据集(如CVDN、SOON、R2R、REVERIE和ScanQA)的组合进行teacher-forcing训练。

  • 在多任务微调阶段,在RoomTour3D的动作指令数据集与其他数据集(如CVDN、SOON、R2R、REVERIE、ScanQA和LLaVA-23k)的组合上进行交替的teacher-forcing和student-forcing训练。

数据集与评估方法

  • 实验在CVDN、SOON、R2R和REVERIE数据集上进行,

  • 使用成功率(SR)、路径长度加权的成功率(SPL)和目标进度(GP)等指标进行评估。

结果与分析

监督任务比较

图片

  • 论文在四个任务上进行了单次微调,展示了多任务训练的优势。

  • 使用RoomTour3D数据集进行预训练和微调后,模型在所有指标上均有所提升,特别是在CVDN的GP指标、SOON、R2R和REVERIE任务上达到了新的最佳结果。

  • 在R2R和REVERIE任务中,模型在Val-U和Test数据集上均有显著提升,分别提高了约5.7%和6%。这主要是由于增强的空间感知和对象多样性。

zero-shot任务比较

  • 移除所有动作和几何数据,重新训练NaviLLM以验证RoomTour3D数据集的效果。

  • 结果显示,使用动作加持轨迹的模型在SR和SPL上表现优异,超过了其他开源模型,并接近商业闭源模型的表现。

消融实验

图片

  • 对象多样性:通过在描述中加入对象标签,发现这在某些任务(如REVERIE)中显著提高了性能,因为这些任务依赖于对象定位。 对于仅依赖文本描述的任务(如SOON),对象多样性没有直接影响。

  • 深度估计:引入了深度估计来帮助确定对象之间的相对距离。这有助于提高模型在SOON、R2R和REVERIE等任务中的性能,因为它增强了模型的空间感知能力。

  • 房间位置:将房间位置信息纳入指令生成中,以捕捉轨迹中的场景语义。这种信息在所有VLN任务中都提供了一定的性能提升,因为它帮助模型更好地理解环境的整体布局。

  • 动作指令数据:测试了将视频动作指令数据纳入训练数据集的效果。结果表明,这种数据增强了模型在SPL指标上的表现,因为它帮助模型更好地对齐动作和观察变化之间的关系。

数据正确性校验

  • 论文手动评估了100个随机采样的轨迹描述,使用4点相关性量表进行评分:1表示“完全不相关”,2表示“部分相关”,3表示“大部分相关”,4表示“完美匹配”。

  • 结果显示平均评分为3.08,其中74%的描述被评为“大部分相关”或“完美匹配”。

  • 表明自动生成的描述在视觉上与实际场景高度一致,具有较高的相关性。

导航案例可视化

图片

  • 展示了RoomTour3D数据集在提高模型对动作指令的遵循能力方面的效果。

  • 具体来说,模型能够正确选择左转,而基线方法错误地选择了右转,导致偏离预定路径。

  • 突显了数据对齐在提高模型遵循动作指令方面的有效性。

总结

论文提出了RoomTour3D,从房间观游视频中自动生成的视频指令数据集。通过利用视频数据的丰富性和连续性,结合对象种类和空间感知,生成了20万条导航指令和1.7万条动作增强轨迹。

实验结果表明,RoomTour3D显著提高了多个VLN任务的表现,并实现了可训练的zero-shot导航智能体,展示了其在推进VLN研究方面的有效性和可扩展性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2630.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决报错:未定义标识符 “M_PI“

问题&#xff1a; 使用C编译&#xff0c;已经用#include <cmath>包含了头文件&#xff0c;但是在使用M_PI时依旧报错说未定义 原因&#xff1a; 在某些编译器中&#xff0c;<cmath> 库中的 M_PI 是一个条件宏&#xff0c;需要 _USE_MATH_DEFINES 宏被定义才能使用。…

TensorFlow深度学习实战(5)——神经网络性能优化技术详解

TensorFlow深度学习实战&#xff08;5&#xff09;——神经网络性能优化技术详解 0. 前言1. 识别 MNIST 手写数字1.1 MNIST 数据集1.2 独热编码1.3 定义神经网络1.4 训练神经网络 2. 构建深度神经网络3. 添加 Dropout 提高模型泛化能力4. 不同优化器对模型性能的影响5. 训练 ep…

代码随想录算法训练营day31

代码随想录算法训练营 —day31 文章目录 代码随想录算法训练营前言一、 56. 合并区间二、738. 单调递增的数字三、968.监控二叉树总结 前言 今天是算法营的第31天&#xff0c;希望自己能够坚持下来&#xff01; 今日任务&#xff1a; ● 56. 合并区间 ● 738.单调递增的数字 …

通过maven命令上传jar包至nexus v3.7.1

1 nexus和maven的简介 1.1 nexus ‌Nexus‌是由Sonatype公司开发的一款强大的制品仓库管理软件&#xff0c;主要用于搭建和管理各种类型的仓库&#xff0c;包括Maven、NuGet、npm等。Nexus支持多种仓库类型&#xff0c;如代理仓库&#xff08;代理互联网中的中央仓库&#xf…

level(三) filterblock

filterblock用于确定某个key是否存在于某个datablock中&#xff0c;在插入一个key到datablock中时也会插入一个key到filterblock中&#xff0c;filterblock中会记录所有的key&#xff0c;并通过布隆过滤器来确定一个key是否存于这个datablock中。下面来看下filterblock的代码&a…

优化 Vue项目中 app.js 文件过大,初始化加载过慢、带宽占用过大等问题

已亲测&#xff0c;绝对有效&#xff0c;底部有改善前后对比图证明。 1.服务器 nginx 增加配置 #开启gzip压缩 gzip on; #设置gzip压缩级别&#xff0c;2级是性价比最高的 gzip_comp_level 2; #设置动态gzip压缩的文件类型 gzip_types text/plain text/css text/javascript a…

浅谈云计算16 | 存储虚拟化技术

存储虚拟化技术 一、块级存储虚拟化基础2.1 LUN 解析2.1.1 LUN 概念阐释2.1.2 LUN 功能特性 2.2 Thick LUN与Thin LUN2.2.1 Thick LUN特性剖析2.2.2 Thin LUN特性剖析 三、块级存储虚拟化技术实现3.1 基于主机的实现方式3.1.1 原理阐述3.1.2 优缺点评估 3.2 基于存储设备的实现…

手摸手实战前端项目CI CD

由于图片和格式解析问题&#xff0c;为了更好阅读体验可前往 阅读原文 CI/CD 是 持续集成&#xff08;Continuous Integration&#xff09; 和 持续交付/部署&#xff08;Continuous Delivery/Continuous Deployment&#xff09; 的缩写&#xff0c;是现代软件开发中的一种自动…

【EI 会议征稿通知】第七届机器人与智能制造技术国际会议 (ISRIMT 2025)

第七届机器人与智能制造技术国际会议 (ISRIMT 2025) 2025 7th International Symposium on Robotics & Intelligent Manufacturing Technology 会议主要围绕“机器人”、“智能制造技术” 等研究领域展开讨论&#xff0c;旨在为机器人与智能制造技术等领域的专家学者、工…

【Linux】信号

目录 一、信号的概念二、信号的产生2.1 通过键盘进行信号的产生2.2 通过系统调用进行信号的产生2.2.1 kill函数2.2.2 raise函数2.2.3 abort函数 2.3 通过异常的方式进行信号的产生2.4 通过软件条件的方式进行信号的产生2.4.1 关闭管道读端2.4.2 alarm函数 2.5 Core Dump&#x…

基于go语言的驾考系统设计与实现

在Internet时代&#xff0c;Internet信息技术已广泛应用于各个领域。 对人们的生活以及学习产生了较大的影响。通过信息技术建立的驾照考试管理系统&#xff0c;利用系统对驾照考试进行统一的管理&#xff0c;能够提驾照考试管理的工作效率&#xff0c;具有重要的现实意义。 本…

鸿蒙打包发布

HarmonyOS应用/元服务发布&#xff08;打包发布&#xff09; https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V13/ide-publish-app-V13?catalogVersionV13 密钥&#xff1a;包含非对称加密中使用的公钥和私钥&#xff0c;存储在密钥库文件中&#xff0c;格式…

基于Linux系统指令使用详细解析

一 Linux系统常用操作命令编辑快捷 1.1终端快捷键&#xff1a; Ctrl a/Home 切换到命令行开始 Ctrl e/End 切换到命令行末尾 Ctrl l 清除屏幕内容&#xff0c;效果等同于 clear Ctrl u 清除剪切光标之前的内容 Ctrl k 剪切清除光标之后的内容 Ctrl y 粘贴刚才所删…

深度学习-87-大模型训练之预训练和微调所用的数据样式

文章目录 1 大模型训练的阶段1.1 预训练1.1.1 全量预训练1.1.2 二次预训练1.2 微调2 预训练需要的数据2.1 清洗成的文本文档2.2 如何从文本文档学习2.3 常见预训练中文语料库3 微调需要的数据3.1 微调例子一:电商客服场景3.2 微调例子二:行政咨询场景3.3 微调数据长什么样3.3…

基于 STM32 的多功能时间管理器项目

引言 在快节奏的生活中&#xff0c;时间管理显得尤为重要。本项目旨在通过 STM32 开发一个多功能时间管理器&#xff0c;功能包括计时器、闹钟和日历。用户可以方便地设置不同的提醒和计时任务&#xff0c;以更好地管理日常生活和工作。 项目名称 多功能时间管理器 环境准备 …

麦田物语学习笔记:代码链接UI实现时间日期对应转换

基本流程 时间系统UI如下 本篇文章将UI和TimeManager里的数据联系在一起, 1.代码思路 (1)新建TimeUI.cs挂载在GameTime物体上,然后获取它的子物体这些组件来改变里面的数值,所以需要获得Day & Night的子物体Image中的Rect Transform,用于旋转季节的图标;获得Clock每个子物…

HTML文章翻页功能

效果展示&#xff1a; 效果原理&#xff1a; 1、引入CDN 2、绘制文章翻页样式&#xff0c;以及自动分段 3、获取窗口宽高&#xff0c;计算出当前文章总分段&#xff0c;并实现分页 4、完整代码 <!DOCTYPE html> <html><head><meta charset"utf-8&qu…

深度学习电影推荐-CNN算法

文章目录 前言视频演示效果1.数据集环境配置安装教程与资源说明1.1 ML-1M 数据集概述1.1.1数据集内容1.1.2. 数据集规模1.1.3. 数据特点1.1.4. 文件格式1.1.5. 应用场景 2.模型架构3.推荐实现3.1 用户数据3.2 电影数据3.3 评分数据3.4 数据预处理3.5实现数据预处理3.6 加载数据…

代理模式实现

一、概念&#xff1a;代理模式属于结构型设计模式。客户端不能直接访问一个对象&#xff0c;可以通过代理的第三者来间接访问该对象&#xff0c;代理对象控制着对于原对象的访问&#xff0c;并允许在客户端访问对象的前后进行一些扩展和处理&#xff1b;这种设置模式称为代理模…

2024年11月架构设计师综合知识真题回顾,附参考答案、解析及所涉知识点(一)

软考高级系统架构设计师考试包含三个科目&#xff1a;信息系统综合知识、系统架构设计案例分析和系统架构设计论文。考试形式为机考。本文主要回顾2024年下半年(2024-11-10)系统架构设计师考试上午综合知识科目的选择题&#xff0c;同时附带参考答案、解析和所涉知识点。 由于机…