IJCAI-2024 | 具身导航的花样Prompts!VLN-MP:利用多模态Prompts增强视觉语言导航能力

  • 作者: Haodong Hong1,2 , Sen Wang1∗ , Zi Huang1 , Qi Wu3 and Jiajun Liu2,1

  • 单位:昆士兰大学,澳大利亚科学与工业研究组织,阿德莱德大学

  • 论文标题:Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts

  • 论文链接:https://arxiv.org/pdf/2406.02208

  • 代码链接:https://github.com/honghd16/VLN-MP

主要贡献

  • 论文引入了VLN-MP任务,借助视觉与语言Prompts的融合来提升导航性能,弥补了现有VLN任务仅凭文本指令的不足。

  • 多模态Prompts设置方面,设计了三种不同的图像Prompts配置——Aligned、Related和Terminal,以契合多样化的导航场景,从而增强了模型的适应性和灵活性。

  • 构建了一个全新的VLN-MP测试基准,涵盖数据生成流程、四个新数据集以及一个创新的MPF模块,有力推动了VLN-MP研究的深入发展。

  • 利用ControlNet生成了新的多模态指令数据,增强了数据集的多样性和模型的泛化能力。

  • 在R2R、RxR、REVERIE、CVDN四个VLN基准数据集上开展了广泛实验,充分证明了在多模态Prompts助力下导航性能的显著提升。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)任务中结合自然语言和图像指令Prompts,以解决现有VLN任务主要依赖文本指令导致的歧义性和知识迁移限制问题。

研究难点:

该问题的研究难点包括:

  • 如何处理不同数量的图像Prompts以及这些Prompts与文本的相关性;

  • 如何在保持向后兼容性的同时,提升导航性能;

  • 如何有效地将多模态指令与现有的VLN模型集成。

相关工作:

  • 视觉语言导航
    • VLN任务要求智能体在模拟环境中(如Matterport3D)根据自然语言指令导航到目标位置。

    • 自Room-to-Room (R2R)数据集引入以来,研究者们开发了许多任务和数据集来应对不同的挑战和场景。

    • 然而,这些工作都局限于仅使用文本指令,而本文提出的VLN-MP任务是第一个促进在VLN中使用多模态指令的范式。

  • VLN中的地标
    • 之前的研究强调了地标在导航中的重要性,并在导航智能体中广泛应用。地标用于构建导航图、分解指令和轨迹以及生成指令等。

    • 本文的工作与它们在两个关键方面有所不同:首先,虽然它们旨在产生新的文本指令,但本文强调多模态指令作为导航的Prompts;其次,与它们严格的地标图像质量和数量要求不同,本文的工作允许地标图像质量和数量有更广泛的范围。

  • 多模态Prompts
    • 多模态Prompts因其比单模态更高的表达能力和统一的输入接口而受到关注。

    • 尽管多模态Prompts在其他领域取得了成功,但在VLN任务中很少被研究。本文通过引入多模态Prompts,填补了这一空白,并展示了其在VLN任务中的重要性和应用潜力。

VLN-MP任务

该任务通过在导航指令中结合视觉信号和自然语言来增强传统的视觉语言导航(VLN)任务。

任务定义

  • 在传统的VLN任务中,智能体需要根据自然语言指令 导航至目标目的地,其中 是指令中的单词数。

  • 智能体在每个时间步 通过全景表示观察其周围环境,包括36个视角 ,每个视角包含RGB图像 和当前节点 的方向细节(头部朝向角度 和俯仰角度 )。

  • 智能体根据策略 决定动作 ,选择与目标节点对齐的最佳视角进行导航。

多模态指令

  • 在现实世界中,图像常作为指令的一部分,提供重要的补充信息。然而,当前的VLN任务忽略了这一点,并限制了智能体利用图像Prompts提高性能的能力。

  • 为了克服这些问题,论文提出了VLN-MP任务,通过在指令中插入图像来考虑多模态指令。假设我们为指令中的每个短语提供 张图像 ,每个短语 表示为 ,其中 表示从位置 到 的单词。

  • 通过将图像插入对应的短语旁边,文本指令 转换为多模态形式 :

  • 智能体接收 作为导航指导,其他方面与传统的VLN相同。

图像Prompts设置

  • 由于获取图像的难度不同,智能体可能接收到不同数量和质量的不同Prompts图像。为了使智能体适应这些变化,论文提出了三种不同的设置:Aligned、Related和Terminal。

  • Aligned:提供精确且丰富的Prompts,要求每张图像与短语描述的视图对齐,并且图像数量足够覆盖整个指令。

  • Related:放宽了对齐的要求,只要求图像与短语相关,以促进指令理解而不需要完美对齐。

  • Terminal:仅提供一个图像,描绘目标位置周围的视图,帮助智能体定位停止位置并完成以目标为中心的任务。

测试基准

包括数据生成流程、四个新数据集以及多模态Prompts融合(MPF)模块的设计和实现。

VLN-MP 数据生成流程

  • 为了将文本指令转换为多模态形式,论文利用大型预训练模型,可以高效地应用于现有的VLN数据集,无需额外的训练。

  • 提取(Extraction):首先从指令中提取地标短语。论文使用GPT-4模型来执行这项任务,以提高提取的准确性。

  • 检测(Detection):使用地标短语检测环境中的潜在实体。根据指令类型,选择不同的模型(如GroundingDINO或GLIP)进行零样本检测。

  • 对齐(Alignment):从多个候选图像中选择最适合每个短语的图像。对于Aligned设置,使用Kendall秩相关系数来衡量序列对齐性,并结合检测分数和边界框大小来选择最佳图像。

  • 增强(Augmentation):使用ControlNet生成基于地标图像线段的新图像,以增加数据多样性并提高模型的泛化能力。

VLN-MP 数据集

  • 论文将数据生成流程应用于四个典型的VLN数据集:R2R、RxR、REVERIE和CVDN,生成相应的多模态版数据集,分别标记为“-MP”。

  • R2R-MP:从R2R数据集中生成17,328条多模态指令,平均每个指令有4.15个地标。

  • RxR-MP:从RxR数据集中生成100,923条多模态指令,Aligned设置平均有7.17个地标。

  • REVERIE-MP:直接使用REVERIE的边界框注释生成15,410条多模态指令,每个指令包含一个视觉Prompts。

  • CVDN-MP:从CVDN中生成6,031条多模态指令,每个指令包含一个视觉Prompts和一个替代的扩展指令。

多模态Prompts融合模块(MPF)

  • 为了有效利用多模态指令,论文提出了一种新的MPF模块。该模块包括一个视觉分支来单独处理视觉Prompts,并与处理语言Prompts的文本分支并行。

  • 视觉Prompts首先通过图像编码器提取特征,然后与文本token合并,进一步整合多层Transformer以合成最终的多模态指令。

  • 该模块的关键在于两次应用位置编码:第一次用于分别标记图像和文本的序列,第二次用于匹配这两种类型的token,确保模型能够识别短语及其对应图像之间的关系。

实验设置

数据集

  • 实验在四个VLN-MP数据集上进行:R2R-MP、RxR-MP、REVERIE-MP和CVDN-MP。这些数据集是从原始VLN数据集中生成的,包含文本和视觉Prompts。

  • 原始数据集分为四个部分:train、val-seen、val-unseen和test-unseen。

  • 由于test-unseen的真实路径未发布,多模态版本只包含前三者用于训练和评估。

基线模型

  • 使用HAMT和DUET作为基线模型,这两种模型是VLN任务中的主流架构。

  • HAMT使用Transformer网络编码指令、视觉观察和历史信息进行动作预测。

  • DUET在HAMT的基础上扩展,通过构建实时拓扑图实现全局动作决策。

评估指标

  • 成功率(Success Rate, SR):智能体在目标3米内停止的比例。

  • 路径长度加权成功率(Success rate weighted by Path Length, SPL):SR通过最短路径与预测路径长度的比率进行归一化。

  • 归一化动态时间规整(normalized Dynamic Time Warping, nDTW):通过计算参考路径与预测路径之间的相似性来衡量指令一致性。

  • 目标进度(Goal Progress, GP):用于CVDN,测量完成轨迹长度与到目标的剩余距离之间的平均差异。

实现细节

  • 使用OpenAI的GPT-4和GLIP-L及GroundingDINO-T模型进行地标检测。

  • 对于非英语语言,使用Google翻译服务将其翻译成英语。

  • 每个视觉Prompts生成五个新图像进行数据增强。

结果与分析

数据集评估

  1. 短语评估

    • 论文比较了从R2R-MP提取的短语与Marky-mT5和GELR2R数据集的短语。

    • 主要使用Fuzzy Matching和ROGUE-L评分方法来评估短语的相似性。

    • 结果显示,R2R-MP的短语与GELR2R数据集的相似性很高,特别是在模糊匹配中达到了95%的精确率,表明其短语提取的有效性。

  2. 图像评估

    • 论文使用CLIP模型来评估RxR-MP数据集中的图像与地标短语的对齐情况。

    • 结果显示,RxR-MP的平均得分高于Marky-mT5,表明其图像与地标短语的对齐更准确。

    • 进一步分析表明,RxR-MP的图像在大多数情况下更受青睐,显示出更强的对齐效果。

  3. 视角匹配

    • 论文计算了R2R-MP中地标图像的视角匹配准确率,并与GELR2R的地面真实数据进行比较。

    • 结果显示,R2R-MP中有近70%的地标短语正确识别了对应的视角,且91%的视角相邻,表明方法的优越性。

导航表现

  1. RxR-MP数据集

    • 表格展示了不同模型在RxR-MP数据集上的导航性能。

    • HAMT+MPF模型在引入多模态Prompts后,性能显著提升,尤其是在seen场景中。

    • 结果表明,模型在适应不同的视觉Prompts方面表现良好,并且在增加视觉Prompts的数量和相关性时,性能有所提高。

  2. CVDN-MP数据集

    • 论文研究了在提供必要信息的视觉Prompts情况下的导航情况。

    • 结果显示,使用多模态Prompts的模型在目标进度(GP)指标上表现更好,表明视觉Prompts在目标导向任务中的重要性。

    • 结果还显示,视觉Prompts比单一模态Prompts更直观有效。

消融实验

  1. 增强数据比例

    • 评估了ControlNet生成的增强数据与原始数据的比例对性能的影响。

    • 结果显示,随着增强数据比例的增加,seen场景的性能逐渐下降,但在unseen场景中,性能先提高后下降。

    • 这表明适量的增强数据可以减少过拟合并提高对新环境的适应性,但过多的增强数据可能导致Prompts与观察之间的差异,从而混淆智能体。

  2. 位置编码

    • 研究了不同位置编码对MPF模块性能的影响。结果显示,视觉位置编码(VPE)和多模态位置编码(MPE)都有助于处理多模态指令。

    • 结合这两种位置编码可以获得最佳性能,支持它们在模型中的作用。

预探索设置

  • 研究了在预探索设置下,智能体在熟悉环境后再进行导航的情况。

  • 结果表明,VLN-MP允许现有模型在这种设置下应用,并且在不增加额外训练的情况下提高性能。

  • 结果显示,预探索设置显著提高了RxR数据集中的导航性能,尤其是在seen和unseen场景中,成功率(SR)分别提高了6.9%和2.5%。

总结

本文提出了VLN-MP任务,通过将视觉Prompts集成到文本指令中,增强了智能体的导航能力。VLN-MP不仅保持了向后兼容性,还展示了在不同数量的视觉Prompts和相关性下的适应性。

建立了第一个VLN-MP基准,包括将文本指令转换为多模态形式的流程、四个不同下游任务的数据集和高效处理多模态指令的新颖MPF模块。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/4323.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【蓝桥杯选拔赛真题62】C++求和 第十四届蓝桥杯青少年创意编程大赛 算法思维 C++编程选拔赛真题解

目录 C++求和 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、运行结果 五、考点分析 七、推荐资料 C++求和 第十四届蓝桥杯青少年创意编程大赛C++选拔赛真题 一、题目要求 1、编程实现 给定一个正整数N(1<N<10^6),求出N左右相邻两个…

智能创造的幕后推手:AIGC浪潮下看AI训练师如何塑造智能未来

文章目录 一、AIGC时代的算法与模型训练概览二、算法与模型训练的关键环节三、AI训练师的角色与职责四、AI训练师的专业技能与素养五、AIGC算法与模型训练的未来展望《AI训练师手册&#xff1a;算法与模型训练从入门到精通》亮点内容简介作者简介谷建阳 目录 《AI智能化办公&am…

Cloud Foundry,K8S,Mesos Marathon弹性扩缩容特性对比

一、Cloud Foundry 使用Scaling an Application Using App Autoscaler插件&#xff0c;基于资源使用情况触发简单扩缩容 CPU、内存、Http带宽、延时等 监控这些资源的使用情况决定扩缩容策略&#xff1a;实例是增加还是减少 Instance Limits 限制实例数量范围&#xff0c;定义…

ComfyUI 矩阵测试指南:用三种方法,速优项目效果

在ComfyUI中&#xff0c;矩阵测试也叫xyz图表测试&#xff0c;作用是通过控制变量的方式来对Lora模型以及各种参数开展测试&#xff0c;并进行有效区分。其中测试方法有很多种&#xff0c;可以通过借助插件也可以自行搭建工作流实现&#xff0c;下面介绍3种方式&#xff1a; 1…

什么宠物最好养?

在忙碌的生活中&#xff0c;想要拥有一份陪伴&#xff0c;却又担心没时间打理&#xff1f;别怕&#xff0c;今天就来给大家揭秘&#xff0c;什么宠物最好养&#xff0c;让你轻松开启养宠生活&#xff0c;即使再忙也能享受毛孩子带来的快乐&#xff01; 一、仓鼠&#xff1a;萌…

mfc操作json示例

首先下载cJSON,加入项目; 构建工程,如果出现, fatal error C1010: unexpected end of file while looking for precompiled head 在cJSON.c文件的头部加入#include "stdafx.h"; 看情况,可能是加到.h或者是.cpp文件的头部,它如果有包含头文件, #include &…

将IDLE里面python环境pyqt5配置的vscode

首先安装pyqt5全套&#xff1a;pip install pyqt5-tools 打开Vscode&#xff1a; 安装第三方扩展&#xff1a;PYQT Integration 成功配置designer.exe的路径【个人安装pyqt5的执行路径】&#xff0c;便可直接打开UI文件&#xff0c;进行编辑。 配置pyuic,如果下图填写方法使用…

郑州大学2022级大三期末复习总结(数据库,传感器,嵌入式,人工智能,移动终端开发,计算机英语)

本人是郑州大学2022级的一名大三学生&#xff0c;上学期期末苦于没有复习资料硬学了三周&#xff0c;所以想着将脑海里还残留着的各个课程的知识点&#xff0c;考点记录下来。这些资料不能保证你考高分&#xff0c;只能给你提供一些复习的方向和可能高频的知识点。 有些地方的…

基于ESP32+VUE+JAVA+Ngnix的一个小型固件编译系统

一、前提 开发ESP32固件时&#xff0c;使用本地环境输出固件时&#xff0c;存在多个开发多种开发平台的问题。会导致最终输出的固件不统一。更可能因为本地的开发环境差异导致固件无法追溯。 基于上述原因&#xff0c;开发了一个小型的固件编译系统。将该系统部署在一台ubutn…

Spring自定义BeanPostProcessor实现bean的代理Java动态代理知识

上文&#xff1a;https://blog.csdn.net/qq_26437925/article/details/145241149 中大致了解了spring aop的代理的实现&#xff0c;其实就是有个BeanPostProcessor代理了bean对象。顺便复习下java代理相关知识 目录 自定义BeanPostProcessor实现aopJava动态代理知识动态代理的几…

KubeSphere部署安装,接入KubeKey安装的k8s集群

KubeSphere安装接入KubeKey安装的k8s集群 文章目录 KubeSphere安装接入KubeKey安装的k8s集群 一.NFS安装配置1.服务器安装NFS服务2.下载并部署 NFS Subdir External Provisioner1).下载部署文件2).创建 NameSpace3).创建 RBAC 资源4).配置 deployment.yaml5).部署 Storage Clas…

redis性能优化参考——筑梦之路

基准性能测试 redis响应延迟耗时多长判定为慢&#xff1f; 比如机器硬件配置比较差&#xff0c;响应延迟10毫秒&#xff0c;就认为是慢&#xff0c;机器硬件配置比较高&#xff0c;响应延迟0.5毫秒&#xff0c;就认为是慢。这个没有固定的标准&#xff0c;只有了解了你的 Red…

财务RPA就是财务机器人吗?有什么作用

近年来&#xff0c;财务RPA&#xff08;机器人流程自动化&#xff09;逐渐成为财务领域的热门话题。很多人初次听到“财务RPA”时&#xff0c;可能会疑惑&#xff1a;财务RPA是不是财务机器人&#xff1f;它到底能做什么&#xff1f;带着这些问题&#xff0c;我们一起来探讨财务…

RabbitMQ---事务及消息分发

&#xff08;一&#xff09;事务 RabbitMQ是基于AMQP协议实现的&#xff0c;该协议实现了事务机制&#xff0c;所以RabbitMQ也支持事务机制&#xff0c;他的事务允许开发者确保消息的发送和接收时原子性的&#xff0c;要么全部成功&#xff0c;要么全部失败 我们设置事务有三步…

Django简介与虚拟环境安装Django

目录 1.Django简介 1.1 Django 的核心特点 1.2 Django 的核心组件 1.3 Django 的应用场景 1.4 总结 2.基础环境建立 2.1 创建虚拟环境 2.1.1 使用 virtualenv 创建虚拟环境 2.1.2 使用 venv 创建虚拟环境 2.2 激活虚拟环境 2.2.1 在 Windows 上 2.2.2 在 macOS 或 …

计算机毕业设计PySpark+Hadoop+Hive机票预测 飞机票航班数据分析可视化大屏 航班预测系统 机票爬虫 飞机票推荐系统 大数据毕业设计

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

vue+高德API搭建前端3D交通页面

1. 模板部分 (<template>) <template><div class"content"><div><div id"container"></div></div></div> </template> 功能&#xff1a;定义了组件的HTML结构。分析&#xff1a; div.content 是最…

第十三章:数据库技术

文章目录&#xff1a; 一&#xff1a;基础 1.概念 2.特点 3.常见数据库品牌 4.数据库应⽤系统 4.1 C/S 4.2 B/S 5.数据模型的分类 6.名词解析 7.关系运算 二&#xff1a;Access 1.基础 2.操作 2.1 建立表 2.2 维护表 2.3 创建查询 2.4 创建窗体 2.5 创建报表…

《汽车维护与修理》是什么级别的期刊?是正规期刊吗?能评职称吗?

​问题解答&#xff1a; 问&#xff1a;《汽车维护与修理》是不是核心期刊&#xff1f; 答&#xff1a;不是&#xff0c;是知网收录的正规学术期刊。 问&#xff1a;《汽车维护与修理》级别&#xff1f; 答&#xff1a;国家级。主管单位&#xff1a;中国汽车维修行业协会 …

31、【OS】【Nuttx】OSTest分析(1):stdio测试(一)

背景 接上篇wiki 30、【OS】【Nuttx】构建脚本优化&#xff0c;引入待构建项目参数 最小系统分析完后&#xff0c;下一个能够更全面了解Nuttx的Demo&#xff0c;当然选择OSTest&#xff0c;里面有大量关于OS的测试用例&#xff0c;方便对Nuttx的整体功能有个把握。 stdio_tes…