UMass、MIT等提出3D世界具身基础模型,机器人根据生成的世界模型无缝连接3D感知、推理和行动

在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。

此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关系。

相比之下,人类在思考时会引入世界模型,可以描绘除对未来情景的想象,从而对下一步的行动进行规划。

为此,来自马萨诸塞州大学阿默斯特分校、MIT等机构的研究人员提出了3D-VLA模型,通过引入一类全新的具身基础模型(embodied foundation models),可以根据生成的世界模型无缝连接3D感知、推理和行动。

项目主页:https://vis-www.cs.umass.edu/3dvla/

论文地址:https://arxiv.org/abs/2403.09631

具体而言,3D-VLA构建在基于3D的大型语言模型(LLM)之上,并引入一组交互token来参与具身环境中。

为了将生成能力注入模型,淦创团队训练了一系列具身扩散模型,并将其对齐到LLM中以预测目标图像和点云。

为了对3D-VLA模型进行训练,通过从现有的机器人数据集中提取大量的3D相关信息来构建出一个大规模的3D具身指令数据集。

实验结果表明,3D-VLA显着提高了在具身环境中推理、多模态生成和规划的能力,展示出其在现实世界中的应用潜力。

三维具身指令调整数据集(3D Embodied Instruction Tuning Dataset)

得益于互联网上数十亿规模的数据集,VLM在各种任务中表现出了非凡的性能,百万级的视频动作数据集也为机器人控制的具身VLM奠定了基础。

但当前的数据集大多不能在机器人操作中提供深度或3D标注和精确控制,需要包含3D空间推理和交互:如果没有3D信息,机器人很难理解和执行需要3D空间推理的命令,比如「把最远的杯子放在中间的抽屉里」。

在这里插入图片描述

为了弥补这一差距,研究人员构建了一个大规模的3D指令调优数据集,该数据集提供了足够的「3D相关信息」以及「相应的文本指令」以训练模型。

研究人员设计了一个pipeline从现有的具身数据集中提取3D语言动作对,获得点云、深度图、3D边界框、机器人的7D动作和文本描述的标注。

3D-VLA基础模型

3D-VLA是一个用于在具身环境(embodied environment)中进行三维推理、目标生成和决策的世界模型。

在这里插入图片描述

首先在3D-LLM之上构建主干网络,并通过添加一系列交互token来进一步增强模型与3D世界交互的能力;再通过预训练扩散模型并使用投影来对齐LLM和扩散模型,将目标生成能力注入3D-VLA

骨干网络

在第一阶段,研究人员按照3D-LLM的方法开发3D-VLA基础模型:由于收集到的数据集没有达到从头开始训练多模态LLM所需的十亿级规模,因此需要利用多视图特征生成3D场景特征,使得视觉特征能够无缝集成到预训练VLM中,不需要自适应。

同时,3D-LLM的训练数据集主要包括对象(objects)和室内场景,与具体设置不直接一致,所以研究人员选择使用BLIP2-PlanT5XL作为预训练模型。

在训练过程中,解冻token的输入和输出嵌入,以及Q-Former的权重。

交互tokens

为了增强模型对3D场景的理解与环境中的交互,研究人员引入了一组全新的交互tokens

首先,输入中加入了object tokens,包含解析句子中的对象名词(如 a chocolate bar [loc tokens] on the table),这样模型就能更好地捕捉到被操作或提及的对象。

其次,为了更好地用语言表达空间信息,研究人员设计了一组位置token ,用 AABB 形式的六个标记来表示三维边界框。

第三,为了更好地进行动态编码,框架中引入了来包含静态场景的嵌入:通过对场景token进行组合,3D-VLA 可以理解动态场景,并管理交错三维场景和文本的输入。

通过扩展代表机器人动作的专用标记集,进一步增强了该架构。机器人的动作有 7 个自由度,用 、 和 <gripper0/1> 等离散token来表示手臂的预定绝对位置、旋转和抓手张开度,每个action由 token进行分隔。

注入目标生成能力

人类能够对场景的最终状态进行预先可视化(pre-visualize),以提升动作预测或决策的准确性,也是构建世界模型的关键方面;在初步实验中,研究人员还发现提供真实的最终状态可以增强模型的推理和规划能力。

但训练MLLM来生成图像、深度和点云并不简单:

首先,视频扩散模型并不是为具身场景量身定制的,比如Runway在生成「打开抽屉」的未来帧时,场景中会发生视图变化、对象变形、怪异的纹理替换以及布局失真等问题。

并且,如何将各种模态的扩散模型整合到一个单一的基础模型中仍然是一个难题。

所以研究人员提出的新框架,首先根据图像、深度和点云等不同形式对具体的扩散模型进行预训练,然后在对齐阶段将扩散模型的解码器对齐到3D-VLA的嵌入空间。

在这里插入图片描述

实验结果

3D-VLA是一个多功能的、基于3D的生成式世界模型,可以在3D世界中执行推理和定位、想象多模态目标内容,并为机器人操作生成动作,研究人员主要从三个方面对3D-VLA进行了评估:3D推理和定位、多模态目标生成和具身行动规划。

3D推理和定位

3D-VLA在语言推理任务上优于所有2D VLM方法,研究人员将其归因于3D信息的杠杆作用,3D信息为推理提供了更准确的空间信息。

在这里插入图片描述

此外,由于数据集中包含一组3D定位标注,3D-VLA学习定位相关对象,有助于模型更专注于关键对象进行推理。

研究人员发现3D-LLM在这些机器人推理任务中表现不佳,证明了在机器人相关的3D数据集上收集和训练的必要性。

在这里插入图片描述

并且3D-VLA在定位性能方面表现出明显优于2D基线方法,这一发现也为标注过程的有效性提供了令人信服的证据,有助于模型获得强大的3D定位能力。

多模态目标生成

与现有的零样本迁移到机器人领域的生成方法相比,3D-VLA在大多数指标方面实现了更好的性能,证实了使用「专门为机器人应用设计的数据集」来训练世界模型的重要性。

在这里插入图片描述

即使在与Instruct-P2P*的直接比较中,3D-VLA也始终性能更优,结果表明,将大型语言模型集成到3D-VLA中可以更全面、更深刻地理解机器人操作指令,从而提高目标图像生成性能。

此外,当从输入提示符中排除预测的边界框时,可以观察到性能略有下降,证实了使用中间预测边界框的有效性,可以帮助模型理解整个场景,允许模型将更多的注意力分配到给定指令中提到的特定对象,最终增强其想象最终目标图像的能力。

在这里插入图片描述

点云生成的结果对比中,具有中间预测边界框的3D-VLA性能最好,证实了在理解指令和场景的背景下结合大型语言模型和精确对象定位的重要性。

具身行动规划

3D-VLA在RLBench动作预测中的大多数任务中超过了基线模型的性能,显示了其具有规划能力。

在这里插入图片描述

值得注意的是,基线模型需要用到历史观察、对象状态和当前状态信息,而3D-VLA模型只通过开环控制执行。

在这里插入图片描述

此外,模型的泛化能力在捡杯(pick-up-cup)任务中得到了证明,3D-VLA在CALVIN中也取得了较好的结果,研究人员将这种优势归因于定位感兴趣的对象和想象目标状态的能力,为推断动作提供了丰富的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/288564.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C. Grouping Increases

Here 解题思路 两个序列&#xff0c;保持顺序对于代价的产生进行考虑当添入一个大于当前序列最后值的数&#xff0c;代价加1&#xff0c;但下次判断标准变大当添入一个小于当前序列最后值的数&#xff0c;代价不增&#xff0c;但下次判断标准变小考虑形象化描述将两个序列看作…

最优算法100例之09-数组中单独出现两次的数字

专栏主页:计算机专业基础知识总结(适用于期末复习考研刷题求职面试)系列文章https://blog.csdn.net/seeker1994/category_12585732.html 题目描述 一个整型数组里除了两个数字之外,其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。 题解报告 最优解…

为响应国家号召,搜维尔科技开启虚拟仿真实验室设备升级改造服务

近日&#xff0c;国务院发布了关于《推动大规模设备更新和消费品以旧换新行动方案》&#xff0c;该通知的发布表现出国家对于科技创新事业的高度重视。各行各业都在积极响应国家号召&#xff0c;加快数字化转型和设备升级与更新步伐。搜维尔科技为响应国家号召&#xff0c;将开…

勾八头歌之分类回归聚类

一、机器学习概述 第1关机器学习概述 B AD B BC 第2关常见分类算法 #编码方式encodingutf8from sklearn.neighbors import KNeighborsClassifierdef knn(train_data,train_label,test_data):input:train_data用来训练的数据train_label用来训练的标签test_data用来测试的数据…

iphoneX系统的参数

1. 2. 3. 4. 5.相关的网址信息 Apple iPhone X 規格、价格和评论 | Kalvo Apple iPhone X 規格、价格和评论 | Kalvo

STM32G4 TIM1触发ADC转换

STM32G4 TIM1触发ADC转换 &#x1f4cd;相关篇《HAL STM32G4 ADC手动触发采集各种滤波算法实现》&#x1f388;《HAL STM32G4 TIM1 3路PWM互补输出VOFA波形演示》&#x1f4cd;《HAL STM32G4内部运放的使用》 ✨继欧拉电子无刷电机驱动相关视频学习 – STM32G4 FOC开发实战—TI…

T1 神奇苹果桶 (25分) - 小米前端笔试编程题解

考试平台&#xff1a; 赛码 题目类型&#xff1a; 20道选择 2道编程题 考试时间&#xff1a; 2024-03-23 &#xff08;两小时&#xff09; 题目描述 小希在森林冒险的时候发现一个神奇的木桶&#xff0c;某些时会凭空出现一些苹果&#xff0c;小希很解地大家分享了这一个神奇…

【Flutter 面试题】 如何在Flutter中进行网络请求?

【Flutter 面试题】 如何在Flutter中进行网络请求&#xff1f; 文章目录 写在前面口述回答补充说明实际案例步骤 1: 添加 http 包依赖步骤 2: 创建一个简单的 UI 来展示帖子步骤 3: 发起网络请求获取帖子运行结果详细说明 写在前面 &#x1f64b; 关于我 &#xff0c;小雨青年…

如何使用Python结合Pillow、matplotlib和OpenCV实现图片读取

使用Pillow库 matplotlib是一个绘图库&#xff0c;经常用于数据可视化&#xff0c;但它也可以用来展示图片。 from PIL import Image# 读取图片 image Image.open(.jpg)# 展示图片 image.show()使用OpenCV库 OpenCV是一个强大的计算机视觉和机器学习库。它不仅提供了大量的图像…

【Selenium】隐藏元素的定位和操作|隐藏与isDisplay方法

一、selenium 中隐藏元素如何定位&#xff1f; 如果单纯的定位的话&#xff0c;隐藏元素和普通不隐藏元素定位没啥区别&#xff0c;用正常定位方法就行了 但是吧~~~能定位到并不意味着能操作元素&#xff08;如click,clear,send_keys&#xff09; 二、隐藏元素 如下图有个输入框…

Android卡顿掉帧问题分析之实战篇

本文将结合典型实战案例&#xff0c;分析常见的造成卡顿等性能问题的原因。从系统工程师的总体角度来看 &#xff0c;造成卡顿等性能问题的原因总体上大致分为三个大类&#xff1a;一类是流程执行异常&#xff1b;二是系统负载异常&#xff1b;三是编译问题引起。 1 流程执行异…

是德科技keysight 81624B功率传感器

181/2461/8938产品概述&#xff1a; 这个功率探头配有经过散热的 5mm 铟砷化镓&#xff08;InGaAs&#xff09;检波器&#xff0c;在 800-1700 nm 波长范围内的测量准确度更高。 特点 关键性能技术指标 低偏振相关性&#xff1a;0.002 dB 低频谱纹波不确定度&#xff1a;0.002…

网络链路层之(2)PPP协议

网络链路层之(2)PPP协议 Author: Once Day Date: 2024年3月27日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 漫漫长路&#xff0c;有人对你微笑过嘛… 全系列文章可参考专栏: 通信网络技术_Once-Day的博客-CSDN…

MAC使用Clion开发STM32

安装软件 CLion &#xff1a;略 STM32CubeMX&#xff1a;略 brew &#xff1a; /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"openocd &#xff1a; brew install open-ocd # 以下命令有输出说明安装成功 openocd -…

开源大数据集群部署(十八)Hive 安装部署

作者&#xff1a;櫰木 1 创建hive Kerberos主体 bash /root/bigdata/getkeytabs.sh /etc/security/keytab/hive.keytab hive2 安装 在hd1.dtstack.com主机root权限下操作&#xff1a; 解压包 [roothd3.dtstack.com software]# tar -zxvf apache-hive-3.1.2-bin.tar.gz -C …

快速上手Spring Cloud 十:Spring Cloud与微前端

快速上手Spring Cloud 一&#xff1a;Spring Cloud 简介 快速上手Spring Cloud 二&#xff1a;核心组件解析 快速上手Spring Cloud 三&#xff1a;API网关深入探索与实战应用 快速上手Spring Cloud 四&#xff1a;微服务治理与安全 快速上手Spring Cloud 五&#xff1a;Spring …

Web3:探索区块链与物联网的融合

引言 随着科技的不断发展&#xff0c;区块链技术和物联网技术都成为了近年来备受瞩目的前沿技术。而当这两者结合在一起&#xff0c;将产生怎样的化学反应呢&#xff1f;本文将深入探讨Web3时代中区块链与物联网的融合&#xff0c;探索其意义、应用场景以及未来发展趋势。 1. …

[flask]异常抛出和捕获异常

Python学习之Flask全局异常处理流程_flask 异常处理-CSDN博客 读取文件错误 OSError: [Errno 22] Invalid argument:_[errno 22] invalid argument: ..\\data\\snli_1.0\\-CSDN博客 异常触发 assert触发异常&#xff1a; 在Python中&#xff0c;使用assert语句可以检查某个条…

Django 中间件

【一】Django框架之生命周期流程图 【二】介绍 【1】概述 Django 中的中间件&#xff08;Middleware&#xff09;是一个轻量级、底层的“插件”系统&#xff0c;用来全局地改变 Django 的输入或输出。每个中间件组件负责处理特定的全局任务&#xff0c;例如处理会话、处理跨站…

电脑访问网页获取路由器WAN口内网IP

因为运维过程中容易出现路由器配置了固定IP但是没人知道后台密码&#xff0c;不确定这个办公室的IP地址&#xff0c;且使用tracert路由追踪也只会出现路由器的LAN口网关并不会出现WAN口IP。 今日正好遇到了个好方法&#xff0c;经过测试可以正常使用。 方法如下&#xff1a; 内…