DexGraspVLA:面向通用灵巧抓取的视觉-语言-动作框架

25年3月来自北大、北大-灵初智能(PsiBot)联合实验室、香港科技大学广州分校的论文“DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping”。

灵巧抓取仍然是机器人技术中一个基本但具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。然而,现有研究通常依赖于特定假设,例如单物体设置或有限环境,导致泛化受限。本文 DexGraspVLA,是一个分层框架,它利用预训练的视觉语言模型作为高级任务规划器,并学习基于扩散的策略作为低级动作控制器。关键见解在于将各种语言和视觉输入迭代转换为域不变的表示,其中由于域迁移的缓解,可以有效地应用模仿学习。因此,它能够在广泛的现实世界场景中实现稳健的泛化。值得注意的是,该方法在“零样本”环境中的数千种未见过的物体、照明和背景组合下实现 90% 以上的成功率。实证分析进一步证实内部模型行为在环境变化中的一致性,从而验证设计并解释其泛化性能。

灵巧多指手作为多功能机器人末端执行器,已在各种操作任务中展示出卓越的能力 [1、2、3、4、5、6、7、8、9]。在这些能力中,抓取是最基本的先决条件,但仍然是最具挑战性的问题之一。现有的灵巧抓取方法主要在孤立物体或简化设置下进行评估。然而,现实世界的应用需要更通用的抓取能力,这些能力可以在工业制造和家庭环境等不同场景中可靠地运行。然而,开发通用的灵巧抓取能力面临着多方面的挑战。在物体层面,策略必须跨各种物理属性进行推广,包括几何形状、质量、纹理和方向。除了物体特性之外,系统还必须展示对各种环境因素的鲁棒性,例如光照条件、背景复杂性和潜在干扰。除了这些挑战之外,多物体场景还引入了额外的复杂性,需要复杂的推理能力。例如,在杂乱或堆叠的环境中,规划最佳顺序以抓取所有物体成为一项关键的认知任务,而不仅仅是简单的抓取执行。

灵巧抓取的传统方法遵循两阶段流程:首先根据单帧感知预测目标抓取姿势,然后执行开环运动规划以达到该姿势 [10, 11, 12]。然而,这类方法受到精确相机标定和机械精度要求的严重限制。模仿学习和强化学习等端到端方法通过实时感知反馈不断调整动作来实现闭环抓取,从而提供更稳健和自适应的解决方案。近年来,强化学习在机器人系统中的应用取得显著进展 [13, 14, 15, 16]。利用大规模并行模拟,强化学习使机器人能够在模拟中进行大量训练,然后将学习的策略部署到现实世界中。尽管取得这些进展,但现实世界物理参数的复杂性对仿真建模提出重大挑战,导致不可避免的模拟与现实之间的差距。同时,研究人员已经探索模仿学习方法来学习操作技能 [17,18,19]。这些方法通过遥操作收集人类演示数据,并使用监督学习直接学习从原始感知输入到机器人控制命令的映射。然而,这类方法往往难以在演示数据之外进行泛化。虽然一般的抓取需要处理不同的物体和环境,但收集所有情况的演示是不切实际的。因此,关键挑战在于如何有效利用演示数据来实现更广泛的泛化。

视觉和语言基础模型 [20,21,22,23,24] 的迅速出现,为机器人操作提供了有希望的机会。通过在预训练中利用大量互联网规模的数据,这些模型展示对视觉和语言输入的卓越场景理解和泛化能力。为了利用这些能力进行决策,研究人员探索将视觉和语言基础模型集成到动作生成中,从而开发视觉-语言-动作 (VLA) 模型。虽然一种直观的方法是直接让基础模型生成机器人控制命令 [25, 26],但这种直接的策略面临着根本性的限制。训练过程中缺乏物理交互数据,导致模型的空间智能有限。另一种方法是以端到端的方式在机器人数据上训练视觉-语言模型 (VLM) [27, 28]。然而,这种模式通常需要大量手动收集的演示 [29, 30],以试图涵盖现实世界的全部多样性和复杂性。即便如此,这些模型在未见过的场景中的表现仍然明显下降,并且仍然需要进一步的数据收集和微调以处理新条件。此外,机器人数据集与大量预训练语料库之间的巨大差异导致灾难性的遗忘,损害模型宝贵的长程推理能力。有效利用基础模型的世界知识来增强机器人策略的泛化,仍然具有挑战性。

DexGraspVLA 是一个用于一般灵巧抓握的分层视觉-语言-动作框架,它整合基础模型和模仿学习的互补优势,如图所示:

请添加图片描述

工作目标是开发一种基于视觉的控制策略,用于语言引导的灵巧抓取,将其表述为一个顺序决策问题。最初,给出一个语言指令 𝑙,例如“抓取玩具”,以直接指定目标物体。在每个时间步 𝑡,策略 𝜋 接收来自腕部摄像头的第一视图图像 Iw_𝑡(𝐻 和 𝑊 是图像的高度和宽度)、来自头部摄像头的第三视图图像 I^h_𝑡,以及机器人本体感受 s,包括七个手臂关节角度 s_arm 和六个手关节角度 s_hand。根据这些观察结果,机器人通过从动作分布 𝜋(· | {Iw_𝑗 }, {I^h_𝑗 }, {s_𝑗}, 𝑙) 中采样,产生动作 a = (a_arm, a_hand),其中 a_arm 和 a_hand 分别表示手臂和手的目标关节角度。此过程持续到达到终止条件。机器人收到二元奖励 𝑟 ∈ {0, 1},表示它是否已成功完成指令 𝑙。策略 𝜋 的目标是最大化预期奖励 𝔼𝑇[𝑟]。

更一般地,考虑用户提示 𝑝 可能是涉及多个抓取过程长期任务的情况,例如“清理桌子”。这需要策略 𝜋 对提示进行推理,将其分解为单独的抓取指令 {𝑙_𝑖},并按顺序完成它们。

DexGraspVLA 框架

如图所示,DexGraspVLA 采用分层模块化架构,由规划器和控制器组成。

请添加图片描述

规划器。要实现一般的灵巧抓握,模型需要能够处理多模态输入、执行视觉落地并根据用户提示进行推理。基于 VLM 的最新进展,采用现成的预训练 Qwen-VL-Chat [75] 作为高级规划器来概述和监控灵巧抓握工作流程。给定用户提示 𝑝,规划器根据头部摄像头的观察结果推理执行规划。具体而言,如果 𝑝 是一个涉及多个抓取步骤的长期任务描述,例如“清理桌子”,则规划器会考虑桌子上物体的位置和方向,并提出合适的抓取指令 𝑙_1 作为第一步,例如“抓住饼干”。否则,如果 𝑝 直接瞄准一个物体进行抓取,则规划器将其视为指令 𝑙。

对于每个指令 𝑙,规划器通过在初始时间步 𝑡_0 时在头部摄像头图像 I^h_𝑡_0 中标记目标物体边框 (𝑥_1, 𝑦_1, 𝑥_2, 𝑦_2) 来指导低级控制器。虽然语言指令的措辞和内容对于不同的用户和情况可以是多样和灵活的,即表现出域差异,但无论语言和视觉输入如何变化,边框都是目标定位的一致格式,即实现域不变性。因此,这种转变减轻控制器的学习挑战。

收到边框后,控制器开始执行。在此过程中,规划器通过以 1Hz 的频率查询当前头部图像来监视进度。如果发现机器人成功抓住物体,规划器将执行脚本放置动作,将物体放入袋中,然后将机械臂和手重置为初始状态。之后,规划器通过推理提示和其视图中的剩余物体来提出新的抓取指令 𝑙_2,直到提示 𝑝 完全完成。另一方面,如果控制器无法抓取目标物体,规划器将重置机器人,并根据当前物体状态使用新指令重新初始化抓取循环。

控制器。基于目标边框 (𝑥_1, 𝑦_1, 𝑥_2, 𝑦_2),控制器旨在杂乱的环境中抓取目标物体。此边框作为输入提供给 SAM [23],以获得目标物体的初始二进制掩码 m_0 ∈ {0, 1},然后使用 Cutie [76] 随时间连续跟踪掩码,在每个时间步 𝑡 产生 m_𝑡。这确保整个过程中在杂乱的场景中准确识别。问题在于学习有效建模动作分布 𝜋(· | I^w_𝑡, I^h_𝑡, s_𝑡, m_𝑡) 的策略 𝜋。

为了实现通用的灵巧抓取能力,系统必须在不同的现实世界场景中有效地泛化。然而,原始视觉输入 Iw_𝑡, I^h_𝑡 的高度可变性,对学习任务关键型表示构成了根本挑战。传统的模仿学习方法即使在物体或环境条件发生微小变化的情况下,也常常会灾难性地失败。为了解决这个问题,本解决方案再次是将潜领域变化输入转换为适合模仿学习的域不变表示。虽然像素级感知可能有很大差异,但大型基础模型提取的细粒度语义特征往往更加稳健和一致。因此,用特征提取器 𝜙(例如已在互联网规模数据上进行预训练的 DINOv2 [20])从原始图像中获取特征。在每个时间步 𝑡,获得头部摄像头图像特征 zh_𝑡 和手腕摄像头图像特征 z^w_𝑡。这些提取的特征对于分散注意力的视觉因素保持相对不变。

到目前为止,原始语言和视觉输入(包括指令 𝑙 和图像 Iw_𝑡,I^h_𝑡)已通过利用基础模型迭代转换为域不变表示,包括掩码 m_𝑡 和特征 zh_𝑡、z^w_𝑡。这为模仿学习奠定基础。下面学习策略 𝜋,它根据这些表示来预测范围 𝐻 内的动作块。

为了将目标掩码与头部摄像头特征融合,用随机初始化的 ViT 将 m_𝑡 投影到头部图像特征空间中,生成 zm_𝑡。然后,将 z^m_𝑡 和 zh_𝑡 逐块连接起来以形成 ̄z^h_t。

随后,将 ̄zh_𝑡、腕部摄像头特征 z^w_𝑡 和机器人状态 s_𝑡 映射到具有单独 MLP 的公共嵌入空间中,得到 ̃zh_𝑡、̃z^w_𝑡 和 ̃zs_𝑡。然后将这些嵌入连接起来以形成完整的观察特征序列 ̃z^obs_t。

对于动作预测,采用 DiT [77] 来生成多步骤动作,遵循扩散策略范式 [78, 79, 28]。具体来说,在每个时间步 𝑡,将接下来的 𝐻 动作捆绑成一个块 A_𝑡 = a_𝑡:𝑡+𝐻 = [a_𝑡, a_𝑡+1, . . . , a_𝑡+𝐻−1]。在训练期间,对随机扩散步骤 𝑡^𝑑 = 𝑘 进行采样,并将高斯噪声 𝝐 添加到 A_𝑡,从而产生带噪声的动作 token x_𝑘。正式来说,x_𝑘 = 𝛼_𝑘A_𝑡 +𝜎_𝑘𝝐,其中 𝛼_𝑘 和 𝜎_𝑘 是标准 DDPM 系数。

然后,将 x_𝑘 与观察特征序列 ̃z^obs_t 一起输入 DiT。每个 DiT 层对动作 token 执行双向自注意、对 ̃zobs 执行交叉注意以及 MLP 转换,最终预测原始噪声 𝝐。通过最小化预测噪声和真实噪声之间的差异,模型学会重建真实动作块 A_𝑡。在推理时,迭代去噪步骤从学习的分布中恢复预期的多步动作序列,从而实现对复杂、长期行为的稳健模仿。还采用滚动时域控制策略,该策略仅执行第一个 𝐻_𝑎 动作,然后再生成新的动作块预测,从而增强实时响应能力。

总体而言,DexGraspVLA 通过基础模型对从域变化的输入中得出域不变表示进行模仿学习。这种方法不仅利用基础模型的世界知识和泛化能力,而且还有效地捕获从这些抽象表示到最终动作输出的映射。

数据收集

为了训练灵巧抓取策略,手动收集一个数据集,其中包含 2,094 个在杂乱场景中成功抓取的场景。该数据集涉及 36 个家用物品,涵盖各种尺寸、重量、几何形状、纹理、材料和类别。每个场景 𝜏 = {(Ih_𝑡, I^w_𝑡, s_𝑡, m_𝑡, a_𝑡)} 记录原始相机图像 Ih_𝑡、I^w_𝑡、机器人本体感觉 s_𝑡、物体掩码 m_𝑡 和每个时间步 𝑡 的动作 a_𝑡。掩码 m_𝑡 的标记方式与控制器中的标记方式相同。对于每个物体,将其放置在 3 × 3 网格中排列的九个位置,并在每个位置收集多个抓取演示。杂乱场景中的其他物体在各 episode 之间是随机的。这些演示以典型的人类运动速度进行,每次大约需要 3.5 秒。它们经过严格的人工检查以确保质量和可靠性。DexGraspVLA 控制器在此数据集上通过模仿学习进行训练。

硬件平台如下。

如图所示,用于灵巧抓取的机器人是 7 自由度 RealMan RM75-6F 手臂,搭配 6 自由度 PsiBot 的 G0-R 手。安装在手臂手腕上的 RealSense D405C 摄像头提供第一人称视角,而机器人头部的 RealSense D435 摄像头提供第三人称视角。要抓取的物体放在机器人前面的桌子上。机器人的控制频率为 20 Hz。

请添加图片描述

没有现有的工作可以直接作为比较的基线。大多数灵巧抓取方法无法处理杂乱场景的语言输入,而接受语言输入的现有 VLA 框架与灵巧手不兼容。因此,比较以下方法:(1)本文 DexGraspVLA:DexGraspVLA 的完整实现。 (2)DexGraspVLA (DINOv2-train):与设计相同,只是两个 DINOv2 模型是可训练的,而不是冻结的。 (3)DexGraspVLA (ViT-small):与设计相同,只是两个 DINOv2 模型被两个小型可训练的预训练 ViT(Steiner [80] 的 R26-S-32 ResNet-ViT 混合模型)取代。从经验上讲,DexGraspVLA (ViT-small) 代表扩散策略的增强版 [78]。

在初步实验中,失败可能源于策略推理的随机性,可以通过额外的尝试来克服。因此,比较 DexGraspVLA 中 𝑘 的范围从 1 到 3。它们与该方法相同,只是它们分别允许每次测试尝试 𝑘 次。注:在单次尝试中,策略在初始失败后执行的重抓取是允许的,并且不算作单独的尝试。
实验挑选 360 个之前从未见过的物体、6 个从未见过的背景和 3 个从未见过的光照条件。这些物体都经过精心挑选,以确保它们涵盖广泛的尺寸、重量、几何形状、纹理、材料和类别,同时还能被灵巧手抓取。如图直观地展示了这种多样性。选择的背景和光照条件也大不相同。

请添加图片描述

基于此设置,设计三种杂乱场景中的抓取任务,每个杂乱场景涉及大约六个物体:(1) 从未见过的物体:在白光下,从白色桌子上的随机场景中抓取一个从未见过的物体。360 个从未见过的物体中的每一个都被使用一次,总共进行 360 次测试。(2) 从未见过的背景:首先随机选择 103 个从未见过的物体作为物体子集 S。对于每个背景,在白光下随机排列 103 个杂乱场景,其中物体位于 S 中。 103 个物体中的每一个都被使用一次,总共进行 618 次测试。(3)未见过的灯光:对于每个未见过的灯光,在白色桌子上构建 103 个杂乱场景,其中摆放 S 中的物体。对 103 个物体中的每一个都使用一次,总共进行 309 次测试。

如图对比数据收集站点和测试站点,它们位于不同的房间。在数据收集站点收集所有 2,094 个人类演示(图 a),而实验是在测试站点进行的(图 b)。由于这些站点的布局和背景不同,头部摄像头和腕部摄像头在评估期间都会遇到训练数据中不存在的场景——尤其是腕部摄像头,它观察的环境没有发生任何改变,在操作过程中捕捉各种正面和周边视图。尽管存在这些环境差异,但不会从测试站点收集任何数据来微调模型。相反,直接部署和评估模型,从而产生真正的“零样本”测试环境。即使在这些条件下,DexGraspVLA 在数千种未见过的物体、灯光和背景组合的杂乱场景中抓取任务的成功率也超过 90%,清楚地展示其强大的泛化能力。

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32993.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

XSS笔记

这里写目录标题 靶场环境部署用到的payload方法集锦基本思路,先插再说如下如何绕过**1. 过滤机制分析****2. 为什么 οnmοusemοvealert(/a/) 能绕过?****3. XSS 触发流程****4. 其他可能的绕过方式****5. 结论** html编码绕过参数不合法HTTP_REFERER抓…

vs code配置 c/C++

1、下载VSCode Visual Studio Code - Code Editing. Redefined 安装目录可改 勾选创建桌面快捷方式 安装即可 2、汉化VSCode 点击确定 下载MinGW 由于vsCode 只是一个编辑器,他没有自带编译器,所以需要下载一个编译器"MinGW". https://…

音视频入门基础:RTP专题(18)——FFmpeg源码中,获取RTP的音频信息的实现(上)

由于本文篇幅较长,分为上、下两篇。 一、引言 通过FFmpeg命令可以获取到SDP描述的RTP流的的音频压缩编码格式、音频压缩编码格式的profile、音频采样率、通道数信息: ffmpeg -protocol_whitelist "file,rtp,udp" -i XXX.sdp 而由《音视频入门…

双指针算法介绍+算法练习(2025)

一、介绍双指针算法 双指针(或称为双索引)算法是一种高效的算法技巧,常用于处理数组或链表等线性数据结构。它通过使用两个指针来遍历数据,从而减少时间复杂度,避免使用嵌套循环。双指针算法在解决诸如查找、排序、去重…

如何安装旧版本的Pytorch

不同的项目所使用的Pytorch版本可能不同,一般而言,高版本的Pytorch可以向下兼容的,但有时可能会需要旧版本的Pytorch。 1、首先进入Pytorch官网(PyTorch),下滑找到” install previous versions of PyTorc…

Easysearch 使用 AWS S3 进行快照备份与还原:完整指南及常见错误排查

Easysearch 可以使用 AWS S3 作为远程存储库,进行索引的快照(Snapshot)备份和恢复。同时,Easysearch 内置了 S3 插件,无需额外安装。以下是完整的配置和操作步骤。 1. 在 AWS S3 上创建存储桶 登录 AWS 控制台&#x…

Nginx + Keepalived 高可用集群

一、NginxKeepalived 原理 1.1.Nginx 负载均衡机制 Nginx 是一款轻量级且高性能的 Web 服务器和反向代理服务器,在负载均衡方面有着卓越的表现。其具备强大的七层流量管理能力,能够基于 URL、Cookie、HTTP 头信息等对请求进行精准路由。例如&#xff0…

面试提问(1)

面试提问 1.你能说一说C/C之间的区别吗?2.你能将一些你对构造函数和析构函数的认识吗?3.讲一下继承和多态4.你了解TCP/IP四层网络模型吗?5.你了解三次握手和四次挥手吗?6.讲一下进程和线程?7.你对二叉树的了解有哪些&a…

Adobe Genuine Service Alert 一直弹窗,老是一直弹窗【解决方法】

在使用Adobe系列软件时,若没有正版授权,则会出现弹窗,该弹窗是由Adobe Genuine Service软件弹出的,且该弹窗无法关闭,下文介绍如何永久关闭该弹窗。 方法一: 首先在任务栏鼠标右键打开任务管理器&#xff…

防汛应急包,快速响应,守护安全

根据中国水利部统计,自1949年以来,我国几乎每年都面临洪水威胁,其中20世纪90年代后洪涝灾害频率显著增加,仅1990-2009年间就发生超4000起较大灾害,直接经济损失近3万亿元,受灾人口达20亿人次。在2020年长江…

一文了解JVM的垃圾回收

Java堆内存结构 java堆内存是垃圾回收器管理的主要区域,也被称为GC堆。 为了方便垃圾回收,堆内存被分为新生代、老年代和永久代。 新创建的对象的内存会在新生代中分配,达到一定存活时长后会移入老年代,而永久代存储的是类的元数…

【人工智能 | 大数据】基于人工智能的大数据分析方法

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈智能大数据分析 ⌋ ⌋ ⌋ 智能大数据分析是指利用先进的技术和算法对大规模数据进行深入分析和挖掘,以提取有价值的信息和洞察。它结合了大数据技术、人工智能(AI)、机器学习(ML&a…

【C语言】编译和链接详解

hi,各位,让我们开启今日份博客~ 小编个人主页点这里~ 目录 一、翻译环境和运行环境1、翻译环境1.1预处理(预编译)1.2编译1.2.1词法分析1.2.2语法分析1.2.3语义分析 1.3汇编1.4链接 2.运行环境 一、翻译环境和运行环境 在ANSI C…

在Simulink中将Excel数据导入可变负载模块的方法介绍

文章目录 数据准备与格式要求Excel数据格式MATLAB预处理数据导入方法使用From Spreadsheet模块(直接导入Excel)通过MATLAB工作区中转(From Workspace模块)使用1-D Lookup Table模块(非线性负载映射)Signal Builder模块(变载工况导入)可变负载模块配置注意事项与调试在S…

Java 大视界 -- Java 大数据在智慧文旅虚拟导游与个性化推荐中的应用(130)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

【微知】tmux如何在一个会话的1个窗口中水平分割或者垂直分割窗口?(垂直 Ctrl + b, %; 切换Ctrl + b, 方向键; ctrl d关闭)

背景 除了直接创建窗口,还可以分割一个窗口。创建窗口参考兄弟篇:tmux如何在某个会话session中创建多个窗口?如何切换?(Ctrlb c创建;Ctrlb 数字 切换;Ctrlb &关闭) 命令 垂…

强化学习(赵世钰版)-学习笔记(7.时序差分学习)

本章是课程算法与方法中的第四章,介绍的时序差分学习算法是基于随机近似方法设计的强化学习方法,也是model-free的方法。 时序差分算法是一种近似估计策略状态值的算法,具体的形式如下: 本质上是在当前t时刻,被访问到的…

无公网IP也能远程控制Windows:Linux rdesktop内网穿透实战

文章目录 前言1. Windows 开启远程桌面2. Linux安装rdesktop工具3. Win安装Cpolar工具4. 配置远程桌面地址5. 远程桌面连接测试6. 设置固定远程地址7. 固定地址连接测试 前言 如今远程办公已经从一种选择变成了许多企业和个人的必修课,而如何在Linux系统上高效地访…

深度学习与大模型-矩阵

矩阵其实在我们的生活中也有很多应用,只是我们没注意罢了。 1. 矩阵是什么? 简单来说,矩阵就是一个长方形的数字表格。比如你有一个2行3列的矩阵,可以写成这样: 这个矩阵有2行3列,每个数字都有一个位置&a…

【实战ES】实战 Elasticsearch:快速上手与深度实践-8.2.1AWS OpenSearch无服务器方案

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 8.2.1AWS OpenSearch 无服务器方案深度解析与实践指南1. Serverless架构的核心价值与行业趋势1.1 传统Elasticsearch集群的运维挑战1.2 Serverless技术演进路线技术特性对比…