DexGraspVLA：面向通用灵巧抓取的视觉-语言-动作框架

25年3月来自北大、北大-灵初智能（PsiBot）联合实验室、香港科技大学广州分校的论文“DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping”。

灵巧抓取仍然是机器人技术中一个基本但具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。然而，现有研究通常依赖于特定假设，例如单物体设置或有限环境，导致泛化受限。本文 DexGraspVLA，是一个分层框架，它利用预训练的视觉语言模型作为高级任务规划器，并学习基于扩散的策略作为低级动作控制器。关键见解在于将各种语言和视觉输入迭代转换为域不变的表示，其中由于域迁移的缓解，可以有效地应用模仿学习。因此，它能够在广泛的现实世界场景中实现稳健的泛化。值得注意的是，该方法在“零样本”环境中的数千种未见过的物体、照明和背景组合下实现 90% 以上的成功率。实证分析进一步证实内部模型行为在环境变化中的一致性，从而验证设计并解释其泛化性能。

灵巧多指手作为多功能机器人末端执行器，已在各种操作任务中展示出卓越的能力 [1、2、3、4、5、6、7、8、9]。在这些能力中，抓取是最基本的先决条件，但仍然是最具挑战性的问题之一。现有的灵巧抓取方法主要在孤立物体或简化设置下进行评估。然而，现实世界的应用需要更通用的抓取能力，这些能力可以在工业制造和家庭环境等不同场景中可靠地运行。然而，开发通用的灵巧抓取能力面临着多方面的挑战。在物体层面，策略必须跨各种物理属性进行推广，包括几何形状、质量、纹理和方向。除了物体特性之外，系统还必须展示对各种环境因素的鲁棒性，例如光照条件、背景复杂性和潜在干扰。除了这些挑战之外，多物体场景还引入了额外的复杂性，需要复杂的推理能力。例如，在杂乱或堆叠的环境中，规划最佳顺序以抓取所有物体成为一项关键的认知任务，而不仅仅是简单的抓取执行。

灵巧抓取的传统方法遵循两阶段流程：首先根据单帧感知预测目标抓取姿势，然后执行开环运动规划以达到该姿势 [10, 11, 12]。然而，这类方法受到精确相机标定和机械精度要求的严重限制。模仿学习和强化学习等端到端方法通过实时感知反馈不断调整动作来实现闭环抓取，从而提供更稳健和自适应的解决方案。近年来，强化学习在机器人系统中的应用取得显著进展 [13, 14, 15, 16]。利用大规模并行模拟，强化学习使机器人能够在模拟中进行大量训练，然后将学习的策略部署到现实世界中。尽管取得这些进展，但现实世界物理参数的复杂性对仿真建模提出重大挑战，导致不可避免的模拟与现实之间的差距。同时，研究人员已经探索模仿学习方法来学习操作技能 [17，18，19]。这些方法通过遥操作收集人类演示数据，并使用监督学习直接学习从原始感知输入到机器人控制命令的映射。然而，这类方法往往难以在演示数据之外进行泛化。虽然一般的抓取需要处理不同的物体和环境，但收集所有情况的演示是不切实际的。因此，关键挑战在于如何有效利用演示数据来实现更广泛的泛化。

视觉和语言基础模型 [20，21，22，23，24] 的迅速出现，为机器人操作提供了有希望的机会。通过在预训练中利用大量互联网规模的数据，这些模型展示对视觉和语言输入的卓越场景理解和泛化能力。为了利用这些能力进行决策，研究人员探索将视觉和语言基础模型集成到动作生成中，从而开发视觉-语言-动作 (VLA) 模型。虽然一种直观的方法是直接让基础模型生成机器人控制命令 [25, 26]，但这种直接的策略面临着根本性的限制。训练过程中缺乏物理交互数据，导致模型的空间智能有限。另一种方法是以端到端的方式在机器人数据上训练视觉-语言模型 (VLM) [27, 28]。然而，这种模式通常需要大量手动收集的演示 [29, 30]，以试图涵盖现实世界的全部多样性和复杂性。即便如此，这些模型在未见过的场景中的表现仍然明显下降，并且仍然需要进一步的数据收集和微调以处理新条件。此外，机器人数据集与大量预训练语料库之间的巨大差异导致灾难性的遗忘，损害模型宝贵的长程推理能力。有效利用基础模型的世界知识来增强机器人策略的泛化，仍然具有挑战性。

DexGraspVLA 是一个用于一般灵巧抓握的分层视觉-语言-动作框架，它整合基础模型和模仿学习的互补优势，如图所示：

请添加图片描述

工作目标是开发一种基于视觉的控制策略，用于语言引导的灵巧抓取，将其表述为一个顺序决策问题。最初，给出一个语言指令 𝑙，例如“抓取玩具”，以直接指定目标物体。在每个时间步 𝑡，策略 𝜋 接收来自腕部摄像头的第一视图图像 I^w_𝑡（𝐻 和 𝑊 是图像的高度和宽度）、来自头部摄像头的第三视图图像 I^h_𝑡，以及机器人本体感受 s，包括七个手臂关节角度 s_arm 和六个手关节角度 s_hand。根据这些观察结果，机器人通过从动作分布 𝜋(· | {I^w_𝑗 }, {I^h_𝑗 }, {s_𝑗}, 𝑙) 中采样，产生动作 a = (a_arm, a_hand)，其中 a_arm 和 a_hand 分别表示手臂和手的目标关节角度。此过程持续到达到终止条件。机器人收到二元奖励 𝑟 ∈ {0, 1}，表示它是否已成功完成指令 𝑙。策略 𝜋 的目标是最大化预期奖励 𝔼𝑇[𝑟]。

更一般地，考虑用户提示 𝑝 可能是涉及多个抓取过程长期任务的情况，例如“清理桌子”。这需要策略 𝜋 对提示进行推理，将其分解为单独的抓取指令 {𝑙_𝑖}，并按顺序完成它们。

DexGraspVLA 框架

如图所示，DexGraspVLA 采用分层模块化架构，由规划器和控制器组成。

请添加图片描述

规划器。要实现一般的灵巧抓握，模型需要能够处理多模态输入、执行视觉落地并根据用户提示进行推理。基于 VLM 的最新进展，采用现成的预训练 Qwen-VL-Chat [75] 作为高级规划器来概述和监控灵巧抓握工作流程。给定用户提示 𝑝，规划器根据头部摄像头的观察结果推理执行规划。具体而言，如果 𝑝 是一个涉及多个抓取步骤的长期任务描述，例如“清理桌子”，则规划器会考虑桌子上物体的位置和方向，并提出合适的抓取指令 𝑙_1 作为第一步，例如“抓住饼干”。否则，如果 𝑝 直接瞄准一个物体进行抓取，则规划器将其视为指令 𝑙。

对于每个指令 𝑙，规划器通过在初始时间步 𝑡_0 时在头部摄像头图像 I^h_𝑡_0 中标记目标物体边框 (𝑥_1, 𝑦_1, 𝑥_2, 𝑦_2) 来指导低级控制器。虽然语言指令的措辞和内容对于不同的用户和情况可以是多样和灵活的，即表现出域差异，但无论语言和视觉输入如何变化，边框都是目标定位的一致格式，即实现域不变性。因此，这种转变减轻控制器的学习挑战。

收到边框后，控制器开始执行。在此过程中，规划器通过以 1Hz 的频率查询当前头部图像来监视进度。如果发现机器人成功抓住物体，规划器将执行脚本放置动作，将物体放入袋中，然后将机械臂和手重置为初始状态。之后，规划器通过推理提示和其视图中的剩余物体来提出新的抓取指令 𝑙_2，直到提示 𝑝 完全完成。另一方面，如果控制器无法抓取目标物体，规划器将重置机器人，并根据当前物体状态使用新指令重新初始化抓取循环。

控制器。基于目标边框 (𝑥_1, 𝑦_1, 𝑥_2, 𝑦_2)，控制器旨在杂乱的环境中抓取目标物体。此边框作为输入提供给 SAM [23]，以获得目标物体的初始二进制掩码 m_0 ∈ {0, 1}，然后使用 Cutie [76] 随时间连续跟踪掩码，在每个时间步 𝑡 产生 m_𝑡。这确保整个过程中在杂乱的场景中准确识别。问题在于学习有效建模动作分布 𝜋(· | I^w_𝑡, I^h_𝑡, s_𝑡, m_𝑡) 的策略 𝜋。

为了实现通用的灵巧抓取能力，系统必须在不同的现实世界场景中有效地泛化。然而，原始视觉输入 I^w_𝑡, I^h_𝑡 的高度可变性，对学习任务关键型表示构成了根本挑战。传统的模仿学习方法即使在物体或环境条件发生微小变化的情况下，也常常会灾难性地失败。为了解决这个问题，本解决方案再次是将潜领域变化输入转换为适合模仿学习的域不变表示。虽然像素级感知可能有很大差异，但大型基础模型提取的细粒度语义特征往往更加稳健和一致。因此，用特征提取器 𝜙（例如已在互联网规模数据上进行预训练的 DINOv2 [20]）从原始图像中获取特征。在每个时间步 𝑡，获得头部摄像头图像特征 z^h_𝑡 和手腕摄像头图像特征 z^w_𝑡。这些提取的特征对于分散注意力的视觉因素保持相对不变。

到目前为止，原始语言和视觉输入（包括指令 𝑙 和图像 I^w_𝑡，I^h_𝑡）已通过利用基础模型迭代转换为域不变表示，包括掩码 m_𝑡 和特征 z^h_𝑡、z^w_𝑡。这为模仿学习奠定基础。下面学习策略 𝜋，它根据这些表示来预测范围 𝐻 内的动作块。

为了将目标掩码与头部摄像头特征融合，用随机初始化的 ViT 将 m_𝑡 投影到头部图像特征空间中，生成 z^m_𝑡。然后，将 z^m_𝑡 和 z^h_𝑡 逐块连接起来以形成 ̄z^h_t。

随后，将 ̄z^h_𝑡、腕部摄像头特征 z^w_𝑡 和机器人状态 s_𝑡 映射到具有单独 MLP 的公共嵌入空间中，得到 ̃z^h_𝑡、̃z^w_𝑡 和 ̃z^s_𝑡。然后将这些嵌入连接起来以形成完整的观察特征序列 ̃z^obs_t。

对于动作预测，采用 DiT [77] 来生成多步骤动作，遵循扩散策略范式 [78, 79, 28]。具体来说，在每个时间步 𝑡，将接下来的 𝐻 动作捆绑成一个块 A_𝑡 = a_𝑡:𝑡+𝐻 = [a_𝑡, a_𝑡+1, . . . , a_𝑡+𝐻−1]。在训练期间，对随机扩散步骤 𝑡^𝑑 = 𝑘 进行采样，并将高斯噪声 𝝐 添加到 A_𝑡，从而产生带噪声的动作 token x_𝑘。正式来说，x_𝑘 = 𝛼_𝑘A_𝑡 +𝜎_𝑘𝝐，其中 𝛼_𝑘 和 𝜎_𝑘 是标准 DDPM 系数。

然后，将 x_𝑘 与观察特征序列 ̃z^obs_t 一起输入 DiT。每个 DiT 层对动作 token 执行双向自注意、对 ̃zobs 执行交叉注意以及 MLP 转换，最终预测原始噪声 𝝐。通过最小化预测噪声和真实噪声之间的差异，模型学会重建真实动作块 A_𝑡。在推理时，迭代去噪步骤从学习的分布中恢复预期的多步动作序列，从而实现对复杂、长期行为的稳健模仿。还采用滚动时域控制策略，该策略仅执行第一个 𝐻_𝑎 动作，然后再生成新的动作块预测，从而增强实时响应能力。

总体而言，DexGraspVLA 通过基础模型对从域变化的输入中得出域不变表示进行模仿学习。这种方法不仅利用基础模型的世界知识和泛化能力，而且还有效地捕获从这些抽象表示到最终动作输出的映射。

数据收集

为了训练灵巧抓取策略，手动收集一个数据集，其中包含 2,094 个在杂乱场景中成功抓取的场景。该数据集涉及 36 个家用物品，涵盖各种尺寸、重量、几何形状、纹理、材料和类别。每个场景 𝜏 = {(I^h_𝑡, I^w_𝑡, s_𝑡, m_𝑡, a_𝑡)} 记录原始相机图像 I^h_𝑡、I^w_𝑡、机器人本体感觉 s_𝑡、物体掩码 m_𝑡 和每个时间步 𝑡 的动作 a_𝑡。掩码 m_𝑡 的标记方式与控制器中的标记方式相同。对于每个物体，将其放置在 3 × 3 网格中排列的九个位置，并在每个位置收集多个抓取演示。杂乱场景中的其他物体在各 episode 之间是随机的。这些演示以典型的人类运动速度进行，每次大约需要 3.5 秒。它们经过严格的人工检查以确保质量和可靠性。DexGraspVLA 控制器在此数据集上通过模仿学习进行训练。

硬件平台如下。

如图所示，用于灵巧抓取的机器人是 7 自由度 RealMan RM75-6F 手臂，搭配 6 自由度 PsiBot 的 G0-R 手。安装在手臂手腕上的 RealSense D405C 摄像头提供第一人称视角，而机器人头部的 RealSense D435 摄像头提供第三人称视角。要抓取的物体放在机器人前面的桌子上。机器人的控制频率为 20 Hz。

请添加图片描述

没有现有的工作可以直接作为比较的基线。大多数灵巧抓取方法无法处理杂乱场景的语言输入，而接受语言输入的现有 VLA 框架与灵巧手不兼容。因此，比较以下方法：（1）本文 DexGraspVLA：DexGraspVLA 的完整实现。（2）DexGraspVLA (DINOv2-train)：与设计相同，只是两个 DINOv2 模型是可训练的，而不是冻结的。（3）DexGraspVLA (ViT-small)：与设计相同，只是两个 DINOv2 模型被两个小型可训练的预训练 ViT（Steiner [80] 的 R26-S-32 ResNet-ViT 混合模型）取代。从经验上讲，DexGraspVLA (ViT-small) 代表扩散策略的增强版 [78]。

在初步实验中，失败可能源于策略推理的随机性，可以通过额外的尝试来克服。因此，比较 DexGraspVLA 中 𝑘 的范围从 1 到 3。它们与该方法相同，只是它们分别允许每次测试尝试 𝑘 次。注：在单次尝试中，策略在初始失败后执行的重抓取是允许的，并且不算作单独的尝试。
实验挑选 360 个之前从未见过的物体、6 个从未见过的背景和 3 个从未见过的光照条件。这些物体都经过精心挑选，以确保它们涵盖广泛的尺寸、重量、几何形状、纹理、材料和类别，同时还能被灵巧手抓取。如图直观地展示了这种多样性。选择的背景和光照条件也大不相同。

请添加图片描述

基于此设置，设计三种杂乱场景中的抓取任务，每个杂乱场景涉及大约六个物体：(1) 从未见过的物体：在白光下，从白色桌子上的随机场景中抓取一个从未见过的物体。360 个从未见过的物体中的每一个都被使用一次，总共进行 360 次测试。(2) 从未见过的背景：首先随机选择 103 个从未见过的物体作为物体子集 S。对于每个背景，在白光下随机排列 103 个杂乱场景，其中物体位于 S 中。 103 个物体中的每一个都被使用一次，总共进行 618 次测试。（3）未见过的灯光：对于每个未见过的灯光，在白色桌子上构建 103 个杂乱场景，其中摆放 S 中的物体。对 103 个物体中的每一个都使用一次，总共进行 309 次测试。

如图对比数据收集站点和测试站点，它们位于不同的房间。在数据收集站点收集所有 2,094 个人类演示（图 a），而实验是在测试站点进行的（图 b）。由于这些站点的布局和背景不同，头部摄像头和腕部摄像头在评估期间都会遇到训练数据中不存在的场景——尤其是腕部摄像头，它观察的环境没有发生任何改变，在操作过程中捕捉各种正面和周边视图。尽管存在这些环境差异，但不会从测试站点收集任何数据来微调模型。相反，直接部署和评估模型，从而产生真正的“零样本”测试环境。即使在这些条件下，DexGraspVLA 在数千种未见过的物体、灯光和背景组合的杂乱场景中抓取任务的成功率也超过 90%，清楚地展示其强大的泛化能力。

请添加图片描述