[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models

Paper Card

论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models
论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine
论文链接:https://arxiv.org/abs/2501.09747
论文出处:/
论文被引:/
项目主页:https://www.pi.website/research/fast

Abstract

基于Transformer的视觉-语言-动作(VLA)策略等自回归序列模型,可以非常有效地捕捉复杂且可泛化的机器人行为。 但是,此类模型对连续动作信号的进行 tokenization(离散标记化),这决定了模型预测的离散token (标记)如何映射到连续的机器人动作(action)。 当前基于简单逐维度、逐时间步长分箱方案的机器人动作离散标记化方法,在从高频机器人数据中学习灵巧技能时,通常表现不佳。 为了解决这一挑战,本文提出了一种基于离散余弦变换的基于压缩的机器人动作离散标记化方案——Frequency-space Action Sequence Tokenization (FAST),能够为高度灵巧和高频的任务训练自回归VLA,而标准离散化方法在此类任务中完全失效。 基于FAST,发布了一个通用的机器人动作离散标记化器 FAST+,它在100万个真实的机器人动作轨迹上训练。 它可以用作各种机器人动作序列(具有不同的动作空间和控制频率)的黑盒分词器(tokenizer)。 当与 VLA 模型 pi0 结合使用时,可以扩展到在1万小时的机器人数据上进行训练,并与扩散VLA模型的性能相当,但训练时间减少了5倍。

Summary

研究背景

性能好的tokenizer对序列模型的性能至关重要。当前机器人策略通常使用基于每个维度、每个时间步长分箱方案的简单 tokenization 方法,这类方法在学习具有高频控制的灵巧技能时的表现不好(本文中涉及的测试全部失败)。当预测未来动作序列时,简单的tokenizer难以捕获各个时间步之间的相关性,高度相关的action token降低了自回归VLA模型对 next token prediction 建模的有效性。

方法介绍

在这里插入图片描述

从第一性原理出发,开发新的 action tokenizer。关键想法:受到llama中使用的 BPE 编码方法的启发,在模型训练之前压缩机器人动作信号,减少连续token之间的相关性。考虑到机器人动作是连续信号,因此采用离散余弦变换编码,由此产生的 tokenization 方法称为 Frequency-space Action Sequence Tokenization (FAST)。在 DROID 数据集上高效训练 VLA 模型,在未见的真实环境通过自然语言提示进行零样本评测。
在这里插入图片描述

构建了 FAST+ 通用的机器人动作 tokenizer,在100万条真机数据上训练。可以对各种机器人动作序列进行分词,报错单臂机器人、双臂机器人和移动机器人。当pi0模型结合FAST进行训练时,比原来的结合扩散思想的模型训练时间缩短了 5 倍,但性能相当。

相关工作

基于VLM构建的VLA模型是构建通用机器人策略的有效方法。他在大规模的互联网图文对上训练,并使用机器人数据微调,用于机器人控制。VLA的优势是:1)数十亿参数的VLM骨干为策略提供了适应大型机器人数据集所需要的表达能力;2)重用VLM的权重可以提高VLA模型遵从多样化指令的能力和泛化能力,例如泛化到未见物体和未见场景背景。

当前VLA模型的控制频率基本都很低,自回归的VLA模型更甚,难以适应高频的灵巧操作任务。原因是 tokenizer 使用简单的每个维度、每个时间步长分箱方案。为此,本文提出了一种基于时间序列压缩技术的机器人动作分词器 FAST。

前置知识

问题描述:目标是训练策略 π ( a 1 : H ∣ o ) π(a_{1:H}|o) π(a1:Ho),将观测结果 o o o 映射到未来机器人动作序列 a 1 : H a_{1:H} a1:H。假设策略输出动作块(Action Chunk),即序列长度为 H H H 动作,这使得更容易产生时间上一致的动作并减少复合误差。 动作分词(Action Tokenization)的目标是定义一个映射 T a : a 1 : H → [ T 1 , … , T n ] \mathcal{T}_{a}:a_{1:H} → [T_1,…,T_n] Ta:a1:H[T1,,Tn],从维度为 ∣ A ∣ |\mathcal{A}| A 的连续动作 a 1 : H a_{1:H} a1:H 序列映射到来自大小为 ∣ V ∣ |\mathcal{V}| V 的词汇表中的 n n n 个离散token序列 T ∈ ∣ V ∣ T∈|\mathcal{V}| TV。动作序列之间的token数量 n 可能不同,就像相同长度的句子可能被离散化为可变数量的文本token一样。

基于分箱的动作token化:动作token化最常用的方法是简单的分箱离散化。 对于给定的动作 a,这种方法独立地离散化每个维度,将训练数据集中值的范围划分为 N N N 个均匀的箱,最常用的是 N = 256 N=256 N=256。对于D维的动作序列 a 1 : H a_{1:H} a1:H,此token化方案将应用于每个时间步,从而产生最终的token序列 T a ( a 1 : H ) = [ T 1 , 1 , … , T 1 , D , … , T H , 1 , … , T H , D ] \mathcal{T}a(a1:H)=[T_{1,1},…,T_{1,D},…,T_{H,1},…,T_{H,D}] Ta(a1:H)=[T1,1,,T1,D,,TH,1,,TH,D]。对于高频机器人数据,这种token化方案并非最优:很容易为每个动作片段生成数百个 token,使得难以训练并且推理速度慢。

Tokenization 对 VLA 模型训练的影响

在这里插入图片描述

创建了一个简单的合成时间序列数据集,其目标是预测一个插值四个随机生成点的三次曲线,如图3所示。这个问题反映了高频动作片段上训练的策略面临的挑战,即策略必须预测一系列连续的动作。训练一个小型自回归Transformer进行实验,序列时间步H从25到800,以模拟不同频率收集的动作数据。Navie方法表示将动作序列中的每一个元素进行256bins分箱操作。

实验结果表明,分箱方案的模型在低采样频率的条件下预测效果较好,但是随着采样频率增加,预测误差急剧增加。为什么呢?因为自回归模型的训练目标是下一个token预测,因此,他们的学习信号在给定 T 1 : i − 1 T_{1:i-1} T1:i1 的情况下与 T i T_i Ti 的边际信息内容成正比。分箱方案随着采样频率的增加,边际信息接近于零:对于平滑信号,随着时间步长的缩短,每个时间步长的变化成比例地缩小。这极大地减慢了训练收敛速度,并且难以你和复杂的高频数据集。例如,OpenVLA在低频的 BridgeV2 和 RT-1 数据集上运行良好,但是对于高频的 DROID 数据集表现不佳。这说明为机器人动作设计更好的分词器的重要性。

通过时间序列压缩实现高效的动作分词器

在这里插入图片描述

为了解决前述提到的高频动作轨迹中的 冗余会导致每个action token的边际信息量低进而导致训练性能差的问题,需要一种能够将高度冗余的动作信号压缩减少成少量高信息量token的动作离散化方法。

本文使用基于离散余弦变换(DCT)的压缩算法构建FAST。DCT是一种频域变换,它将连续信号表示为各种频率的余弦元素之和。低频捕获信号的整体形状,而高频份量反映尖锐的跳变(sharp jumps)。

图4说明了FAST从原始机器人动作到action token的变换步骤。首先对输入动作进行归一化,然后对每个动作维度应用DCT,为了压缩信号,忽略不重要的系数,得到量化后的稀疏的矩阵。然后将矩阵展平为一个一维整数向量,然后训练一个BPE分词器将其无损压缩成稠密的token。
在这里插入图片描述

通用机器人动作分词器

FAST 中唯一需要学习的组件是 BPE 编码器的词汇表,这个词汇表需要针对分词器应用的每个新数据集进行循例那,虽然只需要几分钟,但也增加了使用FAST的难度。因此,使用100万个1s的动作块训练了一个通用的机器人动作分词器。已经开源并合入到Transformers库了。
在这里插入图片描述

训练所需要的数据集:数据集有多种动作空间:联合空间、末端执行器世界坐标系和末端执行器相机坐标系,以确保所得分词器的通用性。Open X-Embodiment、DROID和Bridge V2则以其原始形式包含在内。 在分词之前,所有动作都填充到32维,以适应不同维度的动作空间。在这里插入图片描述

消融实验

模型基线:pi0、OpenVLA

实验目标:验证FAST分词器+自回归VLA模型的有效性

评估任务

在这里插入图片描述

如图5所示,包含7个评估任务(6个真实机器人任务,1个模拟任务),旨在测试VLA在高度灵巧的任务(例如折叠衣物)和泛化任务(例如在未见环境中进行0样本桌面操作)上的性能。

  • Libero:在Libero [43]模拟基准套件上进行测试。测量了Libero-Spatial、Libero-Object、Libero-Goal和Libero-10的平均性能。
  • 餐桌清理 [7] (20 Hz):一台UR5单臂机器人需要清理桌子,将12个物体分类到垃圾桶(用于垃圾)和塑料容器(用于盘子、碗、杯子和餐具)中。此任务需要精确抓取各种物体。
  • 折叠T恤 [7] (50 Hz):一套双臂ARX机器人需要在一个静止的桌面上折叠各种衬衫。在任务开始时,衬衫平放在桌子上。 成功完成此任务需要精确的抓取和移动才能折叠衬衫。
  • 杂货装袋 [7] (20 Hz):一台UR5单臂机器人需要将 7 个物体从桌子上装入杂货袋中,注意不要弄倒或撕破袋子。 此任务需要拾取各种各样的物体并小心地将它们放入袋中。
  • 从烤面包机中取出吐司 [7] (50 Hz):一台双臂Trossen Viper-X机器人需要从烤面包机中取出两片面包并将它们放在盘子上。 此任务需要精确地抓取和放置面包片。
  • 衣物折叠 [7] (50 Hz):一台双臂ARX机器人需要从篮子里取出衬衫和短裤,将它们平放在桌子上,然后折叠并堆叠起来。 这是我们测试中最灵巧的任务。 它需要精确的抓取,动态的动作来使衣物平整,在衣物缠结时进行重试和纠正,以及将折叠好的衣物精确地放置在现有的衣物堆上。报告了单个服装物品的成功率。
  • 零样本DROID桌面操作 [38] (15 Hz):测试了一个在完整DROID数据集上训练的策略,该策略涵盖各种桌面操作任务,例如拾取和放置物体、擦拭、打开和关闭抽屉等。在未见的环境中测试该策略,该环境具有新的桌子设置、背景、新颖的物体、视角和桌子高度。这是第一次在完全未见的环境中对DROID策略进行“零样本”评估,无需协同训练或微调,只需使用自然语言提示预训练模型即可。

机器人动作分词器对比

在这里插入图片描述

使用1秒的动作片段。FAST分词器对所有数据集都实现了有效的压缩,高频动作上效果更显著,token为20-53。
在这里插入图片描述

先前工作中应用的naive分词方法难以在高频机器人数据上学习有效的策略。最高频的任务中尤为明显:餐桌整理 (20Hz) 和 T 恤折叠 (50Hz)。

在这里插入图片描述

FAST 分词技术实现了在 DROID 数据集上成功训练强大的通用策略,该策略可以通过自然语言提示,在未见过的环境中进行零样本评估,无需微调。所有先前的工作都没有显示零样本结果,而是完全专注于联合训练或微调评估。在三个大学的校园中对各种桌面操作任务进行测试,证明了策略的通用性(图 7)。 无需额外训练,该策略能够熟练地执行简单的操作任务,例如在各种场景和摄像机视角下拾取和放置物体、打开和关闭橱柜以及打开水龙头。即使是不成功的尝试也表现出合理的行为,例如靠近微波炉和洗碗机门的把手,即使最终未能打开它们。

消融研究

回答两个问题:

  • FAST分词方法是否独立于底层VLA主干?
  • BPE压缩步骤有多重要?

在这里插入图片描述

为了回答第一个问题,在高频T恤折叠数据集上训练了一个OpenVLA策略,修改了OpenVLA模型代码以接受多个输入图像并预测1秒的动作块。结果表明,FAST能够显著提高OpenVLA的性能,使其能够有效地训练高频机器人操作数据。这表明,分词方法独立于底层模型主干,并且可以轻松应用于各种预训练的自回归Transformer模型。

在这里插入图片描述

在桌面整理和T恤折叠任务上消融了BPE编码步骤。结果表明,没有BPE编码的策略获得了更差的性能(但仍然优于朴素分词)。 直观地说,DCT变换仍然将大部分信号信息集中在少数几个token中,从而改善了学习信号。 然而,如果没有BPE,就会出现大量重复的值为0的token,这会稀释学习信号,并显著减慢推理速度,因为模型需要自回归地预测数百个动作token,最终导致策略性能下降。

自回归VLA与扩散VLA对比

在这里插入图片描述
图 9 所示,在小型数据集(Libero,折叠T恤;<50小时)上,两种VLA的性能相当。 但是在像搬运桌子这样的大型数据集上,基于FAST的VLA收敛速度明显更快,在训练步骤比π0的扩散变体少3倍的情况下达到了高性能。使用FAST分词训练的自回归 π0 模型更严格地遵循语言指令:在DROID评估中,扩散π0模型经常忽略语言指令,导致分数较低。 未来会继续研究扩散和自回归VLA的语言遵循能力。

自回归VLA的一个当前局限性在于其推理速度:π0使用扩散模型通常可以在NVIDIA 4090 GPU上在100毫秒内预测一秒钟的动作片段,但π0模型使用FAST分词需要大约750毫秒的每个片段推理时间,因为它必须执行更多自回归解码步骤(通常需要解码30-60个动作token,而扩散模型π0需要10个扩散步骤)并使用完整的20亿参数语言模型主干进行自回归解码(而扩散模型π0使用3亿参数的“动作专家”)。 未来会继续研究离散token自回归Transformer模型的推理提速。

实验结论

本文介绍了 FAST,一种用于高频机器人控制数据的动作分词器。FAST使用离散余弦变换(DCT)和字节对编码(BPE)来压缩动作块,使得其具有更好的压缩效果。实验表明,与以前使用的简单动作离散化方法相比,FAST带来了显著的性能提升,并且优于基于矢量量化的更复杂的学习分词方法。

未来工作:
动作分词器。FAST是朝着通用机器人动作分词器迈出的重要一步,但仍有很多问题有待解决。在这项工作对静态机器人机械臂测试了 FAST。FAST+在其他机器人形态(如移动机器人、灵巧手和人形机器人)上具有良好的压缩能力。在这些平台上测试实际策略性能是未来工作的一个令人兴奋的方向。探索替代压缩方案,以及测试基于压缩的动作编码与非自回归解码方法(如扩散[7])的组合,是未来研究的有趣方向。

VLA 架构。本文初步探索了两种主要类型的 VLA 架构(自回归和扩散解码 VLA)之间的权衡,但最佳 VLA 架构仍未确定。未来工作应仔细研究训练速度、语言基础能力和任一方法的表达能力之间的权衡。

推理速度。 虽然π0-FAST 的整体性能与扩散π0匹配,但在推理时间上较慢。未来的工作应该探索加快自回归 VLA 模型推理速度的方法,以使它们能够解决高度动态的任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8743.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能学习框架:深入解析与实战指南

&#x1f4dd;个人主页&#x1f339;&#xff1a;一ge科研小菜鸡-CSDN博客 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; 引言 随着人工智能&#xff08;AI&#xff09;技术的飞速发展&#xff0c;深度学习、强化学习和自然语言处理等领域的应用愈加广…

数据结构(树)

每一个节点包含&#xff1a;父节点地址 值 左子节点地址 右子节点地址 如果一个节点不含有&#xff1a;父节点地址或左子节点地址 右子节点地址就记为null 二叉树 度&#xff1a;每一个节点的子节点数量 二叉树中&#xff0c;任意节点的度<2 树的结构&#xff1a; 二叉查…

TikTok 推出了一款 IDE,用于快速构建 AI 应用

字节跳动(TikTok 的母公司)刚刚推出了一款名为 Trae 的新集成开发环境(IDE)。 Trae 基于 Visual Studio Code(VS Code)构建,继承了这个熟悉的平台,并加入了 AI 工具,帮助开发者更快、更轻松地构建应用——有时甚至无需编写任何代码。 如果你之前使用过 Cursor AI,T…

2025多目标优化创新路径汇总

多目标优化是当下非常热门且有前景的方向&#xff01;作为AI领域的核心技术之一&#xff0c;其专注于解决多个相互冲突的目标的协同优化问题&#xff0c;核心理念是寻找一组“不完美但均衡”的“帕累托最优解”。在实际中&#xff0c;几乎处处都有它的身影。 但随着需求场景的…

项目升级Sass版本或升级Element Plus版本遇到的问题

项目升级Sass版本或升级Element Plus版本遇到的问题 如果项目有需求需要用到高版本的Element Plus组件&#xff0c;则需要升级相对应的sass版本&#xff0c;Element 文档中有提示&#xff0c;2.8.5及以后得版本&#xff0c;sass最低支持的版本为1.79.0&#xff0c;所升级sass、…

机器学习第一道菜(二):玩转最小二乘法

机器学习第一道菜&#xff08;二&#xff09;&#xff1a;玩转最小二乘法 一、线性函数表达式1.1 函数表达式 y y y1.2 函数表达式 f θ ( x ) f_\theta(x) fθ​(x)1.3 最小误差 二、最小二乘法&#xff1a;数据拟合大师2.1 概念及其历史背景2.2 拟合优势2.3 数学表达式2.3.1 …

关于低代码技术架构的思考

我们经常会看到很多低代码系统的技术架构图&#xff0c;而且经常看不懂。是因为技术架构图没有画好&#xff0c;还是因为技术不够先进&#xff0c;有时候往往都不是。 比如下图&#xff1a; 一个开发者&#xff0c;看到的视角往往都是技术层面&#xff0c;你给用户讲React18、M…

Python嵌套循环

# coding: utf-8 print("—————————— 嵌套循环 ——————————")while 表达式1&#xff1a;while 表达式2&#xff1a;语句块2for 循环变量1 in 遍历对象1&#xff1a;for 循环变量2 in 遍历对象2&#xff1a;语句块2 print("—————————…

【MySQL — 数据库增删改查操作】深入解析MySQL的 Retrieve 检索操作

Retrieve 检索 示例 1. 构造数据 创建表结构 create table exam1(id bigint, name varchar(20) comment同学姓名, Chinesedecimal(3,1) comment 语文成绩, Math decimal(3,1) comment 数学成绩, English decimal(3,1) comment 英语成绩 ); 插入测试数据 insert into ex…

【反悔堆】力扣1642. 可以到达的最远建筑

给你一个整数数组 heights &#xff0c;表示建筑物的高度。另有一些砖块 bricks 和梯子 ladders 。 你从建筑物 0 开始旅程&#xff0c;不断向后面的建筑物移动&#xff0c;期间可能会用到砖块或梯子。 当从建筑物 i 移动到建筑物 i1&#xff08;下标 从 0 开始 &#xff09;…

搭建Spring Boot开发环境

JDK&#xff08;1.8及以上版本&#xff09; Apache Maven 3.6.0 修改settings.xml 设置本地仓库位置 <localRepository>D:/repository</localRepository> 设置远程仓库镜像 <mirror><id>alimaven</id><name>aliyun maven</name&…

算法-接雨水

hello 大家好&#xff01;今天开写一个新章节&#xff0c;每一天一道算法题。让我们一起来学习算法思维吧&#xff01; function trap(height) {// 获取柱子数组的长度const n height.length;// 如果柱子数量小于等于 2&#xff0c;无法形成凹槽接雨水&#xff0c;直接返回 0i…

实现B-树

一、概述 1.历史 B树&#xff08;B-Tree&#xff09;结构是一种高效存储和查询数据的方法&#xff0c;它的历史可以追溯到1970年代早期。B树的发明人Rudolf Bayer和Edward M. McCreight分别发表了一篇论文介绍了B树。这篇论文是1972年发表于《ACM Transactions on Database S…

Fort Firewall:全方位守护网络安全

Fort Firewall是一款专为 Windows 操作系统设计的开源防火墙工具&#xff0c;旨在为用户提供全面的网络安全保护。它基于 Windows 过滤平台&#xff08;WFP&#xff09;&#xff0c;能够与系统无缝集成&#xff0c;确保高效的网络流量管理和安全防护。该软件支持实时监控网络流…

OpenCV:图像处理中的低通滤波

目录 简述 什么是低通滤波&#xff1f; 各种滤波器简介与实现 方盒滤波 均值滤波 中值滤波 高斯滤波 双边滤波 各种滤波的对比与应用场景 相关阅读 OpenCV基础&#xff1a;图像变换-CSDN博客 OpenCV&#xff1a;图像滤波、卷积与卷积核-CSDN博客 简述 低通滤波是一…

某公交管理系统简易逻辑漏洞+SQL注入挖掘

视频教程在我主页简介或专栏里 目录: 某公交管理系统挖掘 SQL注入漏洞 越权漏洞 某公交管理系统挖掘 SQL注入漏洞 前台通过给的账号密码,进去 按顺序依次点击1、2、3走一遍功能点&#xff0c;然后开启抓包点击4 当点击上图的4步骤按钮时&#xff0c;会抓到图下数据包&a…

【数据结构】_链表经典算法OJ:分割链表(力扣—中等)

目录 1. 题目描述及链接 2. 解题思路 2.1 思路1 2.2 思路2 2.3 思路3&#xff08;本题采取该解法&#xff09; 3. 题解程序 1. 题目描述及链接 题目链接&#xff1a;面试题 02.04. 分割链表 - 力扣&#xff08;LeetCode&#xff09; 题目描述&#xff1a; 给你一个链表…

工业相机 SDK 二次开发-VC6.0 程序示例

本文主要介绍了使用工业相机SDK(Software Development Kit)开发C程序方法及过 程。在 SDK 开发包目录下&#xff0c;提供了 13 个 VC6.0 示例程序&#xff0c;其中 MFC 程序 5 个&#xff0c;分别为 BasicDemo、ReconnectDemo、SetIODemo、ForceIpDemo、MultipleCamera&#xf…

选择困难?直接生成pynput快捷键字符串

from pynput import keyboard# 文档&#xff1a;https://pynput.readthedocs.io/en/latest/keyboard.html#monitoring-the-keyboard # 博客(pynput相关源码)&#xff1a;https://blog.csdn.net/qq_39124701/article/details/145230331 # 虚拟键码(十六进制)&#xff1a;https:/…

初阶1 入门

本章重点 C的关键字命名空间C的输入输出缺省参数函数重载引用内联函数auto关键字基于范围的for循环指针的空值nullptr 1.C的关键字 c总共有63个关键字&#xff0c;其中包含c语言的32个 这些关键字不需要特意去记&#xff0c;在我们日后写代码的过程中会慢慢用到并记住。 2.…