GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)

前言

过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过CSDN私我及我司「七月在线」寻求帮助/指导(当然,也欢迎各大开发团队与我司合作共同交付):

  • 要么是做科研想复现
  • 要么是工厂想做自动化生产线的智能升级
  • 要么是想通过机械臂/人形解决各种业务场景问题

让我感慨:二零一一年,因为算法,首次有「天下无人不识君」的感觉,过去这两年,因为大模型和具身机器人,再次有了这感觉

具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且所有点我都做了详尽而细致的解读,点击下表中对应的文字即可阅读,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接

2024年具身前沿模型/策略大汇总说明补充备注典型代表
通用之路:Robotics VLM和VLA中的动作预测专门的action head

基于LSTM

Robotics VLM:字节RoboFlamingo
基于diffusion modelRobotics VLM:Octo
VLA:TinyVLA(diffusion-based head)
基于流匹配VLA:π0 (流匹配微调VLM)
基于Diffusion Transformer(DiT)VLA:CogACT(相比Octo的头 更大)
基于下一个token预测技术预测动作token对于离散化token动作表示,即指将机器人的每个动作维度分别离散化为 256 个箱子中的一个VLA:RT-2、OpenVLA(相当于RT-2开源版)
模型训练方法预训练的VLA先对VLM基于机器人数据(开源OXE + 自采,或只开源OXE)做二次预训练(模仿人类)变成VLA,再真实环境中微调VLAπ0:先在高度多样化的开源 + 自采机器人数据上进行预训练——变成了相比不二次预训练情况下更强大的VLA,然后针对所需任务进行微调
RT2和OpenVLA:只在开源OXE上做的预训练
不用预训练的VLA其考虑到预训练成本较高TinyVLA
预训练的Robotics VLM针对VLM的二次预训练,通过开源OXE训练VLM变成Robotics VLMOcto:在Open X-Embodiment数据集上进行预训练
不预训练的Robotics VLM没有针对VLM的二次预训练,而是直接机器人数据微调VLM变成Robotics VLM字节RoboFlamingo:使用简单、少量的微调就可以把 VLM 变成 Robotics VLM
直接真实环境中RL开训,摒弃仿真真实环境中得到的RL数据微调VLM + 机器人动作微调:RL训练运行创建的数据集,可以用于二次训练,代替人类提供的例子(效果如何 待验证)UC伯克利的Sergey Levine,于24年年底在DAI 2024上的演讲:RLDG——Reinforcement Learning Distilled Generalist
结合视觉和人类示教与纠正的RL方法,目前暂时还是小众赛道UC伯克利的HIL-SERL
RL仿真 + VR遥操重定向 + sim to real(师生学习/策略蒸馏) + VR遥操
OmniH2O
RL仿真训本体 + RGB遥操部署Retargeting、Sim-to-Real、RGB Real-time遥控H2O:通过重定向清除不可行的动作,然后仿真训练,最后RGB实时遥操作部署(使用训练好的Sim-to-Real模仿策略进行模仿)
仿真中训小脑HST(仿真中训练好之后,RGB遥操部署)
且其真实中训大脑HIT
HumanPlus:RL仿真训本体 + 人类示教(模仿学习/行为克隆)训大脑
静态数据训练 + 人类示教比如通过示范数据做行为克隆,更结合前身ALOHA的静态数据做协同训练Mobile ALOHA
动作预测策略iDP3(改进的3D diffusion policy)可落地在人形机器人上斯坦福iDP3
3D diffusion policy将3D视觉表示与扩散策略3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
Diffusion Policy(还可基于点云)diffusion policy基于扩散模型UMI/dexcap
Diffusion Transformer(DiT)基于Diffusion Transformer(DiT)改造

​清华RDT

预测与动作扩散器PAD:通过联合去噪同时预测未来图像和动作Prediction with Action: Visual Policy Learning via Joint Denoising Process

ACT

ACT基于Transformer

Mobile ALOHA

基于下一个token预测技术预测动作token基于类似下个token预测策略
伯克利Digit
训练数据来源

1 人类行为视频数据(比如MimicPlay)

2 开源数据(比如Open X-Embodiment等)

3 仿真数据

4 人工收集

左边第4种——人工数据收集方式的有:

手持夹爪,收集方便

这几种人工收集方式分别以如下 为代表

umi/fastumi

动作捕捉,精度较高dexcap
遥操,精度很高主从机械臂遥操数据ALOHA

VR遥操Open-television 

有意思的是,其中的RDT、π0都通过聚合各大机器人数据集先做预训练,然后微调,且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线(其实搞具身的如果顺着大语言模型的发展路线走,至少大方向上,不会有太多差错),比如

  • 17-20年,以BERT、GPT为代表的预训练-微调模式
    且从GPT3起,模型的参数规模越来越大,慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
  • 途中经历过GPT3.5的RLHF微调(而巧的是本文要介绍的GRAPE便是通过RLHF微调VLA模型)
  • 及至到GPT4之后,模型在各方面的能力逼近人类甚至超越人类

你说,是不是有趣?且越往后越会发现

  1. 大模型和机器人的融合会越来越深入、彻底,很多大模型的技术会加速嵌入至机器人中
  2. 所以说,如果懂大模型对搞具身智能是好处多多的(包括本文涉及的RLHF,如果深入搞过大模型的话,则会和我一样 太熟悉不过了——毕竟两年前,我就是从开写ChatGPT及背后的RLHF开卷的,而写本文时,是在24年12.31日凌晨,真是与23年年初开写ChatGPT原理解析,遥相呼应,算是给这两年弄上一个完美的纪念),建议大家好好学,^_^

第一部分 GRAPE:通过偏好对齐实现机器人策略的泛化

1.1 GRAPE的提出背景与相关工作

1.1.1 提出背景

近年来,视觉-语言-动作(VLA)模型的快速发展简化了一般的机器人操作任务,在受控环境变化的一系列任务中展示了令人印象深刻的能力

然而,这些模型面临几个关键挑战,例如在新环境、对象、任务和语义上下文中的泛化能力差[26-Openvla]。导致这一限制的一个重要因素是它们依赖于监督微调(SFT),即VLA通过行为克隆简单模仿成功演练的动作,而未能对任务目标或潜在失败模式形成整体理解[27-Should i run offline reinforcement learning or behavioral cloning?]

  1. 虽然像PPO[42]这样的强化学习(RL)算法在增强其泛化能力方面表现出色[52-Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning],但收集足够的在线轨迹和明确定义奖励的高成本使其在训练VLA时不切实际[44-Octo]
  2. 此外,训练VLA仅仅复制专家行为通常会导致行为崩溃[28-Training language models to self-correct via reinforcement learning,即通过强化学习进行自我纠正,详见此文的2.3 Self-Correct之SCoRe:通过多轮强化学习进行自我纠正],即计划的轨迹往往次优[26-Openvla]

    这是因为SFT数据集通常未经策划,由从专家处收集的离线演示组成,这些演示隐含地嵌入了不同的价值观(例如任务完成、安全性和成本效益),而这些并未在数据中明确定义[36-Open x-embodiment,45-Bridgedata v2]
    总之,简单地通过SFT模仿这些行为可能会混淆模型,并导致次优-偏离演示实际目标的恶意轨迹
  3. 一些方法试图通过明确定义一组目标并分层解决它们来应对这一挑战 [24-Rekep,详见此文《ReKep——李飞飞团队提出的让机器人具备空间智能:基于VLM模型GPT-4o和关系关键点约束(含源码解析)》]。然而,这种方法会带来额外的推理开销,并且缺乏可扩展性 [30-HAMSTER: Hierarchical action models for open-world robot manipulation]

为了解决这些问题,24年,来自北卡罗来纳大学教堂山分校和华盛顿大学的研究者提出了GRAPE(Generalizing Robot Policy via Preference Alignment):通过偏好对齐来泛化机器人策略,以减轻使用强化学习目标训练VLA的高成本,同时提供灵活性以实现定制化操控目标的对齐

  • 其对应的论文为《GRAPE: Generalizing Robot Policy via Preference Alignment》
    论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao,共同第一作者为华盛顿大学 Kaiyuan Zheng
    其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox,以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang
  • 如下图图2所示,GRAPE引入了轨迹偏好优化(trajectory-wise preference optimization,简称TPO),通过隐式建模成功和失败试验的奖励,在轨迹层面对VLA策略进行对齐,从而提升对多样化任务的泛化能力

    具体而言
    1) 给定一个复杂的操作任务(顶部),GRAPE首先采用视觉语言模型将任务分解为几个时间阶段,然后识别每个阶段子任务完成所需的空间关键点
    Given a complex manipulation task (top), GRAPE first adopts a vision-language model to decompose thetask into several temporal stages, then identifies spatial keypoints essential for each stage’s subtask completion.
    2) 然后,给定用户指定的对齐目标,GRAPE提示一个强大的视觉语言模型比如GPT4o——为每个阶段获得一系列成本函数,其中较低的成本意味着更高的对齐合规性
    Then given user-specifiedalignment goals, GRAPE prompts a powerful vision-language model to obtain a series of cost functions for each stage, where lower costimplies higher alignment compliance.
    3) 在迭代偏好优化过程中(底部),作者从基础VLA模型中采样多个离线轨迹,并获得具有相关多阶段成本的轨迹。该评分进一步结合了模型对每条轨迹的自我评估和二元任务成功指示器
    During iterative preference optimization (bottom), we sample multiple offline trajectories from thebase VLA model and obtain trajectories with associated multi-stage costs. This score further incorporates the model’s self-evaluation ofeach trajectory and a binary task success indicator.
    4) 再之后,根据采样轨迹的相应得分对其进行排名,以获得偏好列表
    Then we rank the sampled trajectories with their corresponding scores to obtain a list ofpreferences.
    5) 最后,执行轨迹偏好优化以获得改进的模型,从中进一步采样在线轨迹并迭代直到收敛
    Then we perform a trajectory-wise preference optimization to obtain a improved model, from which we further sample onlinetrajectories and iterate until convergence
  • 且为了进一步缓解轨迹排序和提供任意对齐目标偏好的难度,GRAPE建议将复杂的操控任务分解为多个独立阶段,并采用大型视觉模型为每个阶段提出关键点,每个关键点都与时空约束相关
    值得注意的是,这些约束是灵活的,可以定制以使模型与不同的操控目标对齐,例如任务完成、机器人交互安全性和成本效益

1.1.2 相关工作:VLA、强化学习与偏好优化

第一方面,先前的机器人学习工作[14,23-Voxposer,24-Rekep,30-HAMSTER,31-Code as policies,34-Robocodex,35-Embodiedgpt]通常采用分层规划策略

例如,Code asPolicies[31]和EmbodiedGPT[35]采用LLMs和VLMs首先生成一系列高层次的行动计划,然后进一步利用低层次的控制器来解决局部轨迹

然而,这些模型存在低层次技能有限的问题,难以推广到日常任务中

好在VLA通过将大型视觉语言模型作为骨干并直接在模型内生成动作,倾向于扩展低层次任务。它们通常通过两种主流方法实现动作规划:

  1. 动作空间的离散化 [6-Rt-1,7-Rt-2,26-Openvla],例如 Open-VLA [26],它保留了自回归语言解码目标,并将动作空间均匀地截断为一小组动作token
    由于这种离散化不可避免地引入误差,一些方法如π0 [4-π0,详见此文《π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)》] 采用更新的结构 [53-Transfusion] 并直接集成扩散头diffusion head进行动作预测,以避免离散化
  2. 扩散模型[2,16-Diffusion policy,18-Diffusion models beat gans on image synthesis,25- Planning with diffusion for flexible behavior synthesis,32-Adaptdiffuser,49-Chaineddiffuser]——如 Diffusion Policy [16]作为动作头,不是每次生成一个逐步的动作,而是通过几个去噪步骤生成一系列未来动作

虽然这些模型在结构上有所不同,但它们始终通过行为克隆对成功的展开进行监督训练(they are consistently supervised-trained on successful rollouts via behavior cloning),这很难推广到未见过的操作任务

然而,我们的GRAPE首先通过试错在轨迹层面对VLA策略进行对齐,有效提高了可推广性和可定制性

第二方面,强化学习RL

  1. [17-2017年6月OpenAI联合DeepMind首次正式提出的:Deep Reinforcement Learning from Human Preferences,即基于人类偏好的深度强化学习,简称RLHF,详见此文《ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT》,
  2. 42-PPO「详见此文《强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO》的第4部分」,
  3. 56-Fine-Tuning Language Models from Human Preferences,OpenAI进一步阐述RLHF的文章]

在SOTA基础模型(FMs)的后训练中发挥着关键作用,包括

  • 文本生成模型[1-GPT4,12,15,19-The llama 3 herd of models,39- Training language models to follow instructions with human feedback,即instructGPT,详见上面刚提到过的ChatGPT原理解析]
  • 图像生成模型[13- Mj-bench: Is your multimodal reward model really a good judge for text-toimage generation?,20-DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models]
  • 视频生成[50- Cogvideox: Text-to-video diffusion models with an expert transformer]

这些模型通过偏好数据的嵌入被广泛用于使预训练的FMs与人类价值观对齐

同时,RL在训练机器人任务的策略方面也取得了巨大成功

  • [10-Decision transformer: Reinforcement learning via sequence modeling,
  • 11-Towards human-level bimanual dexterous manipulation with reinforcement learning,
  • 14- Safe reinforcement learning via hierarchical adaptive chanceconstraint safeguards,
  • 42-PPO,47-EscIRL: Evolving self-contrastive IRL for trajectory prediction in autonomous driving,
  • 48- Unidexfpm: Universal dexterous functional pre-grasp manipulation via diffusion policy,55-Dexterous manipulation with
  • deep reinforcement learning: Efficient, general, and lowcost]

尽管直观上通过RL后对齐VLA是有益的,但之前的工作尚未报告这样的成功,主要是因为

  1. 操作目标通常多样且复杂,使得奖励难以进行分析性定义[21];
  2. 虽然这种奖励可以从人类偏好中建模,但在机器人操作任务中标注此类偏好通常耗时复杂,且需要人类专业知识[45]
  3. 奖励的不完美数值微分通常会导致RL算法——如PPO[42] 崩溃[8-Reinforcement learning for control: Performance, stability, and deep approximators]

然而,最近的一些研究[40- Direct preference optimization: Your language model is secretly a reward model,详见《RLHF的替代之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr》,46-Preference optimization with multi-sample comparisons]显示了无需这种显式奖励建模即可直接通过RL对策略进行对齐的成功

受此启发,GRAPE通过对比轨迹来对齐策略,从而避免了奖励建模中的数值问题。此外,作者引入了一种自动偏好合成管道,可以轻松扩展到各种操作任务,并能够适应不同的对齐目标

1.2 通过偏好对齐来推广机器人策略

在推理过程中,VLA 通常以任务指令q 初始化,并且在每个时间步t,它接收环境观察o_{t}(通常是一张图像)并输出一个动作a_{t},如此可以将\pi_{\theta}\left(a_{i} \mid\left(o_{i}, q\right)\right)表示为由\theta 参数化的VLA 的动作策略

为了完成任务,VLA 与环境反复交互并获得长度为T 的轨迹\zeta=\left\{o_{1}, a_{1}, \cdots, o_{T}, a_{T} \mid q\right\}。通常,VLA通过SFT 进行微调以模仿专家行为(定义为方程1):

\mathcal{L}_{\mathrm{SFT}}=-\sum_{(\zeta, q) \in \mathcal{D}} \sum_{t=1}^{T} \log p\left(a_{t} \mid o_{t}, q ; \pi_{\theta}\right)

其中,\mathcal{D}=\left\{\left(\zeta_{1}, q_{1}\right), \ldots,\left(\zeta_{N}, q_{N}\right)\right\}表示包含N个专家轨迹的训练集,具体来说,\mathcal{L}_{\mathrm{SFT}} 迫使VLA 记住从分布\mathbb{P}_{\mathcal{D}}中采样的每个观察相关的动作,导致对新任务环境的泛化能力较差

值得注意的是,虽然遵循Brohan 等人[7-Rt-2] 和O’Neill 等人[36-Open x-embodiment] 的做法,并基于马尔可夫决策过程MDP假设[43-Richard S Sutton. Reinforcement learning: An introduction. A Bradford Book, 2018] 考虑逐步策略

  1. 但作者的方法可以很容易地适应非MDP 情况,该情况将过去的交互历史(通常是视频或一系列图像)作为状态[9-Gr-2,详见此文《字节GR2——在大规模视频数据集上预训练且机器人数据上微调,随后预测动作轨迹和视频(含GR1详解)》]以及扩散策略[16-Diffusion policy]
  2. 其一次生成多个未来步骤[44-Octo]「which takes past interaction histories (usually a video or a series of images) as state [9] and diffusion policy [16] which generates multiple futuresteps all at once [44]

1.2.1 TPO:轨迹偏好优化(直接用的DPO的思想)

先来进一步解释下图中右下角的Trajectory-wise Preference Optimization

为了提高泛化能力,作者遵循

  • Bai等人[3-Training a helpful and harmless assistant with reinforcement learning from human feedback,相当于早在2022年4月份,目前OpenAI最大的竞争对手Ahthropic就发了其LLM论文:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,这篇论文和OpenAI的instructGPT论文极其相似 (如果你之前还没看到instructGPT论文,或者尚不了解ChatGPT的三阶段训练方式,强烈建议先看此文:ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT),也就比后者晚发布40多天]
  • Schulman等人[42-Proximal policy optimization algorithms,即PPO算法的工作

并通过RL目标进一步微调VLA策略

  1. r_{\phi}表示由\phi参数化的奖励函数,从而有(定义为方程2)
    \max _{\pi_{\theta}} \mathbb{E}_{\zeta \sim \pi_{\theta}}\left[r_{\phi}(\zeta)\right]-\beta D_{\mathrm{KL}}\left[\pi_{\theta}(\zeta) \| \pi_{\mathrm{ref}}(\zeta)\right]

    其中,\beta控制与通过SFT 在方程(1) 中训练的基础参考策略\pi_{\mathrm{ref}} 的偏差,\pi(\zeta, q)是在指令q 下策略\pi 生成整个轨迹\zeta 的可能性
  2. 然后作者遵循Rafailov 等人的方法[40-Direct preference optimization: Your language model is secretly a reward model,即DPO,详见此文《RLHF的替代之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr》],推导出轨迹奖励r(\zeta)的解析重参数化为(定义为方程3)
    r(\zeta, q)=\beta \log \frac{\pi_{\theta}(\zeta \mid q)}{\pi_{\mathrm{ref}}(\zeta \mid q)}+\beta \log Z(\zeta)
  3. 类似于Rafailov 等人[40-即DPO],作者采用Bradley-Terry(BT) [5-Rank analysis of incomplete block designs: I. the method of paired comparisons] 模型,并从一组带有偏好排序的轨迹中对r_{\phi}进行建模

    具体来说,\zeta_{w}\zeta_{l} 分别表示从相同初始状态开始的被选择和被拒绝的轨迹,可以将轨迹奖励建模目标公式化为(定义为方程4)
    P\left(\zeta_{w} \succ \zeta_{l}\right)=\frac{\exp \left(r\left(\zeta_{w}\right), q\right)}{\exp \left(r\left(\zeta_{w}\right), q\right)+\exp \left(r\left(\zeta_{l}\right), q\right)}
  4. 然后,我们遵循Rafailov等人DPO[40]的方法,将公式(3)代入公式(4),得到如下轨迹偏好优化(TPO)损失\mathcal{L}_{\mathrm{TPO}},相当于公式(2)——定义为方程5
    -\mathbb{E}_{\left(\zeta_{w}, \zeta_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta\left(\log \frac{\pi_{\theta}\left(\zeta_{w}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{w}\right)}-\log \frac{\pi_{\theta}\left(\zeta_{l}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{l}\right)}\right)\right)\right]
  5. 然后可以进一步从MDP中提取,并将轨迹\zeta的可能性分解为单个状态-动作对,即\pi(\zeta, q)=\prod_{i=1}^{T} \pi\left(a_{i} \mid\left(o_{i}, q\right)\right)

    且进一步获得(定义为方程6)
    \log \frac{\pi_{\theta}(\zeta, q)}{\pi_{\mathrm{ref}}(\zeta, q)}=\sum_{t=1}^{T} \log \frac{\pi_{\theta}\left(a_{i} \mid\left(o_{i}, q\right)\right)}{\pi_{\mathrm{ref}}\left(a_{i} \mid\left(o_{i}, q\right)\right)}

    最后,可以将方程(6) 代入方程(5),以获得逐步状态-动作对形式的TPO 损失\mathcal{L}_{\mathrm{TPO}}

最终得到的TPO损失方程6是有益的,因为它:

  1. 通过简单地使用VLA收集的逐步回合,将策略\pi_{\theta}在轨迹级别上全局对齐到人类偏好
  2. 通过在整个轨迹的状态-动作对中反向传播梯度,稳定策略并引导其朝向最终目标
  3. 通过通过RL目标从成功和失败的轨迹中学习,显著提升泛化能力。尽管Finn等人[21-Guided cost learning: Deep inverse optimal control via policy optimization]指出,扩大采样轨迹的规模可以减少奖励建模中的偏差,但这也增加了训练成本
    因此,虽然作者的方法可以轻松扩展,但作者还是建议将讨论限制在仅存在一个选择/拒绝轨迹的二进制情况

1.2.2 引导成本偏好生成:Guided-Cost Preference Generation(GCPG)

然后,再来进一步解释下图右上角,及下图底部的中间部分:目标对齐下的多阶段成本、模型自我奖励、任务是否成功的二元指示器

虽然在给定 TPO 目标方程(5)的情况下,可以通过根据相应偏好排序的轨迹来对策略进行任意目标的对齐,但这会产生很高的成本,因为它需要人类专业知识和冗长的手动注释

因此,为了更好地扩展偏好合成以实现任意对齐目标(例如任务完成、安全性、效率),作者提出引导成本偏好生成 (GCPG),以自动策划集成不同对齐目标的此类偏好we propose Guided-Cost Prefer-ence Generation (GCPG) to automatically curate such pref-erences that integrate different alignment objectives

首先,针对多阶段时间关键点约束(Multi-Stage Temporal Keypoint Constraints)

  • 基于Huang 等人[24-Rekep,详见《ReKep——李飞飞团队提出的让机器人具备空间智能:基于VLM模型GPT-4o和关系关键点约束(含源码解析)》] 的见解,作者通过将轨迹分解为时间阶段,并为每个阶段分配成本以量化性能,来解决复杂操作任务中指定精确轨迹偏好的复杂性
  • 然后,聚合这些特定阶段的成本,以获得对每个轨迹的整体评价

具体来说,采用基于VLM 的阶段分解器\mathcal{M}_{D}(更多详见附录A),将轨迹\zeta 划分为一系列\mathbf{S} 连续阶段,公式化为(定义为方程7)

\left\{\zeta^{1}, \ldots, \zeta^{S}\right\}=\mathcal{M}_{D}(\zeta, q), \quad \zeta^{i}=\left\{\left(o_{t}^{i}, a_{t}^{i}\right)\right\}_{t=1}^{T_{i}}

其中\zeta^{i} 表示轨迹\zeta 的第i^{\text {th }} 阶段

  1. 在获得阶段分解后,作者进一步使用视觉-语言模型「例如DINOv2 [37]-详见此文《从DINO、DINOv2到DINO-X——自监督视觉Transformer的升级改进之路(基于ViT)》的第二部分」来识别在各个阶段作为参考指标的关键点
  2. 然后,作者提示一个强大的LLM [1-GPT4o] 为每个阶段提出多个成本函数(参见附录E.2 中的示例),这些函数与对齐目标相对应,其中较低的成本表示更好的目标符合性
  3. 接着,在阶段S_{i} 的成本C^{S_{i}} 被公式化(定义为方程8)
    C_{S_{i}}=\sum_{j=1}^{N_{S_{i}}} \beta_{j} \max \left(0, C_{j}^{S_{i}}\left(\left\{\kappa_{S_{i}}\right\}-\tau_{j}^{S_{i}}\right), \quad j \in\left\{1, \ldots, N_{S_{i}}\right\}\right.

    其中
    \rightarrow  C_{j}^{S_{i}}\left(\left\{\kappa_{S_{i}}\right\}\right)表示在阶段S_{i} 中使用关键点子集\left\{\kappa_{S_{i}}\right\}计算的第j^{\text {th }} 个成本
    \rightarrow  \tau_{j}^{S_{i}}是一个可调的阈值参数,来调整每个成本的容忍度——只有当成本超过阈值时才会应用
    \rightarrow  \beta_{j}是一个权重参数,用于调整每个成本的重要性
  4. 最后,为了汇总整个轨迹的成本,作者不是线性地对每个阶段求和,而是应用指数衰减来捕捉每个时间阶段的因果依赖关系(例如,如果一个轨迹在前面的阶段产生了高成本,则不期望其随后表现良好)
    定义为外部奖励(是为方程9)
    R_{\mathrm{ext}}(\zeta)=\prod_{i=1}^{\mathbf{S}} e^{-\sum_{j=1}^{N_{S_{i}}} \beta_{j} \max \left(0, C_{j}^{S_{i}}\left(\left\{\kappa S_{i}\right\}-\tau_{j}^{S_{i}}\right)\right.}

    其中,方程9汇总了每个阶段的个体成本和子目标,以应对维度灾难,并有效地遵循定制化的对齐方式

其次,针对引导成本偏好生成

为了进一步提高偏好合成的稳定性和最优性,作者从自我奖励[54- Calibrated self-rewarding vision language models]中获得灵感,并确定更优的轨迹应该由外部评判「如公式(9)所示」和模型本身确认

因此,作者加入了两个额外的奖励并获得了GCPG奖励

  • 首先是方程10——相当于是对方程9 11 12的汇总
    R_{\mathrm{GCPG}}(\zeta)=\lambda_{1} R_{\text {self }}(\zeta)+\lambda_{2} R_{\mathrm{ext}}(\zeta)+\lambda_{3} I_{\text {success }}(\zeta)

    其中R_{\text {self }}(\zeta)是由π 提供的自评得分,其等于生成轨迹\zeta 的对数似然(定义为方程11)R_{\text {self }}(\zeta)=\log (\pi(\zeta, q))=\log \left(\prod_{i=1}^{T} \pi\left(a_{i} \mid\left(o_{i}, q\right)\right)\right)
  • 其次是,I_{\text {success }}(\zeta)——一个二元指示函数,指示轨迹\zeta 是否成功完成任务(定义为方程12)
    I_{\text {success }}(\zeta)=\left\{\begin{array}{ll} 1, & \text { if } \zeta \text { is successful } \\ 0, & \text { otherwise } \end{array}\right.
    其中\lambda 是调整每个奖励重要性的权重参数

直观上,方程(11) 可以看作是方程(12) 所提供的稀疏信号的密集近似,这些信号通过方程(9) 进一步校准,以获得对轨迹的整体评估,该评估既考虑其最优性,又考虑通过方程(9) 中的外部奖励指定的定制目标的对齐程度

1.2.3 迭代偏好优化Iterative Preference Optimization

最后,再解释下图最右下角的迭代优化过程

在生成偏好之后,接着讨论迭代偏好优化策略。受在线策略强化学习[42-PPO]实践的启发,这些实践通常比离线训练产生更优的策略

故作者通过在线收集的轨迹使用TPO迭代微调SFT VLA模型

例如,在第k^{\text {th }} 次迭代中

  1. 首先为各种任务采样大量轨迹并获得\mathcal{D}^{k}
  2. 然后使用公式(10)计算每条轨迹的成本,并根据每个任务对这些轨迹进行排序
    R_{\mathrm{GCPG}}(\zeta)=\lambda_{1} R_{\text {self }}(\zeta)+\lambda_{2} R_{\mathrm{ext}}(\zeta)+\lambda_{3} I_{\text {success }}(\zeta)
  3. 将每个任务的前m 和后m 条轨迹配对,获得m^{2} 个选择-拒绝轨迹对
  4. 然后通过公式(5) 使用TPO 微调相同的采样策略,获得更新后的策略
    -\mathbb{E}_{\left(\zeta_{w}, \zeta_{l}\right) \sim \mathcal{D}}\left[\log \sigma\left(\beta\left(\log \frac{\pi_{\theta}\left(\zeta_{w}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{w}\right)}-\log \frac{\pi_{\theta}\left(\zeta_{l}\right)}{\pi_{\mathrm{ref}}\left(\zeta_{l}\right)}\right)\right)\right]
    重复这一过程K 次,并获得与目标目标对齐的最终模型

对了,作者在算法1 中详细介绍了GRAPE迭代偏好优化过程


至此,可能你也看出来了,其实GRAPE

更像Ahthropic的Claude的训练方式——RAIHF详见此文《RLHF的替代之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr》的1.3 节Claude的两阶段训练方式:先监督微调 后RAIHF

为何这么说呢?因为GRAPE的本质质是类似 给VLA上RLAIF,这个AI即GPT4o在对齐目标的前提下计算各个轨迹的成本,然后根据计算结果自动排序(不像RLHF 得人工对结果做排序),根据排序结果选择优-差对做DPO优化,所以可以不断刺激机器人选择更优的运动策略——从而不断优化机器人的运动轨迹

1.3 实验设置

作者采用OpenVLA [26] 作为基础模型,使用LoRA 微调和AdamW 优化器进行监督和偏好微调。在监督微调阶段,作者使用学习率4 × 10−5,批量大小为16

对于偏好微调应用学习率2 × 10−5,使用相同的批量大小。有关训练过程和数据集的更多详细信息,请参见附录A 和B

在基线模型的选择上,作者将GRAPE与两个在机器人控制任务中以强大性能著称的领先机器人学习模型进行比较

  • 第一个模型是Octo [44-详见此文《从Octo、OpenVLA到TinyVLA、CogACT——视觉语言动作模型VLA的持续升级(RT-2和π0在其他文章介绍)》],一个基于大型transformer的策略模型
  • 第二个模型是OpenVLA [26,详见此文],一个7B视觉-语言-动作模型

这两个模型均使用从相应环境中采样的相同数据集进行了监督微调。作者分别将监督微调后的模型称为Octo-SFT和OpenVLA-SFT

1.3.1 在真实世界机器人环境中的评估

在真实世界实验中,GRAPE在各种任务中显著优于其他模型

  • 值得注意的是,在领域内任务中,GRAPE达到了67.5%的成功率,比OpenVLA-SFT的45%提高了22.5%,且远高于Octo-SFT的20%
  • 此外,在视觉泛化任务中,GRAPE展示了更高的适应性,成功率为56%
  • 在更具挑战性的动作泛化任务中,尽管OpenVLA-SFT表现尚可,但GRAPE仍优于OpenVLA-SFT,显示了其理解各种动作和基于语言执行命令的潜力

综合所有类别的任务,GRAPE的总平均成功率为52.3%,比OpenVLA-SFT的33.3%提高了19%,且远高于Octo-SFT的5.8%。这一表现突出了GRAPE在处理复杂和多变任务环境中的有效性和高适应性

1.3.2 奖励模型的消融研究

在本节中,作者进行消融研究以分析方程10中每个奖励组件的贡献

R_{\mathrm{GCPG}}(\zeta)=\lambda_{1} R_{\text {self }}(\zeta)+\lambda_{2} R_{\mathrm{ext}}(\zeta)+\lambda_{3} I_{\text {success }}(\zeta)

最终性能的评估对象包括:外部目标对齐奖励R_{\mathrm{ext}}(\zeta),自我评估奖励R_{\text {self }}(\zeta),以及成功指示器I_{\text {success }}(\zeta)

此外,还进行了一项单独的消融研究,以强调使用整个奖励得分进行偏好选择的重要性。该方法与随机选择一个成功轨迹作为首选轨迹和一个失败轨迹作为拒绝轨迹的方法进行了比较

Simpler-Env 环境中的结果在下表表1 中报告

结果表明:

  1. 将完整的奖励评分方程(10) 用于偏好排序相比仅基于成功的随机选择显著提高了性能;
  2. 所有奖励组件都有助于提高模型性能。这些发现与预期一致
    具体来说,Rself (ζ) 通过鼓励模型选择具有更高生成概率的轨迹来增强GRAPE 模型的稳健性。同时,Rext (ζ) 引导模型学习特定行为,如安全性和效率。最后,Isuccess (ζ) 起到作为一个关键指标的作用,引导模型优先考虑成功的轨迹

总之,GRAPE通过从成功和失败的尝试中学习来增强泛化能力,并通过定制的时空约束提供与安全性、效率和任务成功等目标对齐的灵活性

实验结果表明,GRAPE在域内和未见任务上显著提高了成功率,同时实现了灵活的对齐。虽然GRAPE在泛化和对齐灵活性方面表现出显著的改进,但它也有一些局限性

  • 首先,对偏好排序的依赖需要足够多样化的轨迹,这可能限制在仅有有限任务设置的场景中的应用
  • 其次,虽然GRAPE支持可定制的对齐,但特定目标的阈值参数的手动调整可能引入主观偏见,并需要领域专业知识。未来的工作可能会探索更高效和自动化的偏好合成和适应方法

// 待更

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/500548.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于 LangChain 实现数据库问答机器人

基于 LangChain 实现数据库问答机器人 一、简介二、应用场景三、实战案例1、需求说明2、实现思路3、对应源码 一、简介 在 Retrieval 或者 ReACT 的一些场景中,常常需要数据库与人工智能结合。而 LangChain 本身就封装了许多相关的内容,在其官方文档-SQ…

Kali 自动化换源脚本编写与使用

1. 背景与需求 在使用 Kali Linux 的过程中,软件源的配置对系统的更新与软件安装速度至关重要。 Kali 的默认官方源提供了安全且最新的软件包,但有时由于网络条件或地理位置的限制,使用官方源可能会出现速度较慢的问题。 为了解决这一问题&a…

1Panel自建RustDesk服务器方案实现Windows远程macOS

文章目录 缘起RustDesk 基本信息实现原理中继服务器的配置建议 中继服务器自建指南准备服务器安装1Panel安装和配置 RustDesk 中继服务防火墙配置和安全组配置查看key下载&安装&配置客户端设置永久密码测试连接 macOS安装客户端提示finder写入失败hbbs和hbbr说明**hbbs…

Maple软件的安装和使用

文章目录 1.前言说明2.我为什么要学习Maple3.软件的安装4.如何使用4.1基本的赋值语句4.2函数的定义4.3三个类型的书写介质 5.指数运算5.1使用面板5.2自己输入 6.对数的使用 1.前言说明 众所周知,我虽然是一名这个计算机专业的学生,但是我对于数学&#…

Nacos配置中心总结

Nacos配置中心总结 Nacos配置文件的加载顺序和优先级 加载顺序 nacos作为配置中心时,需要在bootstrap.yml文件中添加nacos config相关的配置,这样系统启动时就能先去拉取nacos server上的配置了。拉取过来后会和本地配置文件进行合并。 bootstrap.ym…

Java开发-后端请求成功,前端显示失败

文章目录 报错解决方案1. 后端未配置跨域支持2. 后端响应的 Content-Type 或 CORS 配置问题3. 前端 request 配置问题4. 浏览器缓存或代理问题5. 后端端口未被正确映射 报错 如下图,后端显示请求成功,前端显示失败 解决方案 1. 后端未配置跨域支持 …

springboot523基于Spring Boot的大学校园生活信息平台的设计与实现(论文+源码)_kaic

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本大学校园生活信息平台就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据…

【Ubuntu使用技巧】Ubuntu22.04无人值守Crontab工具实战详解

一个愿意伫立在巨人肩膀上的农民...... Crontab是Linux和类Unix操作系统下的一个任务调度工具,用于周期性地执行指定的任务或命令。Crontab允许用户创建和管理计划任务,以便在特定的时间间隔或时间点自动运行命令或脚本。这些任务可以按照分钟、小时、日…

Linux(14)——网络管理

目录 一、检测网络配置: 1、查看网络接口(ip): 2、查看性能(ip): 3、查看 IP 地址(ip): 4、查看路由表(ip): 5、追踪…

《机器学习》——线性回归模型

文章目录 线性回归模型简介一元线性回归模型多元线性回归模型误差项分析一元线性模型实例完整代码 多元线性模型实例完整代码 线性回归模型简介 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 相关关系&…

GeoTrust True BusinessID Wildcard

GeoTrust由DigiCert 提供支持,是最受信任和尊重的品牌之一,以提供高保证的网站安全而闻名。 GeoTrust True BusinessID通配符证书 – 以低成本保护多个主机名。即使将其用于您的公司主页或电子邮件服务器主机名,保护所有敏感信息也是您的目标…

华为配置 之 链路聚合

简介: 链路聚合(Link Aggregation)是一种计算机网络技术,通过将多个物理端口汇聚在一起,形成一个逻辑端口,以实现出/入流量吞吐量在各成员端口的负荷分担。当交换机检测到其中一个成员端口的链路发生故障时…

Angular Firebase CRUD 项目推荐

Angular Firebase CRUD 项目推荐 angular-firebase-crud Angular CRUD with Firebase using cloud firestore as a database, angular material and Bootstrap 4. Step by Step tutorial and working angular 7 example app. 项目地址: https://gitcode.com/gh_mirrors/an/an…

SqlSession的线程安全问题源码分析

🎮 作者主页:点击 🎁 完整专栏和代码:点击 🏡 博客主页:点击 文章目录 SqlSession 是线程安全的吗?为什么说是线程不安全的?事务管理问题 数据库连接的共享问题 一级缓存线程安全问题…

gitlab的搭建及使用

1、环境准备 服务器准备 CentOS Linux release 7.9.2009 (Core)&#xff0c;内存至少4G。 修改主机名和配置ip地址 hostnamectl set-hostname <hostname> 关闭主机的防火墙 # 关闭防火墙 systemctl stop firewalld #临时关闭防火墙 systemctl disable firewalld …

【面试系列】深入浅出 Spring Boot

熟悉SpringBoot&#xff0c;对常用注解、自动装配原理、Jar启动流程、自定义Starter有一定的理解&#xff1b; 面试题 Spring Boot 的核心注解是哪个&#xff1f;它主要由哪几个注解组成的&#xff1f;Spring Boot的自动配置原理是什么&#xff1f;你如何理解 Spring Boot 配置…

2024国城杯 Web

这四道题目Jasper大佬都做了镜像可以直接拉取进行复现 https://jaspersec.top/2024/12/16/0x12%20%E5%9B%BD%E5%9F%8E%E6%9D%AF2024%20writeup%20with%20docker/ n0ob_un4er 这道题没有复现成功, 不知道为啥上传了文件, 也在 /tmp目录下生成了sess_PHPSESSID的文件, 但是就是…

SpringBoot教程(十四) SpringBoot之集成Redis

SpringBoot教程&#xff08;十四&#xff09; | SpringBoot之集成Redis 一、Redis集成简介二、集成步骤 2.1 添加依赖2.2 添加配置2.3 项目中使用之简单使用 &#xff08;举例讲解&#xff09;2.4 项目中使用之工具类封装 &#xff08;正式用这个&#xff09;2.5 序列化 &…

【开源免费】基于SpringBoot+Vue.JS校园社团信息管理系统(JAVA毕业设计)

本文项目编号 T 107 &#xff0c;文末自助获取源码 \color{red}{T107&#xff0c;文末自助获取源码} T107&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

FFmpeg 4.3 音视频-多路H265监控录放C++开发二十一.4,SDP协议分析

SDP在4566 中有详细描述。 SDP 全称是 Session Description Protocol&#xff0c; 翻译过来就是描述会话的协议。 主要用于两个会话实体之间的媒体协商。 什么叫会话呢&#xff0c;比如一次网络电话、一次电话会议、一次视频聊天&#xff0c;这些都可以称之为一次会话。 那为什…