【机器人】ATM 用于策略学习的任意点轨迹建模 RSS 2024 | 论文精读

文章提出了一种新的框架,名为Any-point Trajectory Modeling (ATM) ,称为任意点轨迹建模。

用于从视频中预测任意点的未来轨迹,从而在最少动作标签数据的情况下,学习稳健的视觉运动策略。

图中展示了三个案例,打开柜子的中间抽屉、折叠布料并将其拉向右侧、拿起袋子并将其放在架子上。

根据给定的任务指令和图像帧中任意点集的初始位置,来预测这些点的未来轨迹。(紫红色点是最新方向点,蓝色点是过去的)

Robotics: Science and Systems (RSS) 2024

论文地址:Any-point Trajectory Modeling for Policy Learning

开源地址:https://github.com/Large-Trajectory-Model/ATM

1、研究背景

研究问题

  • 如何利用视频数据中的行为、物理和语义知识来指导机器人学习新的技能,特别是在缺乏动作标签的情况下。
  • 如何利用视频演示数据学习视觉运动策略,特别是当示教数据的收集成本高昂时。
  • ATM框架,用于从视频中预测任意点的未来轨迹,从而在最少动作标签数据的情况下,学习稳健的视觉运动策略。

研究难点

  • 视频数据中缺乏动作标签,难以直接用于策略学习;
  • 现有的视频预测模型在训练和推理过程中计算需求高,且容易产生不切实际的物理运动预测;
  • 直接从视频数据中学习控制策略需要解决物理运动和视觉外观之间的耦合问题。

相关工作

  • 使用自监督目标进行视频预训练以学习观察的特征表示;
  • 视频预测模型用于指导策略学习,但这些模型通常计算密集且容易产生幻觉;
  • 从人类视频中学习控制策略的研究,但这些工作通常只跟踪特定点,如机器人的末端执行器或人手。

2、模型框架

这篇论文提出了任意点轨迹建模(ATM),用于解决从视频中学习视觉运动策略的问题。

 首先进行轨迹点预测,然后实现轨迹引导策略学习。

2.1 轨迹点预测

文章提出了一种轨迹建模方法,用于从视频中预测任意点的未来轨迹。

该方法将视频帧中的每个状态表示为一组点,并学习一个轨迹模型来预测这些点在未来的位置。

ATM框架通过两个阶段进行视频数据预训练。

第一个阶段是自我监督轨迹注释,具体步骤如下:

  1. 从无动作视频中随机采样时间步和帧上的点,并使用预训练的视频跟踪器(CoTracker模型),生成这些点的轨迹。
  2. 采用启发式方法过滤掉静态点(如背景中的点),只保留在视频中有运动的点。
  3. 使用Transformer模型预测这些点的未来轨迹,输入为当前图像观测、语言指令和初始点位置,输出为未来点的2D相机坐标。

第二个阶段是多模态轨迹建模,具体步骤如下:

  1. 将点的当前位置、当前图像观测和任务的语言指令编码到一个共享的嵌入空间中。
  2. 通过大型Transformer模型对这些嵌入进行编码,解码器将这些轨迹标记转换为相应点的未来轨迹。
  3. 通过重建图像块作为辅助任务,进一步提升模型的预测能力。

CoTracker 开源地址:https://github.com/facebookresearch/co-tracker

2.2 轨迹引导策略学习

文章提出了一种基于预测轨迹的轨迹引导策略,该策略结合图像观测和预测轨迹来预测控制动作。

使用变换器架构来融合轨迹和图像信息,并通过均方误差损失进行训练。

均方误差损失函数:

其中,L 是损失函数,可以是均方误差(MSE)或交叉熵损失。

3、实验测试

数据集:实验使用了LIBERO基准中的130多个语言条件操控任务。

  • 每个任务包括10个动作标签演示轨迹和50个无动作视频演示轨迹。
  • 数据集包含RGB图像和机器人末端执行器的抓取和关节状态作为观测值。

环境:实验在LIBERO基准的不同子任务上进行,包括空间推理、对象推理、任务理解和长时任务目标。

对比方法:实验对比了以下基线方法:

  • BC:行为克隆,仅使用动作标签演示轨迹进行训练。
  • R3M-finetune:使用对比学习目标进行表示学习,并在领域内视频数据集上进行微调。
  • VPT:首先从动作标签轨迹训练逆动态模型,然后使用伪动作标签进行视频数据集的策略训练。
  • UniPi:训练文本条件视频扩散模型以生成时间细粒度的视频计划,并从初始帧和语言指令中学习目标条件策略。

结果与分析

总体性能:ATM在所有任务中显著优于各种强基线方法,平均成功率达到63%,而之前方法的平均最高成功率为37%。

跨模态学习:ATM能够有效地从人类视频和不同机器人形态的视频中学习。

与仅使用机器人视频相比,使用人类视频的ATM在多个任务上表现更好。

关键问题2:ATM在真实世界实验中的表现如何?与其他基线方法相比有何优势?

在真实世界实验中,ATM在五个任务的平均成功率为93%,显著高于行为克隆(BC)基线方法的65%和其他视频预训练基线方法的70%左右。

具体优势包括:

  1. ATM在长期任务和需要理解目标的任务上表现尤为出色,这得益于其预测未来轨迹的能力,为策略提供了清晰的指导。
  2. ATM能够有效地从人类视频和不同机器人形态的视频中学习,展示了跨模态视频学习的有效性。使用人类视频训练的ATM在真实世界任务中的成功率显著高于仅使用机器人视频的ATM。
  3. ATM的结构化表示自然地结合了物理归纳偏见,如物体的持久性,使得其在面对复杂和多样化的任务时表现更为稳健。

关键问题3:ATM框架在实验中进行了哪些消融分析?这些分析揭示了哪些关键设计选择的影响?

  1. 轨迹长度的影响:实验表明,轨迹长度为16步时性能最佳,平均成功率达到78%,而过短或过长的轨迹长度都会影响性能。较短的轨迹长度(如4步)显著降低了性能,而较长的轨迹长度(如32步)在某些任务上反而表现较差。
  2. 图像遮蔽的作用:在轨迹变换器训练中,随机遮蔽图像块作为辅助任务,结果显示图像遮蔽对策略性能有轻微提升作用,尤其是在LIBERO-Spatial任务中,遮蔽图像块的策略成功率为74.33%,而未遮蔽的为68.50%。
  3. 融合方式的影响:实验比较了早期融合和晚期融合对策略性能的影响,结果表明晚期融合对策略性能的提升最为显著。仅使用早期融合的策略在LIBERO-Goal任务中的成功率为56.67%,而结合晚期融合的完整ATM策略成功率为77.83%。

 项目展示:https://xingyu-lin.github.io/atm/

4、总结

优点与创新

  1. Any-point Trajectory Model (ATM): 提出了一种简单而新颖的框架,通过粒子轨迹的结构化表示将视频预训练与策略学习桥接起来。
  2. 显著超越基线: 在超过130个语言条件任务上进行了广泛的实验,ATM在视频预训练方面显著优于各种强大的基线方法,平均成功率达到63%,相比之前方法的37%提高了80%。
  3. 跨模态人类和机器人视频学习: 展示了从人类视频和不同机器人形态的视频中有效学习的能力。
  4. 多模态轨迹建模: 通过多模态掩码预测问题来形式化未来轨迹预测问题,结合了当前位置、图像观测和任务的语言指令。
  5. 轨迹引导策略学习: 使用预测轨迹作为子目标来指导控制策略的学习,从而能够仅使用少量的动作标注演示数据进行训练。
  6. 通用性: ATM适用于多种策略类,包括扩散策略,并在所有基准测试中保持一致的性能提升。
  7. 实时轨迹生成: ATM在相机坐标系中预测未来轨迹,最小化了对手动校准相机的假设。

不足与反思

  1. 依赖动作标注演示轨迹: 方法仍然依赖于一组动作标注的演示轨迹来映射到动作,这限制了学习到的策略的泛化能力。未来的工作可以考虑使用强化学习来学习轨迹跟随策略,从而不需要额外的演示数据。
  2. 视频数据集的小领域差距: 本文使用的视频数据集仅包含小领域差距。从野外视频数据集中学习提出了额外的挑战,如多模态分布、多样化的相机运动和次优运动。这些扩展留待未来工作。

分享完成~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493140.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux----系统i/o

基本概念 在Linux系统中,I/O(Input/Output)即输入/输出,是操作系统与外部设备(如磁盘、终端、网络等)进行数据交互的机制。它涉及到从外部设备读取数据到内存(输入操作)&#xff0c…

Mac 开机 一闪框 mediasharingd

Mac 开机 一闪框一闪而过 mediasharingd ->系统偏好设置->共享->服务的复选框全部取消,保存。 重启解决。

纯前端实现更新检测

通过判断打包后的html文件中的js入口是否发生变化,进而实现前端的代码更新 为了使打包后的文件带有hash值,需要对vite打包进行配置 import { defineConfig } from vite; import vue from vitejs/plugin-vue; import { resolve } from path; import AutoI…

arcgisPro相接多个面要素转出为完整独立线要素

1、使用【面转线】工具,并取消勾选“识别和存储面邻域信息”,如下: 2、得到的线要素,如下:

基于SpringBoot+html+vue实现的林业产品推荐系统【源码+文档+数据库文件+包部署成功+答疑解惑问到会为止】

代码包运行启动成功!不管你有没有运行环境,哪怕你是刚买的新电脑,也包启动运行成功!有不懂的地方随便问!问到会为止! 【功能介绍】 基于SpringBootVue实现的林业产品推荐系统采用前后端分离的架构方式&…

【Java基础面试题024】Java中包装类型和基本类型的区别是什么?

回答重点 基本类型: Java中有8种基本数据类型(byte、short、int、long、float、double、char、boolean)他们是直接存储数值的变量,位于栈上(局部变量在栈上、成员变量在堆上,静态字段/类在方法区&#xf…

.net core在linux导出excel,System.Drawing.Common is not supported on this platform

使用框架 .NET7 导出组件 Aspose.Cells for .NET 5.3.1 asp.net core mvc 如果使用Aspose.Cells导出excel时,报错 : System.Drawing.Common is not supported on this platform 平台特定实现: 对于Windows平台,System.Drawing.C…

web自动化测试知识总结

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、自动化测试基本介绍 1、自动化测试概述: 什么是自动化测试?一般说来所有能替代人工测试的方式都属于自动化测试,即通过工…

怿星科技联合赛力斯举办workshop活动,进一步推动双方合作

12月18日,由怿星科技与赛力斯汽车联合举办的workshop活动在赛力斯五云湖总部展开,双方嘉宾围绕智能汽车发展趋势、行业前沿技术、汽车电子网络与功能测试等核心议题展开了深度对话与交流,并现场参观演示了多套前沿产品。怿星科技CEO潘凯、汽车…

【Flutter_Web】Flutter编译Web第二篇(webview篇):flutter_inappwebview如何改造方法,变成web之后数据如何交互

前言 欢迎来到第二篇文章,这也是第二个难题,就是原有的移动端本身一些页面H5的形式去呈现(webview),例如某些需要动态更换内容的页面,某些活动页面、支付页面,不仅仅做页面呈现,还包…

JS信息收集(小迪网络安全笔记~

免责声明:本文章仅用于交流学习,因文章内容而产生的任何违法&未授权行为,与文章作者无关!!! 附:完整笔记目录~ ps:本人小白,笔记均在个人理解基础上整理,…

基于w25q128的智能门禁

项目需求 1. 矩阵键盘输入密码,正确则开锁,错误则提示,三次错误蜂鸣器响3秒; 2. 按下#号确认输入,按下*号修改密码; 3. 密码保存在 W25Q128 里; 4. OLED 屏幕显示信息。

【计算机网络】期末考试预习复习|中

作业讲解 转发器、网桥、路由器和网关(4-6) 作为中间设备,转发器、网桥、路由器和网关有何区别? (1) 物理层使用的中间设备叫做转发器(repeater)。 (2) 数据链路层使用的中间设备叫做网桥或桥接器(bridge)。 (3) 网络层使用的中间设备叫做路…

开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)综述

定义 开放词汇目标检测(Open-Vocabulary Object Detection, OVOD)是一种目标检测任务,旨在检测和识别那些未在训练集中明确标注的物体类别。传统的目标检测模型通常只能识别有限数量的预定义类别,而OVOD模型则具有识别“开放词汇…

单点登录平台Casdoor搭建与使用,集成gitlab同步创建删除账号

一,简介 一般来说,公司有很多系统使用,为了实现统一的用户名管理和登录所有系统(如 GitLab、Harbor 等),并在员工离职时只需删除一个主账号即可实现权限清除,可以采用 单点登录 (SSO) 和 集中式…

算法笔记—前缀和(动态规划)

【模板】前缀和_牛客题霸_牛客网 (nowcoder.com) #include <initializer_list> #include <iostream> #include <vector> using namespace std;int main() {//输入数据int n,q;cin>>n>>q;vector<int> arr;arr.resize(n1);for(int i1;i<…

力扣438-找到字符串中所有字母异位词

力扣438-找到字符串中所有字母异位词 力扣438-找到字符串中所有字母异位词原题地址&#xff1a;https://leetcode.cn/problems/find-all-anagrams-in-a-string/description/ 题目描述&#xff1a; 给定两个字符串 s 和 p&#xff0c;找到 s 中所有 p 的 异位词的子串&#x…

linux-----进程及基本操作

进程的基本概念 定义&#xff1a;在Linux系统中&#xff0c;进程是正在执行的一个程序实例&#xff0c;它是资源分配和调度的基本单位。每个进程都有自己独立的地址空间、数据段、代码段、栈以及一组系统资源&#xff08;如文件描述符、内存等&#xff09;。进程的组成部分&am…

胡九道:经典传承(贵宾酒)

胡九道的由来 在辽阔的科尔沁草原上&#xff0c;有一个美丽的女子&#xff0c;她才貌双全&#xff0c;知书达礼&#xff0c;她就是历史上著名的孝庄皇后。大玉儿不仅聪慧过人&#xff0c;而且深具母仪天下的气质&#xff0c;深受百姓和皇室的敬爱。当她跟随丈夫皇太极入关来到…

【Mongo工具】Mongo迁移工具之Mongo-shake

Mongo-Shake 简介 Mongo-Shake 是一个基于 MongoDB 操作日志&#xff08;oplog&#xff09;的通用服务平台。它从源 MongoDB 数据库中获取操作日志&#xff0c;并在目标 MongoDB 数据库中重放&#xff0c;或者通过不同的隧道发送到其他终端。如果目标端是 MongoDB 数据库&…