RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation

发表时间:22 Dec 2023

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4836882796542689281&noteId=2413286807916664832

作者单位:Google DeepMind

Motivation:受视觉和语言基础模型的最新进展的启发,我们提出了一种用于机器人操作的多任务通用agent。这个名为 RoboCat 的agent是一个视觉目标条件决策转换器,能够消耗动作标记的视觉经验。这些数据跨越了来自模拟和真实机械臂的大量运动控制技能,具有不同的观察和动作集

解决方法:我们最终旨在为操纵奠定基础agent,它是在大量机器人情景经验上训练的multi-embodiment agent,使其能够通过微调快速适应广泛的新下游任务。作为实现这一目标的步骤,我们在非常大的不同操作行为数据集上训练 RoboCat:精确和灵巧的基于视觉的任务,使用具有不同自由度、各种观察和动作规范的实施例执行,并在不同的控制频率下操作

我们的agent通过利用转换器基于上下文的输入和输出可变长度序列的能力,在本地处理这些变化,而不需要常见的动作或观察表示。它能够成功地适应多个新任务——包括新的机器人实施例、看不见的行为、物体和感知变体,以及模拟到真实的——通过对 100 到 1000 个演示的新情景经验的一小部分数据集进行微调。这显著减少了获取新技能和实施新实施例的成本。

我们进一步使用微调的 RoboCat 模型来收集额外的数据,这些数据后来被添加以训练我们的agent的新迭代。

实现方式:RoboCat is based on the Gato architecture with a VQ-GAN encoder。

The majority of the experimental results are based on models with a 1.18Bparameter decoder-only transformer (Vaswani et al., 2017) with 24 layers。

(1)我们首次证明,大型transformer序列模型可以在具有不同观察和动作规范的多个真实机器人实施例上解决大量灵巧任务;

(2)我们研究了RoboCat在适应看不见的任务方面的能力,with just a small dataset of expert demonstrations,与基线相比,降低了学习新技能的门栏;

(3)我们表明,通过简单但有效的self-improvement过程(指的是收集新的数据),可以将这些技能纳入通才;

(4)我们表明,通过缩放和扩大训练数据,RoboCat在培训任务上表现更好,在微调时效率更高。

是如何进行self-improvement的?

先自己收集少量数据,对policy进行微调。然后将微调后的policy进行部署,然后让机械臂自己去收集。并且 perform hindsight goal relabelling,这也是本文能利用少量的demonstrations适应新的任务进行小样本学习的关键

训练过程: In the training phase, the VQ-GAN tokeniser is pre-trained, and then the RoboCat generalist agent is trained on a wide dataset covering multiple domains and embodiments, specifying tasks via visual goals。

The generalist is then finetuned on a small set of human-teleoperated demonstrations to specialise to a new task, and deployed to collect on-policy data autonomously

This data is finally added to the original data to train the next, self-improved RoboCat.

实验:We trained and evaluated 59 different VFM baselines; 36 real robots in this work

RoboCat 在专家和非专家数据上进行训练。数据的不同子集以不同的方式收集。我们使用三种类型的数据生成

(i) 专家 RL 代理产生的数据,特别是在模拟中使用;

(ii) 人类远程操作的专家数据,主要用于物理世界任务;

(iii) 自我生成的数据。两种专家轨迹类型的主要区别在于,由于 RL 代理在现实世界中的行为方式,代理数据提供了相当平滑和高效的轨迹,而远程操作数据通常包括暂停,因为远程操作者使用类似于 bang-bang 控制器的行为。

结论:A key contribution of our work is our study into how RoboCat agents can be fine-tuned and self-improved given a relatively small number of demonstrations.(关键在于Fine-tuned agent self-generates much more training data,是小样本学习的关键

在这个微调步骤结束时,我们获得了一个专门用于新任务的代理,但可能会丢失原始训练任务的性能(可能会有灾难性遗忘的问题)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/411427.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【教程】实测np.fromiter 和 np.array 的性能

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 目录 函数简介 np.fromiter np.array 测试代码 实验结果 结果分析 实验总结 学长想说 函数简介 np.fromiter np.fromiter 是 NumPy 提供的一…

设计模式 -- 装饰者模式(Decorator Pattern)

1 问题引出 1.1 咖啡馆订单项目 咖啡种类/单品咖啡:Espresso(意大利浓咖啡)、ShortBlack、LongBlack(美式咖啡)、Decaf(无因咖啡) 调料:Milk、Soy(豆浆)、Chocolate 要求在扩展新的咖啡种类时,具有良好的扩展性、改动方便、维护方便 使用…

无人机之云台的作用

无人机云台在无人机技术中扮演着至关重要的角色,其作用主要体现在以下几个方面: 一、 确保拍摄稳定性 防抖动:无人机在飞行过程中,尤其是在复杂环境下,如遇到风力干扰或进行高速飞行时,机身容易产生震动和…

Beyond Compare忽略特定格式文本,忽略匹配正则表达式

一 概述 文本对比时忽略某些文本。比如有些生成的文件需要做差异对比,除了内容有差异外,自动生成的ID也不同,想忽略这些ID。特别是文件内容比较多的时候。 如上图,其中UUID“*”的部分我想忽略。 二 方法 方法1 通过Beyond Co…

MySQL 中间件 MySQL-Router

目录 1 MySQL-Router 的介绍 2 MySQL-Router 负载均衡 2.1 设计目的: 2.2 HAProxy 与 Nginx 和 MySQL-Router 之间的区别 2.3 MySQL-Router 的优势 3 MySQL-Router 的获取 3 MySQL-Router 的使用 3.1 实验环境 3.2 MySQL-Router 部署 3.3 MySQL-Router 配置 3.4 测…

HarmonyOS--合理使用动画

一、概述 动画是应用开发中必不可少的部分,它可以使应用程序更加生动和易于互动,一方面可以提升用户体验、增强视觉吸引力,另一方面可以引导用户操作、提高信息传达效率。应用程序中,页面层级间的转场、点击交互、手势操控都可以添…

ODOO17文档打印(输出)方案 -- ODOO17 document printing (output) scheme

根据使用场景不同,ODOO17支持以下几种文档打印(输出)方案: According to different usage scenarios, ODOO17 supports the following document printing (output) schemes: 1、QWEB ODOO原生打印功能(生成PDF文档) odoo使用的主…

【AI】:探索在图像领域的无限可能

欢迎来到 破晓的历程的 博客 ⛺️不负时光,不负己✈️ 文章目录 图像识别与分类的飞跃图像生成与创造的艺术图像增强与修复的神奇图像搜索与理解的智能图像分析与挖掘的洞察图形生成技术1. 生成对抗网络(GANs)2. 卷积神经网络(CN…

多语言跨领域迁移学习的新框架:MAD-X

人工智能咨询培训老师叶梓 转载标明出处 多语言模型如mBERT和XLM-R通过零样本或少样本跨语言迁移极大地推动了低资源语言的NLP应用。但这些模型由于容量限制,对低资源语言和未见语言的迁移性能并不理想。为了解决这一问题,来自德国达姆施塔特工业大学、…

Stable Diffusion详解

文章目录 前言一、LDM原理二、模型结构三、模型训练与推理总结 前言 Stable Diffusion在图像生成方面取得了很大的成功,其核心原理是LDM(Latent Diffusion Models),在论文《High-Resolution Image Synthesis with Latent Diffusio…

【数据结构】优先级队列 — 堆

文章目录 前言1. 优先级队列1.1 概念1.2 特性 2. 堆2.1 概念2.2 存储方式 3. 堆的模拟实现3.1 堆的创建3.2 堆的插入3.3 堆的删除 4. PriorityQueue4.1 注意事项4.2 构造器介绍4.3 常用方法介绍 5. 经典题型6. 结语 前言 我们之前学习过队列,它是遵循先进先出原则的…

halcon 深度学习软件工具安装以及用法

安装halcon 20版本以上得 以为这个版本以上得有异常检测,分割,分类,目标检测,都有 一、下载软件 可以再官网下载,但是官网要注册账号 下载区域: MVTec Software 不用官方的账号 就下载安装包 链接:http…

day13JS-MoseEvent事件

1. MouseEvent的类别 mousedown :按下键mouseup :释放键click :左键单击dblclick :左键双击contextmenu :右键菜单mousemove :鼠标移动mouseover : 鼠标经过 。 可以做事件委托,子元素可以冒泡…

使用Blender进行3D建模—基础操作笔记

Blender 3D 建模🚀 在博0阶段,目前已经完成立创EDA的PCB绘制的基础学习,树莓派的系统安装远程控制能学习,加上我本硕阶段学习的单片机和深度学习人工智能算法的知识,这里打算补上一块比较重要的能力拼图,就…

Netty 学习笔记

Java 网络编程 早期的 Java API 只支持由本地系统套接字库提供的所谓的阻塞函数,下面的代码展示了一个使用传统 Java API 的服务器代码的普通示例 // 创建一个 ServerSocket 用以监听指定端口上的连接请求 ServerSocket serverSocket new ServerSocket(5000); //…

c++关于字符串的练习

提示并输入一个字符串&#xff0c;统计该字符串中字母个数、数字个数、空格个数、其他字符的个数 #include <iostream> #include<string> using namespace std;int main() {string s1;int letter0,digit0,space0,other0;cout<<"请输入一个字符串:"…

海康二次开发学习笔记5-二次开发小技巧

二次开发小技巧 1. VM安装目录 Samples内包含C#,QT,VC应用程序 Documetnations内包含C#和C语言的帮助文档 2. 错误码 private void button4_Click(object sender, EventArgs e){try{VmSolution.Load(textBox1.Text);listBox1.Items.Add("方案加载成功.");listBox1.…

质量技术AI提效专题分享-得物技术沙龙

活动介绍 本次“质量技术&AI提效专题分享”沙龙聚焦于质量技术和AI效率领域&#xff0c;将为您带来四个令人期待的演讲话题&#xff1a; 1、《智能化提效实践》 2、《仿真自动化在饿了么金融实践分享》 3、《得物精准测试提效应用》 4、《广告算法灰度拦截实践》 相信这些…

开源的工作流系统突出优点总结

当前&#xff0c;想要实现高效率的办公&#xff0c;可以一起来了解低代码技术平台、开源的工作流系统的相关特点和功能优势。作为较受职场喜爱的平台产品&#xff0c;低代码技术平台拥有可视化才做界面、灵活、好维护操作等多个优势特点&#xff0c;在推动企业流程化办公的过程…

读软件开发安全之道:概念、设计与实施12不受信任的输入

1. 不受信任的输入 1.1. 不受信任的输入可能是编写安全代码的开发人员最关心的问题 1.1.1. 最好将其理解为输入系统中的所有不受信任的输入 1.1.2. 来自受信任的代码的输入可以提供格式正确的数据 1.2. 不受信任的输入是指那些不受你控制&#xff0c;并且可能被篡改的数据&…