突破性进展!加州大学伯克利分校提出Causal Transformer模型,实现人形机器人通过强化学习适应真实世界人形运动

人形机器人具有模仿人类行为和形态的能力,可以胜任一些复杂、危险或单调的工作。除却在传统的工业生产线和仓储物流领域帮助解决劳动力短缺问题,在医疗、教育、家庭服务等多个领域人形机器人也具有巨大应用潜力。

然而,由于智能化水平仍有待提升,目前大部分人形机器人在适应新环境方面仍存在难度。前不久,来自加州大学伯克利分校的研究人员提出了使用序列建模和动作预测的Causal Transformer模型。该模型实现了让人形机器人可以在室内外各种环境中稳健行走,应对不同地形,甚至还能背个书包,提袋垃圾。

在这里插入图片描述

那么该模型具体是如何实现的呢?接下来一起和机器人大讲堂来深入看看吧!

▍学习人形运动

研究人员提出了一种创新的基于学习的人形运动方法,其核心是一个Transformer控制器。该控制器通过自回归的方式,根据过去的观察和动作历史来预测未来的动作。

我们假设,观察和行动的历史能够隐式地编码关于世界的信息。借助强大的Transformer模型,研究人员能够在测试时利用这些信息来动态调整模型的行为。
在这里插入图片描述

该控制器是一个因果 Transformer,通过从观察动作历史中对未来动作的自回归预测进行训练

例如,模型可以利用期望状态与实际状态的历史记录,来决定如何调整操作,以便更好地实现未来的状态。这种学习方式可以被视为一种上下文学习,即在不更新模型参数的情况下,改变模型的行为。

这样的方法不仅提高了模型的预测精度,而且使得模型能够更好地适应不同的环境和任务。这为人形机器人在未来更广泛的应用领域提供了新的可能性。

▍仿真中的大规模并行训练

该模型在模拟环境中进行大规模无模型强化学习(RL)训练,涵盖了各种随机环境。
训练过程中,研究人员利用了由 IsaacGym 提供支持的快速 GPU 模拟技术,并实现了跨多个 GPU 和数千个环境的并行训练。
在这里插入图片描述

研究人员平面、粗糙平面和平滑斜坡等在各种地形类型上训练其策略。机器人执行各种随机采样的行走命令,例如向前行走、侧向行走、转弯或其组合。

得益于这种高效训练方式,研究人员得以收集大量样本用于训练,每天可达到约 100 亿个样本。

这样的训练方法确保了模型在处理复杂环境时的强大适应性和鲁棒性,为未来的应用提供了坚实的基础。

▍实际部署与应用训练

在实际部署中,研究人员惊喜地发现,完全在模拟中训练的策略能够顺利、零样本地应用于现实世界。

在这里插入图片描述

为了验证其实用性,研究人员将控制器部署到了各种室外环境中,包括广场、人行道、跑道以及草地。这些环境的地形在材料特性(如混凝土、橡胶和草地)以及条件(如干燥或潮湿)方面存在显著差异,为策略提供了严峻的挑战。

尽管这些环境差异巨大,但策略表现出了强大的适应性和鲁棒性,证明了其在现实世界应用中的潜力。

全向行走

在进行全向行走时,控制器能够精准地响应一系列速度指令,实现全方位的运动,包括前进、后退和转向。这种卓越的控制能力确保了机器人在各种环境中的灵活性和适应性,为其实用性提供了有力支持。

在这里插入图片描述

动态手臂摆动

在动态手臂摆动方面,通过部署控制器,机器人能够展现出与人类相似的动态手臂摆动行为,这种行为与腿部运动相协调,保持了对侧的特性。这一发现表明,该研究策略在实现类人协调运动方面具有显著效果,为机器人的自然运动表现提供了有力支持。

在这里插入图片描述

情境适应

同时,研究人员也对“控制器在机器人左腿遇到离散台阶障碍物时的恢复能力”进行了深入研究。

值得注意的是,在训练过程中,机器人并未接触过台阶或其他形式的离散障碍物。这一实验设置具有实际意义,因为当前人形机器人缺乏视觉能力,可能会在未知环境中遭遇此类障碍。

实验结果显示,尽管面临前所未有的挑战,控制器仍然能够根据历史观察和操作数据,检测并响应脚步事件。

具体来说,当机器人的腿踩到台阶时,控制器会引导机器人在后续动作中尝试抬高、加速腿部运动,以克服障碍。

在这里插入图片描述

此外,研究人员还命令机器人在包含三个部分的地形上前行:首先是平坦区域,然后是一个向下倾斜的斜坡,最后再次是平坦区域。

通过观察可以看到,控制器能够根据地形调整其行走方式。从在平坦区域自然行走,到下坡时采用小步行走,再到再次自然行走,这种步态的调整是自发的,并未在训练期间预设。

这一发现进一步证明了控制器在复杂地形中的适应性和鲁棒性。

外部干扰

在最后一部分实验中,研究人员对政策的稳健性进行了测试,考察了其对突发外部力量的应对能力。

实验包括将木棍轻轻推动机器人以及向机器人扔一个大瑜伽球两种情况。

在这里插入图片描述

结果表明,在这两种极端情况下,控制器均能有效地稳定机器人,展现出强大的适应性和鲁棒性。

这些实验结果充分证明了控制器在应对突发情况和复杂环境中的优越性能,为其实践应用提供了强有力的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/260259.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第三十六天| 435. 无重叠区间、763.划分字母区间、56. 合并区间

Leetcode 435. 无重叠区间 题目链接:435 无重叠区间 题干:给定一个区间的集合 intervals ,其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量,使剩余区间互不重叠 。 思考:贪心法。和452 用最少数量的…

数据库的备份模式(完全备份,增量备份,差异备份)

数据库的备份 备份原因 数据的丢失 数据的删除 备份目标 数据的一致性 数据的可用性 备份技术 物理备份/冷备份 直接复制数据库文件,适用于大型数据库环境,不受存储引擎的限制,但不能恢复到不同的MySQL版本。 常用的冷备份工具 ta…

【Java大数据期末】银行管理系统(MySQL数据库)

诚接C语言、C、Java、Python、HTML、JavaScript、vue、MySQL相关编程作业, 标价10-20每份,如有需要请加文章最下方QQ。 本文资源:https://download.csdn.net/download/weixin_47040861/88850902https://download.csdn.net/download/weixin_4…

Jmeter实现阶梯式线程增加的压测

安装相应jmeter 插件 1:安装jmeter 管理插件: 下载地址:https://jmeter-plugins.org/install/Install/,将下载下来的jar包放到jmeter文件夹下的lib/ext路径下,然后重启jmeter。 2:接着打开 选项-Plugins Ma…

《Java 简易速速上手小册》第8章:Java 性能优化(2024 最新版)

文章目录 8.1 性能评估工具 - 你的性能探测仪8.1.1 基础知识8.1.2 重点案例:使用 VisualVM 监控应用性能8.1.3 拓展案例 1:使用 JProfiler 分析内存泄漏8.1.4 拓展案例 2:使用 Gatling 进行 Web 应用压力测试 8.2 JVM 调优 - 魔法引擎的调校8…

图的遍历(广度优先遍历BFS,深度优先遍历DFS)

目录 图的遍历概念: 图的广度优先遍历(BFS): 代码实现如下: 测试如下: 注意: 图的深度优先遍历(DFS): 代码实现如下: 测试如下&#xff1…

SSL证书怎么申请最合适

SSL证书对于网络安全的作用毋庸置疑,作为数字证书的一种,皆是由权威数字证书机构验证网站身份后进行颁发,可以实现浏览器和网站服务器数据加密传输。而网站安装部署SSL证书后会在浏览器页面显示安全锁标志,而后数据传输协议则从ht…

Swift Combine 使用 print 操作符调试管道 从入门到精通二十四

Combine 系列 Swift Combine 从入门到精通一Swift Combine 发布者订阅者操作者 从入门到精通二Swift Combine 管道 从入门到精通三Swift Combine 发布者publisher的生命周期 从入门到精通四Swift Combine 操作符operations和Subjects发布者的生命周期 从入门到精通五Swift Com…

【数据结构】每天五分钟,快速入门数据结构(一)——数组

目录 一.初始化语法 二.特点 三.数组中的元素默认值 四.时间复杂度 五.Java中的ArrayList类 可变长度数组 1 使用 2 注意事项 3 实现原理 4 ArrayList源码 5 ArrayList方法 一.初始化语法 // 数组动态初始化(先定义数组,指定数组长度&#xf…

【C#】使用代码实现龙年春晚扑克牌魔术(守岁共此时),代码实现篇

欢迎来到《小5讲堂》 大家好,我是全栈小5。 这是《C#》系列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握。…

DS:栈和队列的相互实现

创作不易,感谢友友们三连!! 一、前言 栈和队列的相互实现是用两个栈去实现队列或者是用两个队列去实现栈,这样其实是把问题复杂化的,实际中没有什么应用价值,但是通过他们的相互实现可以让我们更加深入地理…

PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample Dropout等 !!

文章目录 1、为什么使用Dropout? 2、Dropout的拓展1:R-Dropout 3、Dropout的拓展2:Multi-Sample Dropout 4、Dropout的拓展3:DropConnect 5、Dropout的拓展4:Standout 6、Dropout的拓展5:Gaussian Dropout …

Jest和Mocha对比:两者之间有哪些区别?

什么是单元测试? 所谓单元测试,是对软件中单个功能组件进行测试的一种软件测试方式,其目的是确保代码中的每一个基本单元都能正常运行。因此,开发人员在应用程序开发的整个过程(即代码编写过程)中都需要进行…

Avalonia学习(二十四)-系统界面

目前项目式练习,界面内容偏多,所以不给大家贴代码了,可以留言交流。此次为大家展示的是物联项目的例子,仅仅是学习,我把一些重点列举一下。 界面无边框 以前的样例主要是通过实现控件来完成的,前面已经有窗…

美团外卖商超药店商品销量

外卖药店商品月销量 外卖商超商品月销量

学习总结19

# 奶牛的耳语 ## 题目描述 在你的养牛场&#xff0c;所有的奶牛都养在一排呈直线的牛栏中。一共有 n 头奶牛&#xff0c;其中第 i 头牛在直线上所处的位置可以用一个整数坐标 pi(0< pi < 10^8) 来表示。在无聊的日子里&#xff0c;奶牛们常常在自己的牛栏里与其它奶牛交…

术业有专攻!三防加固平板助力工业起飞

在日常使用中的商业电脑比较追求时效性&#xff0c;以市场定位做标准&#xff0c;内部元件只需满足一般要求就行&#xff0c;使用寿命比较短。而三防平板电脑是主要运用在复杂、恶劣的环境下所以在需求方面较高,需要保证产品在恶劣条件下正常使用&#xff0c;满足行业领域的需求…

Jakarta Bean Validation

Validation 官网 https://beanvalidation.org/ 常见注解 Bean Validation中定义的注解&#xff1a; 注解详细信息Null被注释的元素必须为 nullNotNull被注释的元素必须不为 nullAssertTrue被注释的元素必须为 trueAssertFalse被注释的元素必须为 falseMin(value)被注释的元素…

【linux】体系结构和os管理

冯诺依曼体系结构 输入单元&#xff1a;包括键盘, 鼠标&#xff0c;扫描仪, 写板等 中央处理器(CPU)&#xff1a;含有运算器和控制器等 输出单元&#xff1a;显示器&#xff0c;打印机等 这里的存储器指的是内存 三者是相互连接的&#xff0c;设备之间会进行数据的来回拷贝&am…

【springboot+vue项目(十五)】基于Oauth2的SSO单点登录(二)vue-element-admin框架改造整合Oauth2.0

Vue-element-admin 是一个基于 Vue.js 和 Element UI 的后台管理系统框架&#xff0c;提供了丰富的组件和功能&#xff0c;可以帮助开发者快速搭建现代化的后台管理系统。 一、基本知识 &#xff08;一&#xff09;Vue-element-admin 的主要文件和目录 vue-element-admin/ |…