百度PARL再度夺冠NeurIPS仿生人挑战赛:强化学习控制的流畅行走

640?

在最近的 NeurlPS 2019 强化学习赛事中,百度凭借基于飞桨的自研强化学习框架 「PARL」 再次夺冠。


机器学习领域顶级会议 NeurIPS 2019 将于 12 月 8 日-14 日在加拿大温哥华开幕。不久之前,大会公布了论文评审结果,今年大会共收到 6743 份有效论文,接收了 1428 篇,录取率为 21.17%。

作为国内最早投身 AI 领域的科技巨头,百度今年有多篇论文入选。

此外,会议主办的 NeurIPS 2019: Learn to Move 强化学习赛事落下帷幕,百度继 后再度蝉联冠军。本次比赛的难度非常大,在参赛的近 300 支队伍中,仅有 3 支队伍完成了最后挑战。百度基于飞桨的强化学习框架 PARL 不仅成功完成挑战,还大幅领先第二名 143 分。显而易见,百度在强化学习领域占据了明显的优势,冠军含金量颇高。

强化学习框架 PARL:
https://github.com/PaddlePaddle/PARL

640?wx_fmt=png


近年,随着机械设计以及动力学控制技术的发展,仿生机器人正取得不断的进步。比如近来波士顿动力(Boston Dynamics)发布的机器人会跑步,会拉货车,甚至还会“反击”人类,而控制这些机器人的主要节点是动力学关节。

相比于钢铁造就、机械控制的机器人,人体的复杂程度有过之而无不及。探索和理解人体自身是人类的终极目标之一。人体内有 206 块骨骼、639 块肌肉,正是对这些骨骼和肌肉的精细控制,造就了人类出色灵活的运动能力和平衡保持能力。近年来有很多研究希望了解人体的运动机制,甚至端到端地从肌肉层面直接学习控制仿生人体。针对人体控制这样复杂的场景,强化学习(Reinforcement Learning)是重要的研究手段。

强化学习是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题。但直接使用强化学习,仍然非常困难。其中一个原因在于,人体控制的解空间实在太大了!高达两百多维度的连续状态空间,非常复杂,一般的强化学习算法完全无法奏效。正因为如此,诞生了很多以控制人体为目标的研究和比赛,吸引着各路高手一决雌雄。

NeurIPS: Learn to Move 强化学习赛事的诞生正意在于此。该赛事由斯坦福仿生动力学实验室举办,比赛采用斯坦福国家医学康复研究中心研发的 Opensim 人体骨骼高仿模型。参赛者需要根据该模型中多达 100 多维以上的状态描述特征,来决定模型肌肉的信号,控制模型的肌体行走。

该挑战赛创办于 2017 年,今年是第三年举办。2017 年第一次挑战赛上,比赛规则围绕谁能让模型肌体行走速度最快,2018 年赛事将整个模型运动控制从 2D 改为 3D 外,还引入带有假肢的模型,而今年比赛难度再次提升。

据悉,赛事分为 2 轮,首轮主要是增加了实时的速度变换要求,而真正的挑战集中在第 2 轮,参赛选手仅有短短2周时间来完成任务。这一轮不仅要求实时切换速度,而且是 360° 范围调整行走方向,更增加了模型控制难度。由于实际状态空间和动作空间稠密并且非常大,导致基于强化学习的算法无法准确把握模型肌体的行走姿势。

尽管每年的赛事难度都在增加,但今年的百度仍取得了优异成绩。据了解,在百度的最优解决方案中,甚至出现了一些普通人也难以做到的动作,如从立定状态突然平顺地向后转向并且同时以要求的速度行走,而且这个过程需要全程保持稳定不会摔倒。

640?wx_fmt=gif


百度能够在此次赛事中取得优异表现、蝉联冠军的主要因素是在于训练机制、通用算法库、迭代效率三个方面长足的技术积累。

首先,百度构建了「课程学习」的训练机制,先从高速奔跑中学习姿态,再逐步降速提升行走稳定性,从而学到了一个和人类极为相似的行走姿态。根据历届参赛选手提供的行走视频来看,百度通过这种方法学习出来的行走姿势是最为自然的,接近真实人类行走姿势的。这个行走姿势不仅可以维持人体的平衡性,还可以灵活地应付各种速度大小、角度的变化。

640?wx_fmt=gif

640?wx_fmt=gif


其次,百度采用了自主研发的强化学习框架  PARL。通过复用通用算法库里面已经实现好的算法,参赛选手得以很快地在不同算法间切换,保持了高效的迭代频率。PARL 的算法库涵盖了经典的连续控制算法 Reinforce,以及主流的 DDPG/PPO 等算法,到最前沿的 model-based 等相关算法。尽管算法库包含了各种类型的复杂算法,但是其接口是相当简单的,基本上是 import 即可用的方式。

最后,百度基于PARL提供的高效灵活的并行化训练能力进行强化学习训练,使得训练效率得以数百倍地提升。PARL 的并行接口的设计思想是用 python 的多线程代码实现真正意义上的高并发,参赛选手只需要写多线程级别的代码,然后加上PARL的并行修饰符就可以调度不同机器的计算资源,达到高并发的性能。

而此次获得冠军的百度「PARL」,名字来源于 PaddlePaddle Reinforcement Learning,是基于百度飞桨(PaddlePaddle)研发的灵活高效的强化学习框架。PARL 应用了百度多年来在强化学习领域的技术深耕和产品应用经验,具有更高的可扩展性、可复现性和可复用性,强大的大规模并行化支持能力。开发者可以通过 PARL 用数行代码定制自己的模型,一个修饰符就能实现并行。此外,PARL 代码风格统一,包含了多个入门级别的强化学习算法,对初学者相当友好。

事实上百度对强化学习的关注始于 2012 年,当时的百度就已经将多臂老虎机 (Multi-armed bandit) 的研究结果应用在百度搜索和推荐等产品和功能上,此后,强化学习相继落地在了度秘、凤巢、新闻 Feed 推荐以及越来越多的相关产品中。

今年 1 月,百度正式发布了深度强化学习框架 PARL,更强劲的强化学习能力也正在通过飞桨平台赋能给更多开发者。

640?

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

640?

▽ 点击 | 阅读原文 | 访问项目主页

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48779.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

仿生人会梦见电子羊吗?——谈谈人工智能与伦理

说到人工智能与伦理,首先出现在我脑海中的便是菲利普迪克的作品:《仿生人会梦见电子羊吗?》 书中讲述了这样一个故事:核战之后,放射尘使地球上的动物濒临灭绝。政府为鼓励人们移民到外星,承诺给每个移民的…

【杂谈】仿生人会梦见电子羊吗?

😀大家好,我是白晨,一个不是很能熬夜😫,但是也想日更的人✈。如果喜欢这篇文章,点个赞👍,关注一下👀白晨吧!你的支持就是我最大的动力!&#x1f4…

Python爬虫之美丽的汤——BeautifulSoup

本文概要 本篇文章主要介绍利用Python爬虫之美丽的汤——BeautifulSoup,适合练习爬虫基础同学,文中描述和代码示例很详细,干货满满,感兴趣的小伙伴快来一起学习吧! 是不是以为今天要教大家怎么做饭?确实&…

拥有一个懂你的机器人是种怎样的体验?

“ 智能对话的核心在于能够根据上下文理解用户的意图,能够与人进行自然、流畅、亲密的交流,同时拉近人和“人”之间的距离,让“人”成为更加亲密的伙伴。” 01 智能对话的重要性 相信很多人都感受过“智能客服”所带来的难受体验&#xff0c…

GPT-4震撼发布:多模态大模型:Plus用户优先试用

OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4。 这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出)…

程序员的“凡尔赛文学”大赏!

这几天随处可见“凡尔赛”文学,有一种全民凡尔赛的感jio。 凡尔赛文学也被简称"凡学",是网友对于热衷于通过先抑后扬、自问自答或第三人称视角,不经意间露出"贵族生活的线索"的人的调侃。 为了便于大家理解,举几个具体的…

AR+玩具,用科技打造玩具新玩法

曾几何时,我们也曾幻想自己的玩具能像《玩具总动员》里的玩具们一样,要是能让玩具拥有灵魂,让它们能动起来,该有多好啊。AR增强现实技术的发展和不断完善普及将这一想法变为了现实 01 玩具巨头乐高的多元化转型 2019年&#xff0c…

赚35万,用ChatGPT做二次原创卖儿童益智玩具

抖音上卖益智玩具项目 项目分析 今天要和大家分享一个相对小众且冷门的项目,就是在抖音上通过录制带货短视频来销售儿童益智玩具项目,产品包括拼图、迷宫、3D拼图、数学游戏、逻辑游戏等多种类型。 对于宝妈们来说,益智玩具简直是无法抗拒…

unity3d 布娃娃系统插件 PuppetMaster 木偶师

PuppetMaster包含一个非常易于使用的视觉布娃娃创建工具,用于人形角色,将角色的动画的姿势映射到木偶的的肌肉使其同步,并保持在那里,直到动画在下一帧覆盖它。 简略使用方法 1. 将人形角色模型拖动到场景并附加BipedRagdollCreator.cs组件。…

上交清华搞事情!发起最全学科大模型中文知识及推理评测!GPT-4 竟然血洗所有国产模型...

点击上方“AI遇见机器学习”,选择“星标”公众号 第一时间获取价值内容 夕小瑶科技说 原创 作者 | 小戏、Python 从 OpenAI 的 ChatGPT、Meta 的 LLaMA、Anthropic 的 Claude 到复旦的 Moss、清华的 ChatGlm、MiniMax 的 Glow,国内的国外的大模型百花齐放…

始料未及-- 元宇宙传来好消息,全球轰动

突然间,元宇宙着火了。 从表面上看,这是出乎意料的,很多人将其视为资本引发的存在。也正是因为如此,人们对元宇宙的看法才变得两极分化。 那些对元宇宙感兴趣的人会佩服它;屈服于元宇宙的人会以各种方式对其产生怀疑&…

元宇宙被这个圈子带火了一波,是我没想到的

金磊 萧箫 发自 凹非寺量子位 | 公众号 QbitAI 最近有个热闹的事,值得说道说道。 事情是这样的: 先是中国第一个进入元宇宙时代的媒体集团Meta Media超媒体控股,打造了个叫Meta ZiWU的项目,还请了建筑圈著名的马岩松,在…

元宇宙爆发增长,代币成为了变现必备媒介

Cloud exchange打算将CDE代币定位为区块链构建块,以帮助“加速向完整的区块链经济的过渡”,代币将允许用户影响“元宇宙的未来”。CDE代币面向的是受法律保护地区居民使用,这部分使用者能通过使用CDE来购买商品、服务,允许用户设计…

【回顾】“双11”首个元宇宙日 中国移动通信联合会元宇宙产业委员会揭牌 《元宇宙产业宣言》发布

2021年11月11日,“元宇宙日”,中国移动通信联合会元宇宙产业委员会(CMCA-MCC)揭牌仪式与《元宇宙产业宣言》发布暨中信出版《元宇宙》新书首发活动在中国移动通信联合会会议室举办,央链直播全程转播。 著名数字经济权威…

为了元宇宙,Facebook下周要改名了?

整理 | 祝涛 出品 | CSDN(ID:CSDNnews) 据外媒报道,有知情人士透露,社交媒体巨头Facebook计划在下周更改公司名称,以显示其专注于构建元宇宙的决心。报道称,Facebook CEO扎克伯格(M…

《元宇宙2086》影视工业弯道超车?《科普时报》刊登采访报道

科普时报-第267期 2023年01月06日 星期五 第05版:书香文史刊载了题目为“《元宇宙2086》影视工业弯道超车?”的关于高泽龙的采访报道。全文内容如下: 在2022年中国金鸡百花电影节暨第35届中国电影金鸡奖期间,我创作的中国首部元宇…

世界元宇宙大会暨元宇宙探索交流论坛 礼码生活构建元宇宙庞大生态

万众瞩目,终于来临。2021 年 10 月 14 日,由Open Sky和礼码生活联合主办,全球节点联盟、千岛矿业联盟、ROMAN WAY承办的世界元宇宙大会暨首届元宇宙探索者交流论坛在中国深圳隆重召开,社会各界高度关注,比特财经、金色…

元宇宙:有人追捧,就会有人抵触

或许,直到现在,我们依然无法否认元宇宙即将对我们的生产和生活产生的深刻影响。即使是在它遭遇巨大的不确定性的大背景下,依然如此。 有人追捧,便有人抵触。元宇宙商用的止步不前,元宇宙技术的难以突破……几乎都是这…

【元宇宙欧米说】个人创作者的NFT探索之路

与3D图片相比像素画有什么优势?除链游以外,NFT如何与游戏相结合?如何发展IP,产生实体化商品? 9月8日下午三点,游戏设计师、StrangeGoose数字艺术创作者大鹅将以“个人创作者的NFT探索之路”为题&#xff0…