DeepMind为明年的AAAI,准备了一份各种DQN的混血

本文来自AI新媒体量子位(QbitAI)

DeepMind公开了一篇最近投递到AAAI 2018的新论文,这篇论文的主角,依然是这家公司四年前就开始研究的DQN,配角,依然是雅达利(Atari)游戏。

DQN,全名Deep Q-Network(深度Q网络),是DeepMind在2013年NIPS Deep Learning Workshop发表论文提出的算法,让计算机有了靠视觉来玩雅达利游戏的新技能。

2015年,DeepMind完善了DQN,让这种算法在雅达利游戏上获得了更好的成绩,登上了Nature封面。

adeb04c9cfd84ae08c11edeb9d0d6cb41be6d36a

当然,这个算法之后也没有被闲置,DeepMind接连提出了DQN的各种优化版,虽然没有GAN变体那么多,但也足够让人眼花缭乱了。

哪种扩展性能更好?还有什么可以改进的地方?

DeepMind刚刚在arXiv上公开了最近投给AAAI 2018的论文,从DQN的诸多扩展中选择了6种,和原味DQN放在一起做比较了一下性能,还提出了一个新的变体:Rainbow

DeepMind在论文中详细介绍了被选中的这6种扩展,共同点是他们自己都提出过相应的DQN变体。接下来,我们看一下论文中对它们分别做的简要介绍:

Double DQN通过解耦选择和引导动作的评估,解决了Q-learning估计偏差过高的问题;
优先体验重播(Prioritized DDQN)通过对能学到更多的过渡进行更多重播,提高了数据效率;
决斗网络架构(Dueling DDQN)通过分别呈现状态值和行为优势,来帮助在不同行为之间泛化;
A3C中所用的多步引导目标学习,可以改变方差折衷,将新观察到的奖励传播到早先访问的状态;
Distributional Q-learning(Distributional DQN)学习了折扣返回的类别分布,而不是估计平均值;
Noisy DQN使用随机网络层进行探索。

    要详细了解这六种扩展,可以参考文末列出的论文地址,各取所需。

新变体Rainbow并没有在之前各种扩展的基础上,提出新的改动,而是将前面提到的6种变体整合到一起,成为一个单独的agent。

六种变体的混血Rainbow的性能和各位长辈相比如何呢?

DeepMind在arcade环境中,用57款雅达利2600游戏包括对原始DQN、DDQN、Prioritized DDQN、Dueling DDQN、A3C、Distributional DQN、Noisy DQN,以及Rainbow在内的所有agent进行了测试。

结果显示,Rainbow无论是在数据效能方面,还是在最终结果上,都明显优于各位长辈。

474461222ce7070a16d147b2fe4eeebfff038d47

 Rainbow与其他DQN变体的性能比较

上图中彩虹色的是混血Rainbow,灰色的是原味DQN。横轴表示训练用的帧数,纵轴表示算法在雅达利游戏上的“人类标准中位得分”,也就是agent的得分与中等水平的人类相比,是百分之多少。

用700万帧数据训练的Rainbow,性能就与原始DQN的最佳性能相当;经过44万帧的训练,Rainbow性能就超越了此前所有的DQN变体。

Rainbow的最佳性能与其他变体相比,也有显著的提升。在agent的最终测试中,训练结束后,Rainbow在以随机数开始游戏的模式下,中位得分为223%,在人类开始游戏的模式下,得分为153%。

除了和长辈比较之外,DeepMind还尝试了从Rainbow中分别去掉各种算法组件,看会对性能有怎样的影响。

139bb04b2f86643282c9ca57b1d96de43c01be75

 Rainbow和缺失各种组件之后的性能比较

总的来说,去掉决斗网络或者Double Q-learning对Rainbow的性能没有多大影响。不过,将各个游戏分开来分析,我们可以看出,不同的游戏对于组件的需求不太一样。

ea044fec4269bd626467a1e4777bb94fc8d20ecb

 缺失各种组件在不同游戏上对agent性能的影响

另外,DeepMind还记录了这些agent究竟有多少种游戏能超过中等水平人类。

ea044fec4269bd626467a1e4777bb94fc8d20ecb

 Rainbow及其他DQN变体得分超过普通人类20%、50%、100%、200%、500%(从左到右)的游戏数目

上图第一行,是Rainbow与各种DQN变体的比较,第二行,是从Rainbow中分别去掉各种组件对agent性能的影响。

附:各种DQN论文

刚刚提交给AAAI 2018的Rainbow论文

Rainbow: Combining Improvements in Deep Reinforcement Learning

Matteo Hessel, Joseph Modayil, Hado van Hasselt, Tom Schaul, Georg Ostrovski, Will Dabney, Dan Horgan, Bilal Piot, Mohammad Azar, David Silver

https://arxiv.org/abs/1710.02298

2013年DQN首次提出

Playing Atari with Deep Reinforcement Learning

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, Martin Riedmiller

https://arxiv.org/abs/1312.5602

2015年的Nature论文

Human-level control through deep reinforcement learning

Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg & Demis Hassabis

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

Double DQN

Deep Reinforcement Learning with Double Q-learning

Hado van Hasselt, Arthur Guez, David Silver

https://arxiv.org/abs/1509.06461

Prioritized DDQN

Prioritized Experience Replay

Tom Schaul, John Quan, Ioannis Antonoglou, David Silver

https://arxiv.org/abs/1511.05952

Dueling DDQN

Dueling Network Architectures for Deep Reinforcement Learning

Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot, Nando de Freitas

https://arxiv.org/abs/1511.06581

A3C

Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, Koray Kavukcuoglu

https://arxiv.org/abs/1602.01783

Distributional DQN

A Distributional Perspective on Reinforcement Learning

Marc G. Bellemare, Will Dabney, Rémi Munos

https://arxiv.org/abs/1707.06887

Noisy DQN

Noisy Networks for Exploration

Meire Fortunato, Mohammad Gheshlaghi Azar, Bilal Piot, Jacob Menick, Ian Osband, Alex Graves, Vlad Mnih, Remi Munos, Demis Hassabis, Olivier Pietquin, Charles Blundell, Shane Legg

https://arxiv.org/abs/1706.10295

本文作者:夏乙
原文发布时间:2017-10-10

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48290.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【剑指offer】高频ML/DL面试题

学习心得 (1)机器学习、深度学习、强化学习blabla很多内容都是面试的重点,本文结合菜鸡自身学习过程持续更新。 (2)如有不正确之处,恳请指正,共同学习,非常谢谢~ (3&…

国内技术帝不输国外 CryEngine 3引擎下 混血编辑器 诠释究极画质

有一款游戏,它用真实且精美的画质征服了无数的玩家,在06年E3展上,它绽放了耀眼的光彩,拿下了当年几乎所有画面上的奖项。大家应该已经猜到了,它就是《孤岛危机》。 在《孤岛危机》发售后几年里,制作商Cryte…

Java+PHP整合=混血新宠儿

在2009年互联网上大谈各种系统技术架构,我们看见了很多国内、国外大型网站采用了其他语言和Java(Jee)结合的方式进行工作,其中由我们熟悉的有 手机之家 和 Digg 都是采用PHP和Java混合的方式进行协同工作。 我见过最佳的实践方式也是很多人经常体验过的…

[漫画]120430 混血男孩

混血男孩 introduce:最近,有些事情一直困扰着我…… url:http://manhua.178.com/zajiaosn/ tag:伪娘,路西法,废萌,卖肉 preview: 转载于:https://www.cnblogs.com/jffifa/archive/2012/04/30/2476849.html

好家伙!上天入地混血儿料箱机器人

导语 大家好,我是智能仓储物流技术研习社的社长,老K。 知识星球-智能仓储物流技术研习社 下个物流技术大咖就是你|原创12万字书等你领 智能仓储物流技术研习社 围绕厂内物流Intralogisitics,分享仓储物流自动化技术、设备、系统等知识&#x…

chatgpt:栅格化原理和代码

栅格化原理 把某个点根据经纬度放在整数经纬度记录的格子里,并把格子编号与点对应起来。 第一步确定每个格子的长和宽,即经度变化量和纬度变换量: 假设测试点的经纬度是(114度, 22.5度) 划定栅格划分的经纬度范围(大范围&…

最强解释!Python 包的依赖管理,有解了!

来源丨网络 之前一直比较抵触用 Python ,很大一部分原因是觉得 Python 项目的环境管理比较混乱。Node.js 有 Npm 包管理工具,通过 package.json 配置项目依赖,最多再通过 nvm 来进行环境切换;Java 有 Maven Gradle 来进行包管理和…

Python小白如何利用GPT4快速开发一个网站!

这个是一个全栈的项目,麻雀虽小,五脏俱全!全程都是利用gpt4进行辅助编程搞定的。第一版其实非常快,大概30分钟就搞定了,后续就是不断的添砖加瓦,增加功能和优化UI。 其实很多小白都在说要学Python&#xff…

大文件不好处理?用 Python 盘它!

点击上方“菜鸟学Python”,选择“星标”公众号 超级无敌干货,第一时间送达!!! 来源:https://blog.csdn.net/lemonbit/article/details/126326509 为了进行并行处理,我们将任务划分为子单元。它增…

“一言”槽点满满 “千帆”下海收费

把公开发布会改成了闭门沟通会,百度“文心千帆”大模型平台没能享受到“文心一言”的焦点待遇,低调发布了。 从性能看,主要面向B端客户的文心千帆较文心一言更重量级:不仅涵盖了文心一言的能力,还提供全套文心大模型以…

生成式AI的“子弹”还能再飞一会儿 | 热点探析

由ChatGPT引发的人工智能热潮,近期仍在继续。 在一封来自“未来生命研究所”的公开信发布,将热度稍退的人工智能又推上热潮。 公开信指出“只有当我们确信它们的影响是积极的并且它们的风险是可控的时候,才应该开发强大的人工智能系统。因此…

OpenAI现场演示官方版AutoGPT!创作画画发推一条龙,自主调用外部应用完成任务...

丰色 明敏 发自 凹非寺量子位 | 公众号 QbitAI OpenAI官方AutoGPT,要来了! 就在AutoGPT项目破10万Star之际,OpenAI也放出重磅炸弹,由联合创始人格雷格布洛克曼(Greg Brockman)亲自现场演示了ChatGPT即将上线…

这个Chrome 插件,让你的GPT无比丝滑!

ChatGPT的官网最近几天报错越来越频繁了,相信大家都发现了。 一旦你离开页面时间比较久,再度返回跟它进行对话,就会出现如下报错: 虽然这个报错信息以前也出现过,但现在的频率确实过高,对于每天需要使用 Ch…

【用tk写小游戏系列】用tk自制小游戏【有奖问答】

程序效果如图。 代码如下。 # -*coding:UTF-8*- from tkinter import Tk,Button,Label import sys def dui():duiTk()dui.title("自制对话框")lableLabel(dui,text恭喜你,答对了!)lable.pack()button3Button(dui,text好,commandbye)button3…

CocosCreator如何制作微信小游戏

CocosCreator在1.8版本开始,就支持一键发布微信小程序,下面是详细的发布步骤: 1、在微信公众平台下载微信开发者工具; 地址: https://mp.weixin.qq.com/debug/wxagame/dev/devtools/download.html?t2018115,根据需要选…

用Python制作小游戏

谁还没有玩过俄罗斯方块呢,这款单机小游戏,简单易懂,最好打发无聊时间了。 使用python除了可以爬取图片,视频,当然可以制作一些小游戏了。 其实这个很简单,就是转化数据很麻烦 ☹ 实际流程: …

基于QT的推箱子小游戏设计

基于QT的推箱子小游戏设计 目 录 1功能设计 1 1.1简介 1 1.2主要功能 1 2总体设计 2 2.1游戏流程 2 2.2设计思路 3 3具体实现 3 3.1 界面的设计 3 3.2 推箱子功能的实现 4 3.4按键函数调用 4 3.5绘图事件调用 4 4调试结果 6 4.1游戏主界面 6 4.2游戏帮助界面 7 4.3游戏选关界面…

控制台推箱子小游戏的实现

首先&#xff0c;这个推箱子&#xff0c;是在黑窗口实现的&#xff0c;界面不美观&#xff0c;有能力的写好了可以尝试图形化窗口easyx封装好 先来看看完整代码 #include <stdio.h> #include <conio.h> #include <stdlib.h> #include <Windows.h> #…

基于C#制作一个飞机大战小游戏

此文主要基于C#制作一个飞机大战游戏,重温经典的同时亦可学习。 实现流程1、创建项目2、界面绘制3、我方飞机4、敌方飞机5、子弹及碰撞检测实现流程 1、创建项目 打开Visual Studio,右侧选择创建新项目。搜索框输入winform,选择windows窗体应用,填写对应的保存路径点击下一…

CCL2023-Eval | 汉语高考机器阅读理解对抗鲁棒评测正式开启,诚邀您积极参与

简介 机器阅读理解领域近年来取得了显著的发展成果&#xff0c;然而&#xff0c;在面向开放、动态、真实环境下的推理与决策时&#xff0c;模型鲁棒性仍有待提高。为此&#xff0c;山西大学自然语言处理团队基于“CCL2022-高考语文阅读理解可解释评测”数据集 GCRC 构建了对抗鲁…