2022年度强化学习领域19个重要进展汇总

本文汇总梳理了2022年度，强化学习领域的发展重大事件、以及落地应用等方向中突出代表，整理难免带有个人观点，欢迎大家一起讨论。本文整理自“深度强化学习实验室”公众号，阅读原文请点击这里。

【1】MIT强化学习新算法EIPO，智能体「难易通吃」

为了追求使AI智能体具有「恰到好处」的好奇心，来自麻省理工学院计算机科学与AI实验室（CSAIL）的研究人员创造了一种算法，克服了AI过于「好奇」和被手头的任务分散注意力的问题。他们研究出的算法会在需要时自动增加好奇心，如果智能体从环境中得到足够的监督，已经知道该怎么做，则降低好奇心。

论文地址：https://williamd4112.github.io/pubs/neurips22_eipo.pdf
开源代码：https://github.com/Improbable-AI/eipo

【2】DeepMind在PNAS发文，打开AlphaZero 黑箱，从神经网络中找到人类国际象棋概念证据，包括获得时间和位置等

国际象棋一直是 AI 的试验场。70 年前，艾伦·图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”第一次击败人类，但它依赖专家编码人类的国际象棋知识，而诞生于 2017 年的 AlphaZero 作为一种神经网络驱动的强化学习机器实现了图灵的猜想。

AlphaZero 的无需使用任何人工设计的启发式算法，也不需要观看人类下棋，而是完全通过自我对弈进行训练。最近，AlphaZero 的作者 Demis Hassabis 与 DeepMind 的同事以及谷歌大脑的研究员合作了一项研究，在 AlphaZero 的神经网络中找到了人类国际象棋概念的证据，展示了网络在训练过程中获得这些概念的时间和位置，还发现了 AlphaZero 与人类不同的下棋风格。论文近期发表于 PNAS。

论文地址：https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

【3】DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

在当下的序列建模任务上，Transformer可谓是最强大的神经网络架构，并且经过预训练的Transformer模型可以将prompt作为条件或上下文学习（in-context learning）适应不同的下游任务。大型预训练Transformer模型的泛化能力已经在多个领域得到验证，如文本补全、语言理解、图像生成等等。

DeepMind的研究人员通过观察发现，原则上强化学习算法训练中学习的顺序性（sequential nature）可以将强化学习过程本身建模为一个「因果序列预测问题」。具体来说，如果一个Transformer的上下文足够长到可以包含由于学习更新而产生的策略改进，那它应该不仅能够表示一个固定的策略，而且能够通过关注之前episodes的状态、行动和奖励表示为一个策略提升算子（policy improvement operator）。

论文地址：DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

【4】AlphaTensor，用强化学习发现矩阵乘法算法，具有 SOTA 复杂性的多样化算法集

继AlphaGo, AlphaStar, AlphaFold, AlphaCode之后，DeepMind 的 Alpha 系列 AI 智能体家族又多了一个成员——AlphaTensor，这次是用来发现算法。数千年来，算法一直在帮助数学家们进行基本运算。早在很久之前，古埃及人就发明了一种不需要乘法表就能将两个数字相乘的算法。希腊数学家欧几里得描述了一种计算最大公约数的算法，这种算法至今仍在使用。在伊斯兰的黄金时代，波斯数学家 Muhammad ibn Musa al-Khwarizmi 设计了一种求解线性方程和二次方程的新算法，这些算法都对后来的研究产生了深远的影响。

论文地址：Discovering faster matrix multiplication algorithms with reinforcement learning | Nature
GitHub 地址：https://github.com/deepmind/alphatensor

【5】Sparrow(麻雀)模型，用强化学习训练「正能量」聊天机器人，不担心AI乱说话了！

近年来，大型语言模型（LLMs）已经在一系列任务中取得了显著进步，比如问题回答、文本摘要和人机对话等。人机对话是一项特别有趣的任务，因为它具有灵活和互动的交流特点，但基于LLM的对话智能体（dialogue agent）可能会表达不准确的、甚至是捏造的信息，或者是使用歧视性语言，鼓励用户进行危险行为等。为了创造更安全的对话智能体，DeepMind在最新论文中提出了Sparrow（麻雀）模型，探索了训练对话智能体的新方法，即从人类的反馈中学习，使用基于研究参与者输入的强化学习，能够减少生成不安全和不适当答案的风险。

论文地址：https://dpmd.ai/sparrow-paper

【6】斯坦福李飞飞团队提出"社会化 AI 的强化学习框架"，只有AI 与人类互动才能提高智能水平

人类从与他人的互动中学习，而目前的人工智能却常常只能在与社会隔离的环境中学习。所以当我们把一个智能体放到真实世界中时，它会不可避免地在遇到大量新的数据，无法应对不断变化的新需求。如何将智能体从只有一堆书的房间里“解放”出来，让它在广阔的社会情境中学习，是一个新的挑战。最近，斯坦福大学计算机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人针对此问题提出了一种新的研究框架：社会化人工智能（socially situated AI），即智能体通过在现实社会环境中与人的持续互动来学习。论文“Socially situated artificial intelligence enables learning from human interaction”已发表在美国科学院院刊（PNAS）上。

论文地址：https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

【7】强化学习先驱Richard Sutton，最新阐述开发新型计算智能体的12个步骤

现在，三位领导者联合发表论文阐述 DeepMind Alberta 在未来一段时间内关于人工智能的计划，即 Alberta Plan。Alberta Plan 是一项面向计算智能的 5-10 年长期规划，旨在填补我们目前对计算智能的理解空白。随着计算智能的发展，它必将深刻影响我们的经济、社会和个人生活。

论文地址：https://arxiv.org/abs/2208.11173

【8】DeepNash智能体，DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准

我们介绍了 DeepNash，一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体，直至达到人类专家的水平。Stratego 是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树，大约有 10535 个节点，比围棋大 10175 倍。它具有额外的复杂性，需要在不完全信息下进行决策，类似于德州扑克，它的游戏树要小得多（大约 10164 个节点）。Stratego 中的决策是根据大量离散的行动做出的，行动和结果之间没有明显的联系。情节很长，在玩家获胜之前通常需要数百步棋，并且 Stratego 中的情况不能像扑克中那样轻易地分解为可管理大小的子问题。

Stratego 几十年来一直是 AI 领域的一项重大挑战，现有的 AI 方法几乎无法达到业余水平。DeepNash 使用博弈论、无模型的深度强化学习方法，无需搜索，通过自我对弈来学习掌握 Stratego。正则化纳什动力学 (R-NaD) 算法是 DeepNash 的关键组成部分，通过直接修改底层多智能体学习动力学，收敛到近似纳什均衡，而不是围绕它“循环”。DeepNash 在 Stratego 中击败了现有最先进的 AI 方法，并在 Gravon 游戏平台上获得了年度（2022 年）和历史前三名，与人类专家玩家竞争。

论文地址：【DeepMind大作】34位作者：Mastering the Game of Stratego with Model-Free MARL - 深度强化学习实验室

【9】最全算法解读，PPO算法的37个Implementation细节

PPO算法的37个Implementation细节 - 深度强化学习实验室

参考原文：The 37 Implementation Details of Proximal Policy Optimization · The ICLR Blog Track

【10】网易开源RL4RS，一个强化学习推荐系统工业数据集(RL for Recommender System)

由网易伏羲研究团队和伏羲TTG技术团队联合发布的强化学习推荐系统工业数据集RL4RS，正式在Github开源社区开放下载。在之前的2021年年中，该工作曾与IEEE BigData 2021大会合办了网易伏羲第一届大数据竞赛，IEEE BigData Cup 2021: RL-based RecSys，吸引了国内外高校近百支队伍的参赛以及多达7篇的参赛中稿论文，并在大会上成功举办了主题WorkShop。

数据与代码入口: https://github.com/fuxiAIlab/RL4RS

关于RL4RS的详细情况，可参见已提交至arXiv的相关论文, 论文地址：https://arxiv.org/pdf/2110.11073.pdf

【11】FinRL生态系统，一种使用强化学习进行自动化交易的实践，文章登顶NeurIPS 2022得到众多研究者关注，项目地址：https://github.com/AI4Finance-Foundation

【12】DeepMind成功使用"深度强化学习"技术完美控制"核聚变反应堆"！

DeepMind这个强化学习系统则可以一次控制全部19个线圈，并精确操纵等离子体自主呈现各种形状，呈现产生科学家们一直在探索的更高能量的新配置：比如下图中第二个“负三角”以及第四个“雪花”（这个形状可以通过将废能量分散到托卡马克壁上的不同接触点来降低冷却成本）。以及第一个“droplets”，这也是第一次在托卡马克内同时稳定两个等离子体。

论文地址：
Magnetic control of tokamak plasmas through deep reinforcement learning | Nature

【13】Gym发布 8 年后，迎来第一个完整环境文档，强化学习入门更加简单化！

OpenAI Gym是一款用于研发和比较强化学习算法的环境工具包，它支持训练智能体（agent）做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。它与其他的数值计算库兼容，如pytorch、tensorflow 或者theano 库等。现在主要支持的是python 语言，以前官方提供的gym文档主要包含两部分：测试问题集，每个问题成为环境（environment）：可以用于强化学习算法开发，这些环境有共享的接口，允许用户设计通用的算法，例如：Atari、CartPole等。

OpenAI Gym服务：提供一个站点和api ，允许用户对自己训练的算法进行性能比较。其中Gym以界面简单、pythonic，并且能够表示一般的 RL 问题，而在强化学习领域非常知名。

Gym发布 8 年后，迎来第一个完整的环境文档：https://www.gymlibrary.ml/

【14】南栖仙策发布“强化学习工业软件&预训练模型”，RL逐步开始落地

南栖仙策通用智能决策2022发布会，介绍了强化学习工业软件REVIVE的最新版本，更为惊艳的是，发布了首个工业控制预训练模型。可以预见到，强化学习，这一曾经在围棋上战胜人类的AI技术，将为工业场景带来巨大变革。智能决策平台REVIVE（Reinforcement learning with Virtualized Environment），能够将少量历史数据转化为强大的决策引擎。南栖仙策在经过了更多真实业务场景的不断打磨之后，今年对REVIVE SDK进行了重磅升级。“我们在多年的落地经验中，吸取了非常多的教训，我们相信这个版本，能够带来更加智能，准确，灵活，可信的智能决策结果。”
地址：强化学习工业软件&预训练模型｜南栖仙策最新发布 - 深度强化学习实验室

【15】上交&腾讯系统回顾深度强化学习预训练研究技术

强化学习（RL）为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络，在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而，虽然 RL 已被证明可以有效地解决指定任务，但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中，一个标准的范式是让智能体从自己或他人收集的经验中学习，针对单一任务，通过随机初始化来优化神经网络。与之相反，对人类来说，世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关，人类倾向于复用已经学到的知识来快速适应新的任务，而不需要从头开始学习。因此，与人类相比， RL 智能体存在数据效率低下问题，而且容易出现过拟合现象。

论文地址：https://arxiv.org/pdf/2211.03959.pdf

【16】AutoRL技术发布，56页综述一览无余

强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的壮举，许多人认为（深度）强化学习提供了通向通用智能体的途径。然而，RL 智能体的成功通常对训练过程中的设计选择高度敏感，这可能需要繁琐且容易出错的手动调整。这使得使用 RL 解决新问题变得具有挑战性，也限制了它的全部潜力。在机器学习的许多其他领域，AutoML 已经表明可以自动化此类设计选择，并且 AutoML 在应用于 RL 时也产生了有希望的初步结果。然而，自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用，还包括 RL 独有的额外挑战，这些挑战自然会产生一组不同的方法。因此，AutoRL 已成为 RL 研究的一个重要领域，在从 RNA 设计到玩游戏（如围棋）的各种应用中提供了希望。鉴于 RL 中考虑的方法和环境的多样性，许多研究都是在不同的子领域进行的，从元学习到进化。在本次调查中，我们寻求统一 AutoRL 领域，提供通用分类法，详细讨论每个领域，并提出未来研究人员感兴趣的开放问题。

文章来源：【AutoRL】自动强化学习综述和开放问题(52页)- AutoRL: A Survey and Open Problems - 深度强化学习实验室

【17】RL热门博客：如何选择深度强化学习算法?MuZero /SAC /PPO /TD3 /DDPG/DQN/等（2021-04）

阅读详细请移步原文：如何选择深度强化学习算法？MuZero/SAC/PPO/TD3/DDPG/DQN/等（2021-04） - 知乎
附姊妹篇：深度强化学习调参技巧：以D3QN、TD3、PPO、SAC算法为例（有空再添加图片） - 知乎

【18】谷歌通过乒乓球运动强化机器人学习，提升机器人的敏捷性和精确度

谷歌在最近的一篇博文中表示，机器人学习现已应用到许多真实世界任务，但将其应用于需要紧密循环的动态、高速人机交互任务还并不常见。这方面的任务可体现在乒乓球训练上。乒乓球任务有两个互补的属性，其不仅需要速度和精度（对算法要求高），还是高度结构化的（环境固定、可预测）。另外，执行乒乓球任务的机器人可与人和其他机器人分别对战，非常利于有关人机交互和强化学习方面的研究。因此，一些团队已经开发了乒乓球研究平台。

谷歌机器人团队同样搭建了一个类似平台，使其能够在多玩家、动态的环境中，研究机器人学习中出现的问题。对于该方面的研究，谷歌通过两篇论文做了相关阐述，分别题为《i-Sim2Real：紧密人机交互循环中机器人策略的强化学习》（i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops）、《GoalsEye: 在一个物理机器人上学习高速精密乒乓球》（GoalsEye: Learning High Speed Precision Table Tennis on a Physical Robot），且都已提交到 arXiv 上。

阅读详情：谷歌研究|谷歌利用真实世界的高速乒乓球强化机器人 - 智源社区

论文地址：https://arxiv.org/pdf/2210.03662.pdf

【19】RL年度重磅：ChatGPT一个你必须体验的智能AI机器人

ChatGPT是是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。同时也引起无数网友沉迷与ChatGPT聊天，成为大家讨论的火爆话题。

如果用一句话来说明ChatGPT是什么，可以将它理解为由AI驱动的聊天机器人。外界往往认为语言学领域是人工智能派上用场的绝佳地带，而事实并非如此。截至目前，人工智能还没有找到征服语言领域的暗门，即使是谷歌、苹果这样的顶级科技公司，都面临着相关AI研究成果派不上用场的苦恼。尚处在免费试用阶段的ChatGPT，关注度短短几天扩大到燎原之势，正是因为人们从中看到了人工智能和语言本体之间的真正接口。那么，ChatGPT采取了什么方式达到了如此惊艳的效果呢？为何苹果的Siri至今无法生成一篇学术论文，亚马逊的Alexa无法吟出一首莎士比亚十四行诗呢?

试用地址：ChatGPT: Optimizing Language Models for Dialogue

2023-01-28智源社区日报：OpenAI为代码大模型标注、谷歌MusicLM生成复杂音乐、Meta文本生成4D场景、伯克利讲解DL基础到大模型、「画匠」生成图片红包活动 - 智源社区

2022年度强化学习领域19个重要进展汇总 - 智源社区