2022年度强化学习领域19个重要进展汇总

本文汇总梳理了2022年度,强化学习领域的发展重大事件、以及落地应用等方向中突出代表,整理难免带有个人观点,欢迎大家一起讨论。本文整理自“深度强化学习实验室”公众号,阅读原文请点击这里。

【1】MIT强化学习新算法EIPO,智能体「难易通吃」

为了追求使AI智能体具有「恰到好处」的好奇心,来自麻省理工学院计算机科学与AI实验室(CSAIL)的研究人员创造了一种算法,克服了AI过于「好奇」和被手头的任务分散注意力的问题。他们研究出的算法会在需要时自动增加好奇心,如果智能体从环境中得到足够的监督,已经知道该怎么做,则降低好奇心。

论文地址:https://williamd4112.github.io/pubs/neurips22_eipo.pdf
开源代码:https://github.com/Improbable-AI/eipo


【2】DeepMind在PNAS发文,打开AlphaZero 黑箱,从神经网络中找到人类国际象棋概念证据,包括获得时间和位置等

国际象棋一直是 AI 的试验场。70 年前,艾伦·图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改进的下棋机器。上世纪出现的“深蓝”第一次击败人类,但它依赖专家编码人类的国际象棋知识,而诞生于 2017 年的 AlphaZero 作为一种神经网络驱动的强化学习机器实现了图灵的猜想。

AlphaZero 的无需使用任何人工设计的启发式算法,也不需要观看人类下棋,而是完全通过自我对弈进行训练。最近,AlphaZero 的作者 Demis Hassabis 与 DeepMind 的同事以及谷歌大脑的研究员合作了一项研究,在 AlphaZero 的神经网络中找到了人类国际象棋概念的证据,展示了网络在训练过程中获得这些概念的时间和位置,还发现了 AlphaZero 与人类不同的下棋风格。论文近期发表于 PNAS。

论文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

【3】DeepMind提出「算法蒸馏」:可探索的预训练强化学习Transformer

在当下的序列建模任务上,Transformer可谓是最强大的神经网络架构,并且经过预训练的Transformer模型可以将prompt作为条件或上下文学习(in-context learning)适应不同的下游任务。大型预训练Transformer模型的泛化能力已经在多个领域得到验证,如文本补全、语言理解、图像生成等等。

DeepMind的研究人员通过观察发现,原则上强化学习算法训练中学习的顺序性(sequential nature)可以将强化学习过程本身建模为一个「因果序列预测问题」。具体来说,如果一个Transformer的上下文足够长到可以包含由于学习更新而产生的策略改进,那它应该不仅能够表示一个固定的策略,而且能够通过关注之前episodes的状态、行动和奖励表示为一个策略提升算子(policy improvement operator)。

论文地址:DeepMind提出「算法蒸馏」:可探索的预训练强化学习Transformer

【4】AlphaTensor,用强化学习发现矩阵乘法算法,具有 SOTA 复杂性的多样化算法集

继AlphaGo, AlphaStar, AlphaFold, AlphaCode之后,DeepMind 的 Alpha 系列 AI 智能体家族又多了一个成员——AlphaTensor,这次是用来发现算法。数千年来,算法一直在帮助数学家们进行基本运算。早在很久之前,古埃及人就发明了一种不需要乘法表就能将两个数字相乘的算法。希腊数学家欧几里得描述了一种计算最大公约数的算法,这种算法至今仍在使用。在伊斯兰的黄金时代,波斯数学家 Muhammad ibn Musa al-Khwarizmi 设计了一种求解线性方程和二次方程的新算法,这些算法都对后来的研究产生了深远的影响。

论文地址 :Discovering faster matrix multiplication algorithms with reinforcement learning | Nature
GitHub 地址:https://github.com/deepmind/alphatensor

【5】Sparrow(麻雀)模型,用强化学习训练「正能量」聊天机器人,不担心AI乱说话了!

近年来,大型语言模型(LLMs)已经在一系列任务中取得了显著进步,比如问题回答、文本摘要和人机对话等。人机对话是一项特别有趣的任务,因为它具有灵活和互动的交流特点,但基于LLM的对话智能体(dialogue agent)可能会表达不准确的、甚至是捏造的信息,或者是使用歧视性语言,鼓励用户进行危险行为等。为了创造更安全的对话智能体,DeepMind在最新论文中提出了Sparrow(麻雀)模型,探索了训练对话智能体的新方法,即从人类的反馈中学习,使用基于研究参与者输入的强化学习,能够减少生成不安全和不适当答案的风险。

论文地址:https://dpmd.ai/sparrow-paper

【6】斯坦福李飞飞团队提出"社会化 AI 的强化学习框架",只有AI 与人类互动才能提高智能水平

人类从与他人的互动中学习,而目前的人工智能却常常只能在与社会隔离的环境中学习。所以当我们把一个智能体放到真实世界中时,它会不可避免地在遇到大量新的数据,无法应对不断变化的新需求。如何将智能体从只有一堆书的房间里“解放”出来,让它在广阔的社会情境中学习,是一个新的挑战。最近,斯坦福大学计算机系的 Ranjay Krishna、Donsuk Lee、李飞飞、Michael Bernstein 等人针对此问题提出了一种新的研究框架:社会化人工智能(socially situated AI),即智能体通过在现实社会环境中与人的持续互动来学习。论文“Socially situated artificial intelligence enables learning from human interaction”已发表在美国科学院院刊(PNAS)上。

论文地址:https://www.pnas.org/doi/epdf/10.1073/pnas.2115730119

【7】强化学习先驱Richard Sutton,最新阐述开发新型计算智能体的12个步骤

现在,三位领导者联合发表论文阐述 DeepMind Alberta 在未来一段时间内关于人工智能的计划,即 Alberta Plan。Alberta Plan 是一项面向计算智能的 5-10 年长期规划,旨在填补我们目前对计算智能的理解空白。随着计算智能的发展,它必将深刻影响我们的经济、社会和个人生活。

论文地址:https://arxiv.org/abs/2208.11173

【8】DeepNash智能体,DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准

我们介绍了 DeepNash,一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体,直至达到人类专家的水平。Stratego 是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树,大约有 10535 个节点,比围棋大 10175 倍。它具有额外的复杂性,需要在不完全信息下进行决策,类似于德州扑克,它的游戏树要小得多(大约 10164 个节点)。Stratego 中的决策是根据大量离散的行动做出的,行动和结果之间没有明显的联系。情节很长,在玩家获胜之前通常需要数百步棋,并且 Stratego 中的情况不能像扑克中那样轻易地分解为可管理大小的子问题。

Stratego 几十年来一直是 AI 领域的一项重大挑战,现有的 AI 方法几乎无法达到业余水平。DeepNash 使用博弈论、无模型的深度强化学习方法,无需搜索,通过自我对弈来学习掌握 Stratego。正则化纳什动力学 (R-NaD) 算法是 DeepNash 的关键组成部分,通过直接修改底层多智能体学习动力学,收敛到近似纳什均衡,而不是围绕它“循环”。DeepNash 在 Stratego 中击败了现有最先进的 AI 方法,并在 Gravon 游戏平台上获得了年度(2022 年)和历史前三名,与人类专家玩家竞争。

论文地址:【DeepMind大作】34位作者:Mastering the Game of Stratego with Model-Free MARL - 深度强化学习实验室

【9】最全算法解读,PPO算法的37个Implementation细节

PPO算法的37个Implementation细节 - 深度强化学习实验室

参考原文:The 37 Implementation Details of Proximal Policy Optimization · The ICLR Blog Track

【10】网易开源RL4RS,一个强化学习推荐系统工业数据集(RL for Recommender System)

由网易伏羲研究团队和伏羲TTG技术团队联合发布的强化学习推荐系统工业数据集RL4RS,正式在Github开源社区开放下载。在之前的2021年年中,该工作曾与IEEE BigData 2021大会合办了网易伏羲第一届大数据竞赛,IEEE BigData Cup 2021: RL-based RecSys,吸引了国内外高校近百支队伍的参赛以及多达7篇的参赛中稿论文,并在大会上成功举办了主题WorkShop。

数据与代码入口: https://github.com/fuxiAIlab/RL4RS 

关于RL4RS的详细情况,可参见已提交至arXiv的相关论文, 论文地址:https://arxiv.org/pdf/2110.11073.pdf


【11】FinRL生态系统,一种使用强化学习进行自动化交易的实践,文章登顶NeurIPS 2022得到众多研究者关注,项目地址:https://github.com/AI4Finance-Foundation

【12】DeepMind成功使用"深度强化学习"技术完美控制"核聚变反应堆"!

DeepMind这个强化学习系统则可以一次控制全部19个线圈,并精确操纵等离子体自主呈现各种形状,呈现产生科学家们一直在探索的更高能量的新配置:比如下图中第二个“负三角”以及第四个“雪花”(这个形状可以通过将废能量分散到托卡马克壁上的不同接触点来降低冷却成本)。以及第一个“droplets”,这也是第一次在托卡马克内同时稳定两个等离子体。

论文地址:
Magnetic control of tokamak plasmas through deep reinforcement learning | Nature

【13】Gym发布 8 年后,迎来第一个完整环境文档,强化学习入门更加简单化!

OpenAI Gym是一款用于研发和比较强化学习算法的环境工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。 它与其他的数值计算库兼容,如pytorch、tensorflow 或者theano 库等。现在主要支持的是python 语言,以前官方提供的gym文档主要包含两部分: 测试问题集,每个问题成为环境(environment):可以用于强化学习算法开发,这些环境有共享的接口,允许用户设计通用的算法,例如:Atari、CartPole等。

OpenAI Gym服务:  提供一个站点和api ,允许用户对自己训练的算法进行性能比较。其中Gym以界面简单、pythonic,并且能够表示一般的 RL 问题,而在强化学习领域非常知名。

Gym发布 8 年后,迎来第一个完整的环境文档:https://www.gymlibrary.ml/

【14】南栖仙策发布“强化学习工业软件&预训练模型”,RL逐步开始落地

南栖仙策通用智能决策2022发布会,介绍了强化学习工业软件REVIVE的最新版本,更为惊艳的是,发布了首个工业控制预训练模型。可以预见到,强化学习,这一曾经在围棋上战胜人类的AI技术,将为工业场景带来巨大变革。智能决策平台REVIVE(Reinforcement learning with Virtualized Environment),能够将少量历史数据转化为强大的决策引擎。南栖仙策在经过了更多真实业务场景的不断打磨之后,今年对REVIVE SDK进行了重磅升级。“我们在多年的落地经验中,吸取了非常多的教训,我们相信这个版本,能够带来更加智能,准确,灵活,可信的智能决策结果。” 
地址:强化学习工业软件&预训练模型|南栖仙策最新发布 - 深度强化学习实验室

【15】上交&腾讯系统回顾深度强化学习预训练研究技术

强化学习(RL)为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络,在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而,虽然 RL 已被证明可以有效地解决指定任务,但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中,一个标准的范式是让智能体从自己或他人收集的经验中学习,针对单一任务,通过随机初始化来优化神经网络。与之相反,对人类来说,世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关,人类倾向于复用已经学到的知识来快速适应新的任务,而不需要从头开始学习。因此,与人类相比, RL 智能体存在数据效率低下问题,而且容易出现过拟合现象。

论文地址:https://arxiv.org/pdf/2211.03959.pdf

【16】AutoRL技术发布,56页综述一览无余

强化学习 (RL) 与深度学习的结合带来了一系列令人印象深刻的壮举,许多人认为(深度)强化学习提供了通向通用智能体的途径。然而,RL 智能体的成功通常对训练过程中的设计选择高度敏感,这可能需要繁琐且容易出错的手动调整。这使得使用 RL 解决新问题变得具有挑战性,也限制了它的全部潜力。在机器学习的许多其他领域,AutoML 已经表明可以自动化此类设计选择,并且 AutoML 在应用于 RL 时也产生了有希望的初步结果。然而,自动强化学习 (AutoRL) 不仅涉及 AutoML 的标准应用,还包括 RL 独有的额外挑战,这些挑战自然会产生一组不同的方法。因此,AutoRL 已成为 RL 研究的一个重要领域,在从 RNA 设计到玩游戏(如围棋)的各种应用中提供了希望。鉴于 RL 中考虑的方法和环境的多样性,许多研究都是在不同的子领域进行的,从元学习到进化。在本次调查中,我们寻求统一 AutoRL 领域,提供通用分类法,详细讨论每个领域,并提出未来研究人员感兴趣的开放问题。

文章来源:【AutoRL】自动强化学习综述和开放问题(52页)- AutoRL: A Survey and Open Problems - 深度强化学习实验室

【17】RL热门博客:如何选择深度强化学习算法?MuZero /SAC /PPO /TD3 /DDPG/DQN/等(2021-04)

阅读详细请移步原文:如何选择深度强化学习算法?MuZero/SAC/PPO/TD3/DDPG/DQN/等(2021-04) - 知乎
附姊妹篇:深度强化学习调参技巧:以D3QN、TD3、PPO、SAC算法为例(有空再添加图片) - 知乎

【18】谷歌通过乒乓球运动强化机器人学习,提升机器人的敏捷性和精确度

谷歌在最近的一篇博文中表示,机器人学习现已应用到许多真实世界任务,但将其应用于需要紧密循环的动态、高速人机交互任务还并不常见。这方面的任务可体现在乒乓球训练上。乒乓球任务有两个互补的属性,其不仅需要速度和精度(对算法要求高),还是高度结构化的(环境固定、可预测)。另外,执行乒乓球任务的机器人可与人和其他机器人分别对战,非常利于有关人机交互和强化学习方面的研究。因此,一些团队已经开发了乒乓球研究平台。

谷歌机器人团队同样搭建了一个类似平台,使其能够在多玩家、动态的环境中,研究机器人学习中出现的问题。对于该方面的研究,谷歌通过两篇论文做了相关阐述,分别题为《i-Sim2Real:紧密人机交互循环中机器人策略的强化学习》(i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops)、《GoalsEye: 在一个物理机器人上学习高速精密乒乓球》(GoalsEye: Learning High Speed Precision Table Tennis on a Physical Robot),且都已提交到 arXiv 上。

阅读详情:谷歌研究|谷歌利用真实世界的高速乒乓球强化机器人 - 智源社区

论文地址:https://arxiv.org/pdf/2210.03662.pdf


【19】RL年度重磅:ChatGPT一个你必须体验的智能AI机器人

ChatGPT是是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。同时也引起无数网友沉迷与ChatGPT聊天,成为大家讨论的火爆话题。

如果用一句话来说明ChatGPT是什么,可以将它理解为由AI驱动的聊天机器人。外界往往认为语言学领域是人工智能派上用场的绝佳地带,而事实并非如此。截至目前,人工智能还没有找到征服语言领域的暗门,即使是谷歌、苹果这样的顶级科技公司,都面临着相关AI研究成果派不上用场的苦恼。尚处在免费试用阶段的ChatGPT,关注度短短几天扩大到燎原之势,正是因为人们从中看到了人工智能和语言本体之间的真正接口。那么,ChatGPT采取了什么方式达到了如此惊艳的效果呢?为何苹果的Siri至今无法生成一篇学术论文,亚马逊的Alexa无法吟出一首莎士比亚十四行诗呢?  

试用地址:ChatGPT: Optimizing Language Models for Dialogue

2023-01-28智源社区日报:OpenAI为代码大模型标注、谷歌MusicLM生成复杂音乐、Meta文本生成4D场景、伯克利讲解DL基础到大模型、「画匠」生成图片红包活动 - 智源社区

2022年度强化学习领域19个重要进展汇总 - 智源社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40953.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分割一切?手把手教你部署SAM+LabelStudio实现自动标注

一,前言 最近Open-mmlab开源了Playground项目,将最近引起CV界轰动的SAM(Segment Anything Model)模型和Open-mmlab多个视觉框架相结合,可实现多种视觉任务的自动标注,本文将采用Open-mmlab的Playground开源项目,使用S…

老婆饼真有老婆,驴肉火烧有头驴--文言一心

困扰大家很久的问题:老婆饼里为啥没老婆,鱼香肉丝里为啥没有鱼。 最近,百度推出自己的AI大模型“文心一言”,李彦宏在发布会上表示,目前百度是全球大厂中第一个做出对标ChatGPT产品的企业。 有网友让文心一言作画&…

【2023,学点儿新Java-15】案例分享:基于Java实现餐厅点餐系统(附完整源代码)

前情回顾: 【2023,学点儿新Java-14】携程面试题:如何看待Java是一门半编译半解释型的语言?| 咨询互联网行业 资深前辈的一些问题 | 附:为什么说ChatGPT的核心算法是…?| GPT-3.5【2023,学点儿新…

文心一言作画:有点东西但不多...

随着ChatGPT的持续火热 与AI领域有关的话题 是越来越热闹了 前几天百度发布 “文心一言” 自然也成了网友们 重点关注的对象 不过大家的目光主要还是集中在 文心一言的绘画功能上 在人工智能加成下出来的画面 一个比一个绝 成功颠覆 大家对绘画的认知 生意火爆的商铺…

网传文心一言的魔性作图,有点被吓到...

来源:菜鸟教程 近日看到网友们用百度文心一言来作图,看了后我都愣住了。。。 1、AI 作画 -- 车水马龙 2、AI 作画 -- 驴肉火烧 3、AI 作画 -- 唐伯虎点秋香 4、AI 作画 -- 鱼香肉丝 5、AI 作画 -- 胸有成竹 6、AI 作画 -- 夫妻肺片 7、AI 作画 -- 红烧狮…

文心一言的魔性作图,我愣住了。。。

点关注公众号,回复“1024”获取2TB学习资源! 最近,百度推出自己的AI大模型“文心一言”,李彦宏在发布会上表示,目前百度是全球大厂中第一个做出对标 ChatGPT 产品的企业。 但是,今天看到网友们用它来作图&a…

那些在学习GPT的过程中学到的

1、大模型是什么 GPT横空出世之后,大模型火了,什么是大模型呐? 大模型通常指的是具有大规模参数和复杂结构的深度学习模型。它们的设计和结构可以因任务而异,但以下是一些常见的大模型结构: Transformer&#xff1a…

LangChain 介绍及相关组件使用总结

一、langChain LangChain 是一个由语言模型LLMs驱动的应用程序框架,它允许用户围绕大型语言模型快速构建应用程序和管道。 可以直接与 OpenAI 的 ChatGPT 模型以及 Hugging Face 集成。通过 langChain 可快速构建聊天机器人、生成式问答(GQA)、本文摘要等应用场景。…

第一代AIGC硬件悄然爆发

文 | 智能相对论 作者 | 叶远风 看起来,这可能是一副正常的黑框眼镜,你戴上去彬彬有礼、斯斯文文; 实际上,它里边还装了一个“小伙伴”,你随时可以与它交流,谈天说地或者提出各种问题接受它的帮助&#x…

chatgpt赋能python:小黑框:Python程序员必备利器

小黑框:Python程序员必备利器 如果您是一名Python程序员,小黑框(Terminal)一定不陌生。小黑框是一种基于文本的用户界面,通常用于执行命令行任务,编写或调试代码等。Python程序员可以通过小黑框完成许多任…

游戏开发中防外挂的那些事儿

对于一个要上线的游戏,防外挂是必须的,历史上因为外挂而造成大量玩家流失的游戏数不胜数。随着游戏研发技术的发展,对外挂的预防业内其实做的已经越来越好了。下面总结一下防外挂的基础知识,以及我们的移动模块为防外挂做了哪些工…

游戏反外挂技术原理讲解

永远在路上 没有破解不了的反外挂系统,反外挂是一个对抗过程,需要不断升级。我们反外挂小组会采取对抗方式提升防御,也会研究竞品来获取灵感。反外挂也是非常有意思的,可以学到很多很多底层知识。 善战者无赫赫之功 反外挂&#x…

各网游的外挂是如何做出来的?

每一个致力于学习黑客技术的人,最后都分为三种人。 第一种:入侵,各种入侵,玩的就是入侵的快感,或者恶作剧的喜感,或者那种有特殊“窥视”癖好的人……别误会,小编我是喜欢“恶作剧,…

干货!什么是游戏外挂,外挂的种类及实现原理

外挂,原指一切用来破坏游戏程序正常游戏数据和逻辑的工具或破解版。比如可以修改游戏内存数据的修改器,又比如可以修改网络数据包的抓包工具。这类外挂或多或少会影响游戏的内存数据、文件数据、网络数据,甚至代码逻辑。 但随着外挂市场的发…

游戏外挂怎么做?

文章目录 1.什么是游戏外挂2.外挂的分类及实现原理2.1 辅助类外挂2.2 专用插件类外挂2.3 通用工具2.4 内存修改器2.5 变速器2.6 按键精灵2.7 模拟器2.8 破解版 转载自:Anti-Cheat Expert 游戏安全专家 干货!什么是游戏外挂,外挂的种类及实现原…

哈夫曼树 例题

假设某棵二叉树有N个叶结点。给定这些叶结点的权值,求所有可能的二叉树中带权路径长度(WPL)的最小值。 注: 结点的带权路径长度(WPL):结点的权值乘以该结点的深度(假设根节点的深度…

svn更新/提交代码提示错误 , 进行清理下“破除写锁操作“

1.如果svn提交或者更新代码有--进行清理下"破除写锁操作"--此提示,一般情况下右键,然后选择进行确定就可以 2.如果还不行的话,在项目下的 .svn 文件夹里面新建文件夹,命名为tmp,然后重新更新,提交,就会发现问题解决了

2022年深圳杯数学建模A题代码思路-- 破除“尖叫效应”与“回声室效应”,走出“信息茧房”

问题重述: 在全新的信息传播格局下,如何破除“尖叫效应”与“回声室效应”,走出“信息茧房”,是当前迫切需要解决的现实问题,即如何从信息传输的顶层设计、推荐算法的公平性和广大网络用户的责任担当等方面&#xff0…

钉钉最新点赞破除限制方法(

我不是标题党! 首先,放图片((( 时间这里是录视频的时间,2021-8-27,不是标题党! 上方法! 主要原理:利用抓包抓到的点赞api端口,实现持续点击或…

亚马逊云科技 Build On -Serverless低代码平台初体验-快速完成vue前端订单小程序

文章目录 一、我所认识的低代码平台二、Serverless的使用场景三、拖拉跩实现build on 的Serverless1. 使用图像界面创作方法2. 拖拉跩模块实现搭建3. 实时测试流程是否正确4. 最终的设计和流程图 四、创建端到端的基于vue的前端图形化界面六、总结与活动链接 一、我所认识的低代…