PPO算法基本原理及流程图(KL penalty和Clip两种方法)

PPO算法基本原理

PPO(Proximal Policy Optimization)近端策略优化算法,是一种基于策略(policy-based)的强化学习算法,是一种off-policy算法。

详细的数学推导过程、为什么是off-policy算法、advantage函数设计、重要性采样Importance Sampling这些概念的详细介绍和注释请参考学习:李宏毅老师的强化学习系列课程,我也将学习笔记分享到另一篇博客中:PPO算法基本原理(李宏毅课程学习笔记)https://blog.csdn.net/ningmengzhihe/article/details/131457536,欢迎感兴趣的小伙伴共同交流呀!!!

KL penalty 和 Clip

PPO算法的核心在于更新策略梯度,主流方法有两种,分别是KL散度做penalty,另一种是Clip剪裁,它们的主要作用都是限制策略梯度更新的幅度,从而推导出不同的神经网络参数更新方式

采用KL penalty算法,那么神经网络参数按照下面的方式更新
在这里插入图片描述
采用Clip算法,那么神经网络参数按照下面的方式更新
在这里插入图片描述
那么采用KL penalty算法的PPO算法伪代码如下
在这里插入图片描述
在这里插入图片描述

采用Clip算法的PPO算法伪代码如下
在这里插入图片描述

算法流程图

下面的算法流程图是基于莫烦python的PPO算法代码实现,同时参考了网络代码的算法流程,它没有用到memory,每次更新ppo用到的数据是连续的transition(包括当前状态、执行动作和累积折扣奖励值),它采用两个actor网络(一个actor_old一个actor )
在这里插入图片描述
PPO类包含下面四个部分,也就是四个方法
在这里插入图片描述

(1)初始化

在这里插入图片描述

(2)选择动作

在这里插入图片描述

(3)计算状态价值

在这里插入图片描述

(4)更新/训练网络的update方法

在这里插入图片描述
KL penalty和Clip算法体现在更新actor网络方式不同,也就是下面流程图中的黄色框

KL penalty算法

Clip算法

actor网络和critic网络更新实现不固定,上述算法是actor网络和critic网络分开更新,有的actor_loss和critic_loss加权后一块儿更新网络(代码请见simple_ppo.py),它们网络结构设计也不同

具体哪种方式效果更好并没有理论依据,往往需要尝试跑代码再结合具体问题选择喽

参考资料

(1)论文:Emergence of Locomotion Behaviours in Rich Environments
(2)论文:Proximal Policy Optimization Algorithms
(3)莫烦Python
(4)PPO2代码 pytorch框架 - 知乎 https://zhuanlan.zhihu.com/p/538486008,这是一份可以跑通的代码,很赞
(5)B站李宏毅强化学习课程,讲解数学原理非常厉害
(6)这份教程是李宏毅强化学习的深入讲解,也和不错:ChatGPT和PPO(中文介绍)_哔哩哔哩_bilibili https://www.bilibili.com/video/BV1sg4y1p7hw/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=1565223f5f03f44f5674538ab582448c

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15620.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

达摩院用128张GPU烧出“中文版GPT-3”,我试了下,这文风不是开往幼儿园的车…...

杨净 子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 首先,请先看一段“正经”的文字: 他笑意中的那份温柔,只想给她好好珍藏,即便这一切不会发生,至少在他的世界里,她是无忧无虑的快乐的。就连他对她的关心…

洞察ChatGPT巨大价值,云知声积极推动行业版ChatGPT落地

近日,ChatGPT的风越刮越猛,不由让人好奇,作为“能说会道”的ChatGPT,能够运用在专业性更高的行业?遗憾的是,从目前ChatGPT给出的答案来看,它距离运用在医疗等专业领域尚有距离。对此&#xff0c…

ChatGPT提示词工程师教程-迭代

不要奢求“一针见血”,要不断打磨,形成良好的提示词迭代流程。多维度,多样本。就像用搜索引擎一样,第一次搜索没有得到想要的结果,就要对搜索的关键词进行修。参考“指南”,想想是否提示词不够清晰&#xf…

ChatGPT 提示的艺术 —— 如何编写清晰有效提示指南

ChatGPT 提示的作用 正如我们之前提到的那样,ChatGPT 对话中使用的提示的质量可以显著影响对话的成功。定义清晰的提示可以确保对话保持在正确的轨道上,并涵盖用户感兴趣的主题,从而产生更引人入胜和信息丰富的体验。 那么什么样的 ChatGPT…

给开发者的ChatGPT提示词工程指南

【中文完整版全9集】第1集 引入-ChatGPT提示词工程师教程 吴恩达xOpenAI官方 【OpenAI官方 | 中文完整版】 吴恩达ChatGPT提示工程师初级到高级(AI大神吴恩达教你写提示词) ChatGPT Prompt Engineering for Development 基础大语言模型和指令精调大语言…

量子退火?这又是啥?居然撑起了第一家量子计算公司

组合优化问题,在应用数学和理论计算机科学领域,指的是在一个有限的对象里集中找出最优对象的一类课题。这类问题特征是可行解的集是离散或者可以简化到离散结果,并且目标是要找到最优解。当前,常见的组合优化问题通用版上包括旅行…

光量子计算公司宣布成立加拿大首个量子网络,大力推进量子创新

加拿大量子网络 光子量子计算的领导者Xanadu今天宣布与MaRS和Creative Destruction Lab(CDL)合作创建加拿大量子网络(CQN)。 CQN着手于加拿大多伦多的Xanadu、MaRS和CDL三个节点,为合作组织提供量子测试平台&#xf…

谷歌用量子处理器发现:光子能在混沌中保持稳健的束缚态

一圈超导量子比特可以容纳微波光子的“束缚态”,其中光子往往聚集在相邻的量子比特位点上。图片来源:Google Quantum AI 使用量子处理器,研究人员可以使微波光子具有异常的“粘性”。在诱使它们聚集成束缚态后,他们发现这些光子簇…

基于量桨搭建AI量子通信模拟平台,优化量子通信协议

点击左上方蓝字关注我们 项目背景 现阶段量子通讯协议的设计和优化依然停留在人工处理的阶段,距离迈向系统化工程处理依然有着不小的距离。导致目前量子通讯协议从研发到实验验证这一整套流程面临着周期长、成本高等问题。系统化的搭建模拟平台和引入先进的人工智能…

量子模拟器中的“弯曲时空”

光子盒研究院出品 当你想解释宇宙尺度的现象时,相对论很有效:比如黑洞碰撞时产生的引力波;量子理论在描述粒子尺度的现象时效果很好(比如原子中单个电子的行为)。但是,将这两者以一种完全令人满意的方式结合…

量子保密通信应用与技术探讨

源自: 信息通信技术与政策 作者:程明 张成良 唐建军 量子密钥在线与离线结合分发模式的应用范围不再局限于QKD网络的覆盖和能力,使得量子保密通信的应用场景得到较大拓展。 摘要 近年来,基于量子密钥分发的量子保密通信在应用方面进行了…

Infleqtion与Morningstar合作探索量子计算的新途径

(图片来源:网络) 量子计算服务商Infleqtion宣布,将Infleqtion的旗舰量子软件SuperstaQ整合到Morningstar投资和投资组合分析平台Morningstar Direct中。借助SuperstaQ的整合,通过Morningstar的实验室分析模块&#xff…

量子通信是不是伪科学?潘建伟这样回应

来源:科技日报 “墨子号”发射快三年了,到底有什么新发现?量子通信和公众有什么关联,到底是不是伪科学?10日,在全国政协十三届二次会议举行的记者会上,全国政协委员、中国科学技术大学常务副校长…

“走近”量子模拟

来源:中国军网 作者:张媛、张远、达平 当下,量子计算在先进材料以及生物化学模拟方面正崭露头角。因为量子力学解释了这些材料的基本物理特性,量子计算非常适合进行模拟。那么,什么是量子模拟?量子模拟有什…

“量子计算+通信”!玻色量子与中国移动研究院强强联合

​2023年3月12日,北京玻色量子科技有限公司(后文简称“玻色量子”)与中国移动通信有限公司研究院(后文简称“中国移动研究院”)达成合作,中国移动研究院院长黄宇红与玻色量子创始人&CEO文凯博士在玻色量…

量子信息技术(QIT)

信息技术IT(Information Technology),比特(bit)——20世纪的技术革命量子信息技术QIT(Quantum Information Technology),量子比特(qbit)——21世纪的技术革命量子信息论在科学方面有着深远的影响,改造量子力学基础,加速变革时空观,加深对定域…

谷歌前量子部门“单飞”,正式成立量子软件公司Sandbox AQ

(图片来源:网络) 3月2日, 量子计算机与量子集成电路开发商Rigetti Computing宣布完成SPAC正式在纳斯达克挂牌上市。与此同时,另外两家量子计算领域的领导者IonQ、D-wave也在火速筹备上市前的准备工作。 现在&#xff0…

ChatGPT的发展,需要量子算力......

光子盒研究院出品 自去年 11 月上线以来,ChatGPT 已被无数人使用,人们一直要求以各种形式让这个大语言模型接入更多数据。3月23日,基于GPT-4的新一代代码生成工具Copilot X正式推出;3 月 24 日,OpenAI 终于宣布部分解除…

5 天内用户数破亿、增速碾压 ChatGPT

来源 | InfoQ,整理 | 凌敏、核子可乐 小扎和马斯克的“格斗”,从八角笼中来到了社交平台上。 当地时间 7 月 5 日,Meta 旗下的 Instagram 正式发布 Threads,与 Twitter 展开直接竞争。据介绍,Threads 的定位是“用文本…

chatgpt赋能python:如何使用Python编写移动应用——将Python编译成APK

如何使用Python编写移动应用——将Python编译成APK 移动应用开发一直是全球最热门的行业之一。对于开发者来说,如何快速有效地开发出高质量的移动应用是至关重要的。Python语言一直以来都是开发者们的最爱,因为具备易于学习、灵活性和可重用性等优点。但…