原创 | 一文读懂强化学习在动态规划领域的应用

ab85835b89e7e82519223655c7c8d678.png

作者:黄娘球本文约1600字,建议阅读5分钟
本文澄清易混淆基础概念、推导公式为主,回顾强化学习基础知识。

ChatGPT已成为继AlphaGo之后的社会现象级人工智能,引发了大模型研究的热潮。戴琼海院士提出,五年后大模型将成为AI的"操作系统"。ChatGPT良好的用户体验,以RLHF(Reinforcement Learning from Human Feedback)为代表Alignment技术,功不可没。

(注:Alignment对齐使得机器学习系统的目标与人类真实的设计意图相吻合,并且更安全、可信、可靠。)

RLHF的核心属于强化学习的范畴,强化学习在大模型时代仍然是非常重要的。此文以澄清易混淆基础概念、推导公式为主,回顾强化学习基础知识。

Lecture 1 基本概念

强化学习是智能体在与环境的互动当中为了达成目标而进行的学习过程。强化学习涉及以下基本的概念:

策略(Policy): 智能体(agent)的行为模型(behavior model), 从状态(state/observation)到动作(action)的映射。

b855fa65d8c83ab00f9be906d2eb0567.png

价值函数(Value Function): 在特定策略43b880d5edfab070187b737ad63ad1b6.png下,未来奖励(reward)的期望加权和(expected discounted sum)。在策略0272e1e16e76a3e6ffceb9f7fc069adb.png下状态abba2c45ef947a0d02b1837e7c270cb0.png的价值即回报(return)的数学期望,公式:

bf59834717183c2bc5151e9e75579b54.png

                bed7131db4c8dc394b38f05719b00980.png

动作价值函数(Q-function):根据策略 π,在状态 s 时执行动作 a 的价值,公式:

1c1d4596aa5daa725a4eff1f45e9442d.png

43e42d3a30c550ffa10c20147db97d79.png

8b95515530514cefd0ceefa86eea10bc.png预测下一状态:

13e2d2bb75381a5bc9d03727433e5f71.png

827ca381f4665abac49f3ec9474e8290.png预测下一奖励:

00099811a963f6e4b6eee3b08794d0e6.png

贝尔曼方程(Bellman equation)公式推导:

贝尔曼方程(Bellman Equation)由美国统计学家、数学家和工程师理查·贝尔曼(Richard Bellman)在20世纪20年代提出。贝尔曼方程是强化学习的基本方程,用于计算给定一定状态、动作的期望回报,并可用于寻找问题的最优策略。

1. 在MDP中的状态-价值函数 State-value function 089529adb25b1cb3b9a9ae2c4f1f89f9.png97216f65f7ad4a81c0be284b31ea70d7.png为在策略ce5a3b3a99c7db3c229a43ddd9c1dcd3.png下,从状态s开始的期望回报:

7523f77247a92ed7c01f51c9464a1e7e.png

2. 动作价值函数(action-value function):

2072657d61155aeb232ac67cb65d4db2.png

10fda4498d0e1b329537c5985ac384a8.png

Lecture 2  预测与控制 (求解已知的MDP)

(prediction and control)for solving a known MDP

强化学习在求解已知的MDP 中主要有预测和控制两种应用。

1. 预测(Prediction)

给定策略1315abc19910b377c6c790d85c68fa67.png下,评估状态的价值, 即策略评估(policy evaluation)

输入:33944766acd96f9378674b67f610a9ef.png

       3e702b8a2bf5602b2aa500dc342e9d5e.png

25d70c970deccacff1e6f526b0d3f599.png

输出:价值函数 0e0502cd61a6b80801b1e31424c1881d.png2248a392ed77c3386bab066f3dddaa24.png

方法:对贝尔曼期望方程进行迭代 iteration on Bellman expectation backup,同步备份synchronous backup

137b1e84a2f1e43338ccd07c5bab0732.png

db03a5d36b783c9bed809aa21a10adfa.png

收敛:a257e5889f507bd51805e7dd199b971e.png 

bed34a49140c422fcbb9fdbea6e74371.png

控制 control : 寻找最优策略

输入:f243a511fe42e8a30ff7ca1ea8b7812d.png

0fc06e31248ac433974e6acb6f2dcabc.png

输出:最优价值函数362cc3a003d9aba9ba8692a2cfdda69d.png和最优策略b85ee09ebc08db58d624cc53fb8122fa.png7882397ab008b9ac69865034491fbeda.png

2. MDP中的控制 (MDP Control)

MDP中控制的目标是计算最优策略,084b6b3530f27da7ed9907bbbe405380.pngd12025d3264a76d2c9c2a80e6c0b79f8.png

1) 策略迭代 policy iteration

策略评估(价值预测) policy evaluation (value prediction) + 策略改进 policy improvement

这两步重复迭代直到策略收敛:

a. 评估策略π9998d17e833c56787b02706025fe37ba.png:给定目前策略π1b5088fefcab53b74343a71d4acd1f09.png,计算价值函数value function

b. 通过对c019e6e0f8a6409347a0d5f5adf7b1a3.png43ad4c9479d574f714fccc8d9749fd55.png的贪婪算法改进策略 improve the policy by acting greedily with respect to278ddf49dea58f220eb889a50ddc3115.png100e5ff5a4b0f6416d15a20bea6f6ee8.png8e14f14d30be86a363dcbf171f006462.png

cd88db8ca8bc45281225da2f0a68687f.png

策略改进policy improvement  

a. 计算策略261cac23e5c65ea1c9b0a7df45bb3658.pngπ的状态-动作价值函数

b. f8509846a271458db0d03a4061a30d01.png2ec7d2d7ee5d03499536f2e4630f28b9.png对所有8c4856fe299c915183207411ad4d02d9.png的状态9f99ee467975fced5f17b334e8168c5b.png计算新的策略1edaf802537e9415e0728f4f44a162ec.png655f09c32d1a79834f35449ef5f2513e.png,即:3b879c1f4bffe76a49978d30e8970256.png

db4dbf2129906ecdadc1468c56681a4c.png

2) 价值迭代 Value iteration

找到最优的价值函数 + 策略提取 (one policy extraction)

达到最优价值后,使用策略提取以检索(retrieve)得到最优策略

目标:找到最优策略bb75c3924c3f60db4e81624aa4ef18ba.pngπ

方法:对贝尔曼最优方程(Bellman optimality backup)进行迭代

算法:

10d8ac5a1b44a71667fc09a76f9f13a6.png 

84ed3ba8f2ea00186cc615387ec61f10.png

9c2c1ac326d490f7311377e7acd1e786.png

一旦价值函数达到了最优,由其而来的策略同样也是最优(收敛)的。

3. 动态规划算法总结

ae4ca339133a32aa279c810975489cc2.png

策略迭代与价值迭代的对比:

策略迭代:策略评估和策略改进(更新)的迭代

价值迭代:给定一个已知的MDP,计算最优价值函数

① 贝尔曼最优方程(Bellman optimality backup)的迭代

1c1fae0ba309d2f8e552010cf2957dda.png

bff8bf1685b5dc60eafed2bde1afa4e8.png

② 价值迭代后,再检索(retrieve)得到最优策略

b5a01a9440754d867f116192b5c72a85.png

6c5784bfa444e48fa2173ac71b52bc0e.png

本文主要以周博磊的课程PPT为基础,并参考了Richard Sutton、DeepMind & UCL、董豪《深度强化学习:基础、研究与应用》以及许志钦等课程资料。内容包含了笔者对这些材料的理解和公式推导。由于篇幅所限,笔记中只保留了个人认为需要重点理解的概念和公式,因此具有主观性。另外,原始笔记是英文的,翻译术语有不周之处,欢迎批评指正。

编辑:于腾凯

校对:林亦霖

作者简介

989b6c56b80ad0947caceee1d999c529.png

黄娘球,广东财经大学统计与数学学院,21级统计学硕士研究生,一个对AI各领域有广泛兴趣的技术狂热者,感兴趣的领域包括:Explainable AI,AI Safety and Alignment,AIGC,  LLMs。读研前曾是广东以色列理工学院GTIIT(以色列理工学院(Technion, Israel)中国校区)的Staff。目前是数据派THU研究组志愿者,AI TIME学术部志愿者。且在安远AI担任线上作者,职责包括帮助修改、审核文章,提供AI Safety and Alignment领域内的原创稿件。主持2022年广东省科技创新战略专项资金(攀登计划)资助项目,可解释神经网络赋能政府统计工作的可行性研究。乐于分享交流,思想碰撞。始终保持高度的学习热情,享受潜心科研的过程。

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

往期回顾

d5af7b0150d186579b277e780a9921af.jpeg

7eb1deb41bc785819b159e550af0de59.jpeg

c1eae0aea93e2811ae8a00d23e8cbdb8.png点击“阅读原文”加入组织~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/59996.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM推理提速2.8倍,CMU提出投机式推理引擎,小模型撬动大模型高效推理

©作者 | 机器之心编辑部 来源 | 机器之心 近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理」引擎 SpecInfer,可以借助轻量化的小模型来帮助大模型,在完全不影响生成内容准确度的情况下…

Python爬虫爬取各大热门短视频平台视频

1、开发工具 Python3.9 requests库 其他一些Python内置库 pycharm 2、第三方库 安装第三方库 pip install requests 3、实现思路 1、利用tkinter库实例化一个GUI界面,包含提示框、输入框、选择按钮、功能按钮。 2、用requests发送get请求,获得下…

短视频素材:17个视频网站,涨粉必上热门

2022年来了,加入短视频大军的人越来越多,但视频素材,视频制作一直是个门槛。 今天就给大家分享17个短视频素材网站! 1、Coverr:(https://coverr.co) 很好很强大的免费视频素材网站&#xff0c…

CnOpenData短视频播主排名数据

一、数据简介 短视频即短片视频,是一种互联网内容传播方式,一般是指在互联网新媒体上传播的时长在5分钟以内的视频。随着网红经济的出现,视频行业逐渐崛起一批优质UGC内容制作者,微博、秒拍、快手、今日头条纷纷入局短视频行业&am…

短视频App对比分析报告

行业发展环境及现状对比 市场特点 优点: 短视频内容生产门槛低,内容产量大。 内容形式直观,信息携带量大,体量小巧。短视频信息量大,在流量及时间上消耗低,使用方式/场景灵活,符合移动互…

今年最火的APP,你更喜欢哪一个?#2019短视频APP排行榜#

用流量看视频已经不再是一种奢侈行为,并且人们更愿意自拍视频分享自己的生活来博取大众一笑,而短视频app就给了所有人一个展示的机会,你可以在上面自拍,也可以看别人分享的视频,那么如今最火的短视频app是哪个?短视频app哪个好呢?来看看榜单吧! 2019短视频APP排行榜 …

2023 ICCAD Contest Problem C ML for IR drop 赛题解析

文章目录 问题简述问题背景问题描述与目标评估指标 以往工作PowerNet: Transferable Dynamic IR Drop Estimation via Maximum Convolutional Neural NetworkThermal and IR Drop Analysis Using Convolutional Encoder-Decoder Networks(EDGe)BeGAN: Power Grid Benchmark Gen…

In-Context Learning开卷视觉任务,DeepMind提出快速适应新任务的“蜂鸟”模型

​ 论文链接:https://arxiv.org/abs/2306.01667 近来,随着ChatGPT和GPT-4等大模型的火热,使得学术界开始更多的关注于大模型背后的一些关键新技术,例如与ChatGPT高度相关的In-Context Learning(情景学习,也…

怎样找一张图片的原图、出处?最全搜图网站+具体案例分享

前不久随手帮一网友找了张图,想了想中间的经历挺有意思,所以今天打算来说说以图搜图这个话题 第一部分,先介绍常用的识图引擎第二部分,想分享一下阿虚自己的搜图经验,也是今天主要想分享的。 ▍1 首先推荐几个识图引…

这几个免费、商用图片素材网,你一定要知道。

很多朋友不知道去哪里找图片素材,找到了又担心会不会侵权。 今天给大家分享6个免费可商用图片素材网站,这下再也不用担心找不到素材或侵权啦! 1、菜鸟图库 传送门:https://www.sucai999.com/pic.html?vNTYxMjky 网站素材资源量…

6个高清图片素材网站,找图片素材就靠他们了

6个高质量图片素材网站,建议收藏! 1、菜鸟图库 https://www.sucai999.com/?vNTYwNDUx 菜鸟图库虽然是一个设计网站,但素材库非常大,除了有设计类素材之外还有很多视频、音频、办公类等素材,图片素材就有好几十万张&a…

8个免费图片素材网,赶紧收藏起来

现在图片素材变得越来越重要了,除了平常设计经常要用到图片之外,大到平常文章、自媒体、视频制作配图,小到我们发朋友圈、日志、说说,都会用到图片来衬托。 但图片版权一直是设计师、自媒体和各大企业的一大难题。 要不就花钱买…

找高清图片素材,这8个网站就够了

相信很多设计师、自媒体都为找素材而烦恼,很多朋友不知道去哪里找图片素材,找到了版权还不明确,怕造成侵权,今天我就把我独家珍藏的8个图片素材网站分享给大家,免费下载,还可以商用,建议收藏起来…

股票web下单接口能查询到股票GIF分时走势图吗?

股票web下单接口可以通过使用getStockImageByteByCode来获取股票GIF分时走势图,那么运用该系统来获得中国股票GIF分时走势图字节数组为: INput:theStockCode 股票代号,如:sh000001 POST /WebServices/ChinaStockWebSe…

四大派围攻光明顶360摊上大事了

这一次360摊上大事了,这事与以往任何一次战争都不相同。 2月26日,《每日经济新闻》用四个整版的篇幅,推出了重磅调查报告《360黑匣子之谜--奇虎360“癌”性基因大揭秘》,一时震动行业。当天下午3点,360通过新浪微博安全…

第一个简单Python爬虫:抓取古诗文网中李白的诗歌

2018年10月11日 这是第一个博客,嘻嘻~~~~ 最近老师给了个任务:爬取诗歌。于是乎,走上了爬虫道路,爬取了李白的诗歌。 感谢代码的原作者(唐诗三百首,源代码)。 遇到的问题与收获:…

如何开通阿里云语音通知服务?

阿里云语音服务是阿里云为用户提供的一种通信服务的能力。支持快速发送语音通知服务。 安全级别更高,难窃取。支持大容量、高并发,稳定可靠。 一、如何开通阿里云语音服务? 注册阿里云平台账户;实名登记认证;阿里云语…

Android语音识别-阿里语音识别

实例代码先行 AutomaticSpeechRecognition 一、申请语音识别API(可忽略,代码中有我自己的) 在阿里智能语音识别网页申请自己的AccessKey,secret。 二、用Android Studio创建项目 可以从git clone下载用下我的 git clone https…

阿里语音识别看这一篇就够了

先看效果 效果视频 首先到阿里页面创建项目 传送门:https://help.aliyun.com/document_detail/71936.htm?spma2c4g.11186623.0.0.12a03787uqgGAh#2572188 下载sdk引入到项目并且依赖 传送门:https://gw.alipayobjects.com/os/bmw-prod/d5d24de6-599d-41ac-aad7-3bfa6fc38f4…

JSP学生学籍管理系统设计与实现(源代码+论文+开题报告+外文翻译+答辩PPT)

cc学院 毕业设计(论文)开题报告 题 目: 基于JSP的学生学籍管理系统 学 科 部: 信工学科部 专 业: 计算机科学与技术 班 级: 学 号: 姓 名: 指导教师: 填表日期&…