强化学习（赵世钰版）-学习笔记（7.时序差分学习）

强化学习（赵世钰版）-学习笔记（7.时序差分学习）

news/2025/3/14 14:01:35/文章来源:https://blog.csdn.net/pzb19841116/article/details/146245152

本章是课程算法与方法中的第四章，介绍的时序差分学习算法是基于随机近似方法设计的强化学习方法，也是model-free的方法。

时序差分算法是一种近似估计策略状态值的算法，具体的形式如下：

本质上是在当前t时刻，被访问到的状态采用近似迭代的策略（即上一章讲的RM算法）估计出一个状态值，没被访问到的维持不变。TD算法更新状态值的公式，可以展开来看。

TD Target是状态值的定义，当前回报加上打折后的后续状态值。TD Error是相关估计误差，类似于SGD里面的梯度。这里证明了随着迭代的持续，估计值会慢慢想真实值靠拢。

而TD Error是用于衡量t时刻的状态值与真实的状态值，如果相等皆大欢喜，如果不相等，则提供了策略修改的信息。

这里引入了一个贝尔曼方程的另一种形式-贝尔曼期望方程。

因为是Model-free，所以只能获取到相关的采样输入，代进贝尔曼期望方程，则为

所以，用RM算法计算状态值，可以表现为一下的一个迭代公式

TD算法的公式再次贴过了，方便两者的对比（即公式3和公式6）。

两个公式有一下差异，对RM算法的表达形式（即公式三）进行对应的修改，就变成了TD算法（公式六）。

这里对比了MC算法和TD算法，TD的算法快一些，不需要等所有抽样结束才开始算。

TD算法适用于计算状态值的算法，对应计算行为值的类似算法叫做Saras（state-action-reward-state-action的缩写），其表达式为

通过Saras算法，可以计算出行为值的期望值，并进一步找到最优策略，具体的方式如下伪代码所示；

介绍完Saras算法，后续是n-step Saras算法，这是Saras和MC算法的结合体。

n是这个算法的一个超参数，设为1变成原版的Saras算法，设为无穷则变成了MC算法。

n-step Saras结合了Saras和MC算法的特点，通过n来调整算法的倾向性。

然后是大名鼎鼎的Q-Learning，Saras的思路是估算出一个策略的行为值，并结合策略改进找到最优策略。而Q-Learning的策略是一步到位。

Q-Learning算法的数学模型如下所示，与Saras算法的形式类似，唯一区别就是TD Target（红框部分）

Q-Learning本质上就是用贝尔曼最优方程计算最优行为值。后面提到了On-policy和Off-policy，如果行为策略和目标策略一致，就是On-policy，否则就是Off-policy。

Off-policy的优点就在于，可以通过另一个策略的采样结果，来找到目标策略的最优情况。

那么怎么判断一个TD算法是On-policy还是Off-policy呢？第一个是看要解决的数学问题，第二个是看算法对实验样本的要求。

Q-Learning是Off-policy，而Saras和MC都是On-policy，因为需要计算的策略，用到的数据都是相同的策略生成的，同时也是个策略问题，都是通过迭代找到最优策略的。

Q-Learning完全不一样

Q-Learning分别可以用On-policy和Off-policy实现，下面是两种方法的伪代码

本章介绍的几个算法，数学模型的架构都是一样的，唯一的区别就是TD Target不一样。

这几个算法都是随机近似法来解决贝尔曼方程或贝尔曼最优方程（Q-Learning）。

个人感觉Monte Carlo、Saras和n-step Saras，分别类似于随机梯度下降、梯度下降、小批量梯度下降。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/32968.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

无公网IP也能远程控制Windows：Linux rdesktop内网穿透实战

无公网IP也能远程控制Windows：Linux rdesktop内网穿透实战

文章目录前言1. Windows 开启远程桌面2. Linux安装rdesktop工具3. Win安装Cpolar工具4. 配置远程桌面地址5. 远程桌面连接测试6. 设置固定远程地址7. 固定地址连接测试前言如今远程办公已经从一种选择变成了许多企业和个人的必修课，而如何在Linux系统上高效地访…

阅读更多...

深度学习与大模型-矩阵

深度学习与大模型-矩阵

矩阵其实在我们的生活中也有很多应用，只是我们没注意罢了。 1. 矩阵是什么？ 简单来说，矩阵就是一个长方形的数字表格。比如你有一个2行3列的矩阵，可以写成这样： 这个矩阵有2行3列，每个数字都有一个位置&a…

阅读更多...

【实战ES】实战 Elasticsearch：快速上手与深度实践-8.2.1AWS OpenSearch无服务器方案

【实战ES】实战 Elasticsearch：快速上手与深度实践-8.2.1AWS OpenSearch无服务器方案

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路文章大纲 8.2.1AWS OpenSearch 无服务器方案深度解析与实践指南1. Serverless架构的核心价值与行业趋势1.1 传统Elasticsearch集群的运维挑战1.2 Serverless技术演进路线技术特性对比…

阅读更多...

使用 Arduino 和 ESP8266 Wi-Fi 模块发送电子邮件

使用 Arduino 和 ESP8266 Wi-Fi 模块发送电子邮件

使用 Arduino Uno 和 ESP8266 Wi-Fi 模块发送电子邮件我们正在迈向物联网（IoT）世界。这项技术在电子和嵌入式系统中起着非常重要的作用。从任何微控制器或嵌入式系统发送电子邮件都是非常基本的事情，这在 IoT 中是必需的。因此，在本文中，我们将学习“如何使用 Wi-Fi 和…

阅读更多...

jmeter-AES加密

jmeter-AES加密

AES(全称：Advanced Encryption Standard)对称加密算法，也就是加密和解密用到的密钥是相同的，这种加密方式加密速度非常快， 适合经常发送数据的场合，如：数据加密存储、网络通信加密等。在进行接口测试或接…

阅读更多...

四种 No-SQL

四种 No-SQL

在一个常规的互联网服务中，读取与写入的比例大约是 100:1 到 1000:1。然而，从硬盘读取时，数据库连接操作耗时，99% 的时间花费在磁盘寻址上。为了优化读取性能，非规范化的设计通过添加冗余数据或分组数据来引入。下述…

阅读更多...

使用 Chrome Flags 设置（适用于 HTTP 站点开发）

使用 Chrome Flags 设置（适用于 HTTP 站点开发）

使用 Chrome Flags 设置（适用于 HTTP 站点开发） 在 Chrome 地址栏输入：chrome://flags/在搜索框输入 “Insecure origins” 或 “Allow invalid certificates”。找到 “Insecure origins treated as secure” 选项（或者 #allow-…

阅读更多...

openharmony体验

openharmony体验

openharmony5 去年已经出来了如果以前做过android开发的，学起来不难，关键 1：环境 DevEco Studio 5.0.3 Beta2 https://developer.huawei.com/consumer/cn/deveco-studio/ win10_64bit CPU amd64(不是arm的) 2:安装执行EXE 安装就行&#x…

阅读更多...

【微知】plantuml在泳道图中如何将多个泳道框起来分组并且设置颜色？（box “浏览器“ #LightGreen endbox）

【微知】plantuml在泳道图中如何将多个泳道框起来分组并且设置颜色？（box “浏览器“ #LightGreen endbox）

泳道分组并且着色分组用 box和endbox ，颜色用#xxx，标注用"xxx" box "浏览器" #LightGreen participant "浏览器1" as Browser participant "浏览器2" as Browser2 endboxparticipant "服务端" as …

阅读更多...

EngineerCMS完整版支持OnlyOffice8.2文档协作

EngineerCMS完整版支持OnlyOffice8.2文档协作

这次从OO5.3那个时代的接口，改到支持8.2接口，颇费周折。centos升级和docker升级 - Powered by MinDoc (itdos.net) 1. 首先是升级centos 手动升级centos7内核（版本自行选择，亲测内核下载链接有效）_centos内核下载-CS…

阅读更多...

仿TikTok推荐系统开发与部署

仿TikTok推荐系统开发与部署

目录 1、对H&M零售数据集的简要介绍 2、个性化推荐的核心范式 3、引入双塔嵌入模型 4、理解4阶段推荐架构 4.1 第一阶段 4.2 第二阶段 4.3 第三阶段 4.4 第四阶段 5、将4阶段架构应用于我们的H&M案例 6、特征/训练/推理（FTI）架构 7、…

阅读更多...

＜03.13＞八股文补充知识

＜03.13＞八股文补充知识

import java.lang.reflect.*; public class Main {public static void main(String[] args) throws Exception {// 获取 Class 对象//1. 通过类字面量Class<?> clazz Person.class;//2 通过对象实例化String str "Hello";Class<?> clazz_str str.ge…

阅读更多...

windows系统，pycharm运行.sh文件

windows系统，pycharm运行.sh文件

博主亲身试验过，流程简单，可用。需要pycharm ，git。注意需要Git Bash.exe ，也就是Git Bash的应用程序，而不是快捷方式。需要把这个应用程序的路径复制一下。可以通过右键，复制文件地址的方式。接着在…

阅读更多...

新闻网页信息抽取

新闻网页信息抽取

1. 网页信息抽取问题定义：对新闻网页（输入为HTML）提取结构化信息，包括标题、发布时间、作者、正文、图片等。动机：由于网页（大多数为HTML格式）通常带有很多标签、样式、脚本等信息&#xff0…

阅读更多...

Attention又升级！Moonshot | 提出MoE注意力架构：MoBA，提升LLM长文本推理效率

Attention又升级！Moonshot | 提出MoE注意力架构：MoBA，提升LLM长文本推理效率

源自: AINLPer（每日干货分享！！） 编辑: ShuYini 校稿: ShuYini 时间: 2025-3-13 更多：>>>>大模型/AIGC、学术前沿的知识分享！ 引言对于大模型来说，有效扩展上下文长度对于实现通用…

阅读更多...

人工智能与我何干

人工智能与我何干

思考一下， 如果打破这样的磁场，当我焦虑的时候，总是想要看一些负面的内容，这是错误的，不应该这样做，要坚定自己的信念，我为什么和人工智能去争抢呢，不能和人工智能争抢，这…

阅读更多...

Netty启动源码NioEventLoop剖析accept剖析read剖析write剖析

Netty启动源码NioEventLoop剖析accept剖析read剖析write剖析

学习链接 NIO&Netty - 专栏 Netty核心技术十–Netty 核心源码剖析Netty核心技术九–TCP 粘包和拆包及解决方案Netty核心技术七–Google ProtobufNetty核心技术六–Netty核心模块组件Netty核心技术五–Netty高性能架构设计聊聊Netty那些事儿 - 专栏一文搞懂Netty发送数…

阅读更多...

智能三防手持终端破解传统仓储效率困局

智能三防手持终端破解传统仓储效率困局

在数字化浪潮的推动下，传统仓储管理模式正面临效率低、成本高、错误频发等瓶颈。如何实现精准、高效、智能化的仓储管理，上海岳冉三防智能手持终端机以RFID技术为核心，结合工业级三防（防水、防摔、防尘）设计&#xff0…

阅读更多...

13. Pandas ：使用 to_excel 方法写入 Excel文件

13. Pandas ：使用 to_excel 方法写入 Excel文件

一 to_excel 方法的相关参数用它来指定要将 DataFrame 写入哪些工作表的哪些单元格，以及是否需要包含列标题和 DataFrame 索引。如何处理特殊值（如 np.nan 和 np.inf）。 1.指定工作表和单元格 sheet_name：指定将 DataFrame 写入的…

阅读更多...

星越L_发动机舱开启及油液加注讲解

星越L_发动机舱开启及油液加注讲解

目录 1.拉手 2打开前机盖 3.冷却液加注口 4.玻璃水加注口 5.机油加注口 6.刹车油加注口 7.电瓶 1.拉手中控台左下方有个拉手，拉动两次前机盖解锁。 2打开前机盖向上抬打开前机盖。 3.冷却液加注口

阅读更多...

最新文章

推荐文章