强化学习(赵世钰版)-学习笔记(8.值函数方法)

本章是算法与方法的第四章,是TD算法的拓展,本质上是将状态值与行为值的表征方式,从离散的表格形式,拓展到了连续的函数形式。
表格形式的优点是直观,便于分析,缺点是数据量较大或者连续性状态或者行为空间时,不能很好的处理(受限于存储和泛化能力)。
而函数形式的优点很明显,比如有10000个点,表格形式需要存储10000个数据,而用函数形式,仅需保存几个参数值,存储压力较小,且有泛化能力(可以生成新的样本点)。下面是一个例子,w是参数向量(parameter vector),因为是线性函数,所以向量维度为2(仅需保存这两个数),φ叫做特征向量(feature vector,专门的叫法)。
需要对应状态值,我们仅需将状态传入函数,即可获得结果,而不是用查表格的形式。
更新状态值的方式也不同,函数法是更新函数的参数向量,这个简介提升了泛化能力,因为为了修改当前值,也会间接影响相邻节点的情况。
但是函数法的缺点是,无法表征的那么精确(本质上是个拟合问题,不一定能找到真实的曲线),所以叫函数近似法。可以提升函数的阶数,从而增加函数的拟合能力。这个高阶曲线,如果将w看做自变量,那么本质上还是线性函数。
后面对值函数方法进行了一个总结,值函数的目的是用一个参数化的方程对状态值与行为值进行一个估计。优点是存储压力小,泛化能力强,难点是如何找到这个函数。
我们在这里用两个函数分别代表真实的状态值和估计出来的状态值,那么问题就变成了一个优化问题,找寻一个最优参数w,使得两者之间的意义是最小的,这样估计值就能尽可能的近似真实值。
这里定义了对应的目标函数,转换成了对目标函数求最小值,并找寻出对应的参数w。
那么这个随机变量S的分布是什么呢?第一种情况就是假设S服从均匀分布,这种方法就是简单,但缺点是真实的状态S不是服从均匀分布,因为各状态之间的重要性是不同的。
第二种情况是假设S服从一个稳定分布,这个稳定分布是马尔科夫过程无限执行下去后,整个系统自动收敛于一个固定的状态概率分布。
后面对稳定分布进一步进行了介绍,本质上还是Markov Process 的内容,无限执行下去,各状态之间的跳转概率就会稳定下来。
从线性代数的角度上看,就是计算这个状态转移矩阵的特征向量(特征值为1)
定义完成目标函数(估计值与真实值差异平方的期望)后,下一步就是对这个目标函数进行优化,用到的方法就是梯度下降法。这里的梯度求导,涉及到了这个期望的计算。
进一步,我们用随机梯度下降代替真实的梯度,从而简化计算。但是,目前仍有一些问题:随机梯度下降的样本采样, 也应满足稳定分布,但是这个采样是随机的。真实的状态值是未知的,也无法直接计算,只能用一个近似来使算法继续执行。
这个真实状态值的近似方法有两个,蒙特卡罗方法和时序差分方法(跟前面几章的内容对上了)
课程中主要介绍了基于时序差分的估计方法,缺点是仅能对状态值进行估计(还有一个行为值需要处理)
还有一个亟待回答的问题,就是这个值函数如何设计。常用的方法有两大类,线性方程和深度学习。
第一种方法的计算过程如下,这种方法叫做时序差分线性(TD-Linear)法。
时序查分线性法的优点是线性模型容易理解,容易将线性函数表征转化为表格类型的表征,缺点是特征向量不好选择。
转化的方式就是找寻一个特殊的特征向量,其本质上是一个One-Hot编码。
通过这个特殊的特征向量,就能把时序查分线性方法,转变成一个熟悉的时序查分表格方法。
这里对时序差分方法进行了一个总结,目标函数的目的是找寻一个值函数,能尽可能近似真实的状态值。用梯度下降法求解这个目标函数的最优解,因为真实的状态值不知道,所以用TD算法来近似。
前面介绍了对状态值的近似,找寻最优策略还需要行为值,行为值的近似一般用Saras算法。
Saras做近似的伪代码如下
类似于Saras算法,Q-Learning算法也能拓展一下用于值函数的近似。
用Q-Learning算法做值函数近似的伪代码如下
而Deep Q-Learning或者DQN,是利用神经网络来做一个非线性函数的近似,这也是深度学习在强化学习中比较成功的应用。
Deep Q-Learning的目的是使目标函数或者损失最小化
如何解决这个优化问题呢,用的是梯度下降。但是这个梯度下降不好计算,在这里引入了一个假设 ,w针对y是个固定值(至少是局部或者临时的)
为了解决这个优化问题,这里引入了两个网络-主网络(main network)和目标网络(target network)。 将目标函数中相加的两部分人为划分为主网络和目标网络,在求梯度的时候,固定住目标网络的参数,以简化梯度的计算。
双网络的模式本质上是计算梯度的一个技巧(为啥有用没看明白,这个假设是否成立,是否对真实结果有影响?)
另一个重要的概念叫做经验回放(Experience Replay),指的是采样到的样本不是直接用,而是先缓存到一个buffer里面。训练网络时,再从这个缓存buffer里面随机均匀采样,生成一个mini-batch用于训练网络。
这里采用经验回放的目的,是因为没有任何的先验知识,所以状态-行为对的分布被假设为均匀分布。
但是我们直接采样是依据某种策略产生的序列生成的,这个序列隐含了样本之间的相关性,所以用经验回放策略先进行缓存,再随机均匀采样生成mini-batch,从而消除样本之间的相关性。
这里又讨论了Q-Learning和Deep Q-Learning之间的差异,为什么有的需要经验回放
后面做了实验,Deep Q-Learning仅用了浅层的网络,就能达到很好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/35647.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++模版(进阶)

文章目录 一、非类型模版参数二、模版的特化2.1 概念2.2 函数模版特化2.2.1 函数模版特化为指针类型注意事项 2.3 类模版特化2.3.1 全特化2.3.2 偏特化(半特化)2.3.3 类模板特化应用示例 三、模版分离编译3.1 什么是分离编译?3.2 模版的分离编译3.3 解决方法! 四、模…

Linux配置yum仓库,服务控制,防火墙

一、yum仓库 1.在安装软件时,首先第一步就是要考虑软件的版本的问题! 2.软件的安装:最安全可靠的方法就是去软件对应的官网上查看安装手册(包括的软件的下载) 红帽系软件安装的常见的3种方式 (1&#x…

布谷直播系统源码开发实战:从架构设计到性能优化

作为山东布谷科技的一名技术研发人员,我参与了多个直播系统平台从0到1的开发和搭建,也见证了直播行业从萌芽到爆发的全过程。今天,我想从研发角度,分享一些直播系统软件开发的经验和心得,希望能对大家有所帮助。 一、 …

实战设计模式之解释器模式

概述 作为一种行为设计模式,解释器模式提供了一种方法来定义语言的文法规则,并通过这些规则解析和处理特定类型的语言句子。简单来说,解释器模式允许我们定义一个代表某种语言中语法规则的对象结构,从而能够根据这些规则理解并处理…

物联网边缘计算网关是什么?

在物联网的浩瀚架构中,边缘计算网关宛如一位坚毅的前沿哨兵,默默守护着数据处理与传输的关键防线,为整个物联网系统的高效运转发挥着不可或缺的作用。 一、边缘计算网关的定义与基本功能 边缘计算网关是一种智能设备,它被部署在…

计算机视觉算法实战——障碍物识别(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​ ​​​​​​ ​ ​ 1. 引言 计算机视觉是人工智能领域的一个重要分支,旨在通过计算机模拟人类的视觉系统,从…

Win11锁屏后显示“天气、市场、广告”如何取消显示

关闭方法:设置>个性化>锁屏界面>锁屏界面状态>"无"。 方法一:通过“个性化”设置 打开“设置”应用: 点击屏幕左下角的“开始”按钮(Windows 图标)。点击齿轮状的“设置”图标。或者按下 Win I…

10天速通强化学习-008

TRPO 思考-TRPO-在线策略-给定信任区域防止更新不稳定 Actor-Critic网络随着网络深度的增加,步长太长,梯度更新会变差。改变方法-增加信任区域。(trust region policy optimization)-TRPO算法: 核心思想: 是在每次迭代中&…

整合百款经典街机游戏的模拟器介绍

对于80、90后而言,街机游戏承载着童年的欢乐记忆。今天要给大家介绍一款超棒的软件——「MXui街机厅经典游戏101款」,它能带你重回那段热血沸腾的街机时光。 「MXui街机厅经典游戏101款」是一款绿色免安装的街机模拟器,体积约1.39G。无需繁琐…

springboot第三站(1) web开发引入

目录 1.简介 2.SpringBoot对静态资源的映射规则 3.模版引擎 1.简介 使用SpringBoot; 1)、创建SpringBoot应用,选中我们需要的模块; 2)、SpringBoot已经默认将这些场景配置好了,只需要在配置文件中指定…

12-二叉树-二叉树高度(给定前序和中序确定二叉树)

题目 来源 23. 二叉树的高度 思路 其实跟09那篇很像,反正核心就是要通过前序和中序来建树,只不过现在多了一个返回值;因为建树的时候,其实左子树和右子树的深度就可以知道。其余详见代码。 代码 /* 前序遍历根左右,中序&…

PSI5接口

文章目录 前言PSI5接口简介操作模式命名规则异步操作模式(PSI5-A)同步操作模式(PSI5-P) 传感器->ECU物理层(位编码)数据链路层数据帧帧格式串行消息帧10bits 传感器帧定义超10bits传感器帧定义 ECU->…

垃圾处理全流程监管平台

在当前城市化进程中,垃圾处理已成为城市管理的重要课题。随着技术的发展,垃圾处理全流程监管平台的建设显得尤为重要。该平台能够实现垃圾从产生、收集、运输到最终处理的全流程监管,提高垃圾处理效率,促进资源回收利用&#xff0…

【Linux编程】IPC之消息队列从踩坑到实战:核心原理、实战案例与C++封装详解(含完整代码)

一、消息队列基础概念 消息队列是Linux系统提供的一种进程间通信(IPC)机制,具有以下特点: 消息以链表形式存放在内核中每个消息包含类型标识(mtype)支持多生产者/多消费者模式消息总长度受限于系统配置&a…

Unity 项目工程结构目录

1. Unity.VisualScripting.Core 作用: Visual Scripting 的核心模块,提供了可视化编程的基础功能(前身为 Bolt)。它允许开发者通过节点图创建游戏逻辑,而无需编写代码。 典型用途: 非程序员快速构建原型,或简化…

从pdf提取文本数据的c/cpp库(非OCR)

Aspose.PDF for C 商业付费版,无源码。 功能强大,支持多种PDF操作。 对应的官方示例代码:Aspose.PDF-for-C Spire.PDF for C 商业付费版 对应的官方示例代码:Spire.PDF-for-C- PDFTron SDK 商业付费版 PoDoFo 开源 当前版本…

【Linux操作系统——学习笔记二】Linux简单导航命令操作

一、前言 学习Linux,本质上是学习在命令行下熟练使用Linux的各类命令。 命令行:是一种通过输入命令和参数与计算机系统进行交互的方式,可以使用各种字符化命令对系统发出操作指令,打开Linux终端,进入命令行界面。 …

赛逸展2025创新模式,以科技创新奖赋能展位战略价值

CES Asia2025第七届亚洲消费电子技术贸易展(赛逸展)主办方负责人提出的创新理念,为展会的战略价值注入了新活力:“我们不是在卖展位,而是在分发政策红利入场券——企业每平方米的展位投入,都可能通过科技创…

深度革命:ResNet 如何用 “残差连接“ 颠覆深度学习

一文快速了解 ResNet创新点 在深度学习的历史长河中,2015年或许是最具突破性的一年。这一年,微软亚洲研究院的何恺明团队带着名为ResNet(残差网络)的模型横空出世,在ImageNet图像分类竞赛中以3.57%的错误率夺冠&#…

将Django连接到mysql

将Django连接到mysql 文章目录 将Django连接到mysql一.按照我的文章 在Django模型中的Mysql安装 此篇 的步骤完成mysql的基础配置二.Django配置 一.按照我的文章 ‘在Django模型中的Mysql安装’ 此篇 的步骤完成mysql的基础配置 基础配置具体内容 1.打开PowerShell 安装mysql的…