强化学习的动态规划二

一、典型示例

        考虑如下所示的4×4网格。

图1

        非终端状态为S = {1, 2, . . . , 14}。在每个状态下有四种可能的行为,A = {up, down, right, left},这些行为除了会将代理从网格上移走外,其他都会确定性地引起相应的状态转换。因此,例如,p(6|5, right) = 1,p(10|5, right) = 0,p(7|7, right) = 1。这是一个无折扣的、分段的(episodic)任务。在到达终端状态之前的所有转换中,奖励为s1。终端状态在图中被着色(尽管它显示在两个地方,但它在形式上是一个状态)。预期奖励函数r(s, a, s0) = =1 对于所有状态s、s0和行为a。假设代理遵循等概率随机策略(所有行为的可能性相等)。图2的左侧显示了通过迭代政策评估计算出的值函数{vk}的序列。最终估计值实际上是vπ,在这种情况下,对于每个状态,它给出了从该状态终止的预期步数的否定。

图2

        小型网格世界中迭代策略评估的收敛。左侧一列是随机策略(所有动作均等)的状态值函数近似序列。右侧一列是与值函数估计相对应的贪婪策略序列(箭头的表示是所有实现最大值的动作)。最后一项策略只保证比随机策略有所改进,但在这种情况下,它和第三次迭代后的所有策略都是最优的。

二、策略改进

        我们计算一个策略的价值函数的理由是为了找出更好的策略。假设我们已经确定了一个任意确定性策略π的价值函数vπ。对于一些状态s,我们想知道是否应该改变策略以确定性地选择一个动作a = π(s)。我们知道从s开始遵循当前政策有多好,即vπ(s),但是改变到新政策会更好还是更差呢?回答这个问题的其中一种方式是考虑在s中选择a并随后遵循现有政策π。这种行为的值是

        关键标准在于这个值是否大于或小于vπ(s)。如果它更大,也就是说,如果在s中选择一次a然后遵循π比一直遵循π更好,那么人们就会期望每次遇到s时选择a会更好,并且新政策实际上会更好。 这是一个一般结果的特殊情况,该一般结果称为策略改进定理。让π和π0是任何一对确定性策略,对于所有的s∈S,

那么策略π0必须和π一样好或者更好。也就是说,它必须从所有状态s∈S获得更大或相等的期望回报:

此外,如果在任何状态下上式存在严格不等式,则至少在某个状态下存在严格不等式。这一结果特别适用于我们在前一段中考虑的两个策略,一个是原始的确定性策略π,另一个是除了π0(s) = a = π(s)之外与π相同的改变策略π0。显然,在除s以外的所有状态下都成立。因此,如果qπ(s, a) > vπ(s),则改变策略确实优于π。

        证明策略改进定理的想法很容易理解。我们不断扩展qπ的一侧,并重新应用(4.7),直到得到vπ0(s)

        到目前为止,我们已经看到,给定一个策略及其价值函数,我们可以很容易地评估在单个状态下对特定行动的政策变化。考虑在所有状态和所有可能的行为上的变化是很自然的延伸,在每个状态下选择根据qπ(s, a)看起来最好的行动。换句话说,考虑新的贪婪策略π0,由下式给出。

        其中argmaxa表示后续表达式最大化的a值(任意打破平局)。贪婪策略采取的是短期内看起来最好的行动-在一步预测之后-根据vπ。通过构造,贪婪策略符合策略改进的条件,因此我们知道它与原始策略一样好,或者更好。通过使新政策对原始策略变得贪婪,从而改善原始策略的过程,称为策略改进。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/181068.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MYSQL 8.0 配置CDC(binlog)

CDC(Change Data Capture)即数据变更抓取,通过源端数据源开启CDC,ROMA Connect 可实现数据源的实时数据同步以及物理表的物理删除同步。这里介绍通过开启Binlog模式CDC功能。 注意:1、使用MYSQL8.0及以上版本。 2、不…

ok-解决qt5发布版本,直接运行exe缺少各种库的问题

已实验第二种方法可用。 工具:电脑必备、QT下的windeployqt Qt 官方开发环境使用的动态链接库方式,在发布生成的exe程序时,需要复制一大堆 dll,如果自己去复制dll,很可能丢三落四,导致exe在别的电脑里无法…

抵押贷款巨头 Mr. Cooper 遭受网络攻击,影响 IT 系统

导语 近日,美国抵押贷款巨头 Mr. Cooper 遭受了一次网络攻击,导致该公司的 IT 系统受到影响。这一事件引起了广泛的关注,使得 Mr. Cooper 的在线支付平台无法正常运行。本文将为大家详细介绍这次网络攻击事件的具体情况及其对用户和公司造成的…

题解:轮转数组及复杂度分析

文章目录 🍉前言🍉题目🍌解法一🍌解法二:以空间换时间🥝补充:memmove 🍌解法三(选看) 🍉前言 本文侧重对于复杂度的分析,题解为辅。 …

在CARLA中获取CARLA自动生成的全局路径规划

CARLA生成全局路径规划的代码在 carla/PythonAPI/carla/agents/navigation 在自己的carla客户端py文件中 from agents.navigation.basic_agent import BasicAgent # pylint: disableimport-error 如果是pycharm开发,要在pycharm的Settings - Project Structure…

0003Java安卓程序设计-springboot基于Android的学习生活交流APP

文章目录 **摘** **要**目 录系统设计开发环境 编程技术交流、源码分享、模板分享、网课教程 🐧裙:776871563 摘 要 网络的广泛应用给生活带来了十分的便利。所以把学习生活交流管理与现在网络相结合,利用java技术建设学习生活交流APP&…

1825_ChibiOS的OSLIB中的存储分配器

全部学习汇总: GreyZhang/g_ChibiOS: I found a new RTOS called ChibiOS and it seems interesting! (github.com) 1. 之前有点不是很理解什么是静态OS,从这里基本上得到了这个答案。所谓的静态,其实就是内核之中不会使用Free以及Malloc这样…

AoMao Editor (angular) 使用 window.print() 实现 html 导出 PDF 记录

目录 一、需求描述 二、使用 jspdf html2canvas 导出遇到的问题 三、window.print() 导出具体实现 【api: toHtml】 一、需求描述 将 AoMao Editor 富文本插件中的内容导出为PDF。 二、使用 jspdf html2canvas 导出遇到的问题 试了很多插件,但 angular 能用的…

Eclipse使用教程

一、前期准备 JDK环境变量得配置好(java需要先安装好) 【下载Eclipse解压包,可选择去Eclipse官网下载】 Eclipse的安装方式: 下载后解压直接点击进入选择工作区间就可运行 二、Eclipse基本概述: 工作区(w…

JS-函数

定义方式一 定义方式二 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>JS-函数</title> <…

轻量封装WebGPU渲染系统示例<12>- 基础3D对象实体(源码)

当前示例源码github地址: https://github.com/vilyLei/voxwebgpu/blob/main/src/voxgpu/sample/PrimitiveEntityTest.ts 此示例渲染系统实现的特性: 1. 用户态与系统态隔离。 细节请见&#xff1a;引擎系统设计思路 - 用户态与系统态隔离-CSDN博客 2. 高频调用与低频调用隔…

【数据结构】希尔排序

文章目录 前言一、希尔排序的演示图例二、希尔排序&#xff1a;插入排序的优化版本☆三、核心算法思路四、算法思路步骤&#xff08;一&#xff09;预排序 gap>1&#xff08;二&#xff09;gap1 插入排序 完成排序收尾 五、码源详解&#xff08;1&#xff09;ShellSort1 ——…

在前端实现小铃铛上展示消息

点击铃铛显示如下消息框&#xff1a; 如果点击消息&#xff0c;可以实现消息从列表中移除,并从铃铛总数上进行扣减对应的已读消息数。 关于以上功能的实现方式&#xff1a; <!-- 铃铛位置 --><i class"el-icon-bell" click"showPopover true"&…

Json工具类

工具类 package com.wego.controller;import cn.dev33.satoken.annotation.SaIgnore; import cn.dev33.satoken.stp.StpUtil; import com.baomidou.mybatisplus.core.conditions.query.QueryWrapper; import com.baomidou.mybatisplus.core.toolkit.Wrappers; import com.goog…

UE4 Niagara Module Script 初次使用笔记

这里可以创建一个Niagara模块脚本 创建出来长这样 点击号&#xff0c;输出staticmesh&#xff0c;点击它 这样就可以拿到对应的一些模型信息 这里的RandomnTriCoord是模型的坐标信息 根据坐标信息拿到位置信息 最后的Position也是通过Map Set的号&#xff0c;选择Particles的P…

LeetCode题:83删除排序链表中的重复元素 141环形链表

83删除排序链表中的重复元素 题目内容 给定一个已排序的链表的头 head &#xff0c; 删除所有重复的元素&#xff0c;使每个元素只出现一次 。返回 已排序的链表 。 示例 1&#xff1a; 输入&#xff1a;head [1,1,2] 输出&#xff1a;[1,2]示例 2&#xff1a; 输入&#xf…

STL-set和map

目录 一、pair和make_pair 1. pair 2. make_pair 二、set &#xff08;一&#xff09;set的模板参数列表 &#xff08;二&#xff09;set的构造 &#xff08;三&#xff09;set的插入 1. 测试1 2. 测试2 &#xff08;四&#xff09;low_bound和upper_bound&#xff…

【行云流水线实践】基于“OneBuild”方法对镜像进行快速装箱 | 京东云技术团队

在云原生领域&#xff0c;无论使用哪种编排调度平台&#xff0c;Kubernetes&#xff0c;DockerSwarm&#xff0c;OpenShift等&#xff0c;业务都需要基于镜像进行交付&#xff0c;我们在内部实践“Source-to-image”和链式构建&#xff0c;总而总结出“OneBuild”模式。 其核心…

python 之softmx 函数

文章目录 总的介绍小应用 总的介绍 Softmax函数是一个常用的激活函数&#xff0c;通常用于多类别分类问题中。它将一个实数向量转换为概率分布。这个函数的输出是一个概率分布&#xff0c;表示输入样本属于每个可能类别的概率。 给定一个具有 (K) 个不同数值的实数向量 z (z1…

内网渗透-域防火墙+入站出站规则+组策略对象同步+不出网隧道上线

一.单机-防火墙-限制端口出入站-熟悉常见主机配置不出网的方式 配置防火墙属性 1.win10虚拟机本地搭建一个网站&#xff0c;配置防火墙属性的入站连接为默认值。 局域网中另一台主机能正常访问 2.入站连接设置为 阻止所有连接 。 因为是我们去访问他的网站&#xff0c;所以是入…