李宏毅深度强化学习入门笔记：Actor-Critic

李宏毅深度强化学习入门笔记：Actor-Critic

news/2025/1/7 9:37:00/文章来源:https://blog.csdn.net/weixin_46206572/article/details/144189997

李宏毅-深度强化学习-入门笔记：Actor-Critic

一、深度强化学习简介
二、Policy-based 方法
- （一）学习一个 Actor
- （二）Deep Learning 的 3 个步骤
- - 1. 确定 Function：作为 Actor 的神经网络
  - 2. 确定 Actor 的好坏
  - 3. 选择最好的 Actor
三、Value-based 方法
- （一）学习一个 Critic
- （二）3 种 Critic
- （三）如何评估 $V^{\pi}(s)$
四、 Actor-Critic

网课链接：https://www.bilibili.com/video/BV1XP4y1d7Bk/

一、深度强化学习简介

RL分类：Policy-based、Value-based
在这里插入图片描述

model-based 需要对未来世界有一定理解，知道未来可能会发生什么事

二、Policy-based 方法

（一）学习一个 Actor

Machine Learning 的任务是找一个 Function， RL 也是找一个称为 Actor 的 Function。
在这里插入图片描述

（二）Deep Learning 的 3 个步骤

1. 确定 Function：作为 Actor 的神经网络

NN 的输入：表示机器观测的一个向量或矩阵
NN 的输出：在输出层与动作相关的神经元
在这里插入图片描述

2. 确定 Actor 的好坏

在这里插入图片描述

3. 选择最好的 Actor

（1）梯度下降
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

（2）增加一个 baseline
在这里插入图片描述

三、Value-based 方法

（一）学习一个 Critic

Critic 不确定 Actor
给定一个 Actor，Critic 可以评估 Actor 有多好

（二）3 种 Critic

在这里插入图片描述

（三）如何评估 $V^{\pi}(s)$

在这里插入图片描述

四、 Actor-Critic

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/482647.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于Java Springboot成人教育APP且微信小程序

基于Java Springboot成人教育APP且微信小程序

一、作品包含源码数据库设计文档万字PPT全套环境和工具资源部署教程二、项目技术前端技术：Html、Css、Js、Vue、Element-ui 数据库：MySQL 后端技术：Java、Spring Boot、MyBatis 三、运行环境开发工具：IDEA/eclipse 微信…

阅读更多...

知乎启用AutoMQ替换Kafka，开辟成本优化与运维提效新纪元

知乎启用AutoMQ替换Kafka，开辟成本优化与运维提效新纪元

作者：知乎在线架构组王金龙关于知乎知乎公司，成立于 2010 年 8 月 10 日，于 2011 年 1 月 26 日正式上线，是中文互联网的高质量问答社区和创作者聚集的原创内容平台。知乎起步于问答，而超越了问答。知乎以「生…

阅读更多...

mysql数据库varchar截断问题

mysql数据库varchar截断问题

用了这么多年mysql数据库，才发现varchar是可以截断的，而且是在我们线上数据库。个人觉得dba的这个设置是非常有问题的，用户往数据库里存东西，就是为了以后用的，截断了存放，数据不完整，就用不了了…

阅读更多...

SeggisV1.0 遥感影像分割软件【源代码】讲解

SeggisV1.0 遥感影像分割软件【源代码】讲解

在此基础上进行二次开发，开发自己的软件，例如：【1】无人机及个人私有影像识别【2】离线使用【3】变化监测模型集成【4】个人私有分割模型集成等等，不管是您用来个人学习还是公司研发需求，都相当合适，包您满…

阅读更多...

MySQL底层概述—9.ACID与事务

MySQL底层概述—9.ACID与事务

大纲 1.ACID之原子性 2.ACID之持久性 3.ACID之隔离性 4.ACID之一致性 5.ACID的关系 6.事务控制演进之排队 7.事务控制演进之排它锁 8.事务控制演进之读写锁 9.事务控制演进之MVCC 10.事务隔离级别之隔离级别的类型 11.事务隔离级别之和锁的关系 12.事务隔离级别之隔…

阅读更多...

基于 SpringBoot 的新冠密接者跟踪系统：如何实现高效信息推送功能

基于 SpringBoot 的新冠密接者跟踪系统：如何实现高效信息推送功能

第2章程序开发技术 2.1 Mysql数据库为了更容易理解Mysql数据库，接下来就对其具备的主要特征进行描述。 （1）首选Mysql数据库也是为了节省开发资金，因为网络上对Mysql的源码都已进行了公开展示，开发者根据程序开发需要…

阅读更多...

手撸了一个文件传输工具

手撸了一个文件传输工具

在日常的开发与运维中，文件传输工具是不可或缺的利器。无论是跨服务器传递配置文件，还是快速从一台机器下载日志文件，一个高效、可靠且简单的文件传输工具能够显著提高工作效率。今天，我想分享我自己手撸一个文件传输工具的全过程…

阅读更多...

基于Java Springboot电子书阅读器APP且微信小程序

基于Java Springboot电子书阅读器APP且微信小程序

一、作品包含源码数据库全套环境和工具资源部署教程二、项目技术前端技术：Html、Css、Js、Vue、Element-ui 数据库：MySQL 后端技术：Java、Spring Boot、MyBatis 三、运行环境开发工具：IDEA/eclipse 微信开发者工具数…

阅读更多...

【AI系统】AI 编译器基本架构

【AI系统】AI 编译器基本架构

AI 编译器基本架构在上一篇文章中将 AI 编译器的发展大致分为了 3 个阶段，分别为 1）朴素编译器、2）专用编译器以及 3）通用编译器。本文作为上一篇文章 AI 编译器架构的一个延续，着重讨论 AI 编译器的通用架构。首先…

阅读更多...

华为关键词覆盖应用市场ASO优化覆盖技巧

华为关键词覆盖应用市场ASO优化覆盖技巧

在我国的消费者群体当中，华为的品牌形象较高，且产品质量过硬，因此用户基数也大。与此同时，随着影响力的增大，华为不断向外扩张，也逐渐成为了海外市场的香饽饽。作为开发者和运营者，我们要认识到…

阅读更多...

SuperMap GIS基础产品FAQ集锦(20241202)

SuperMap GIS基础产品FAQ集锦(20241202)

一、SuperMap iDesktopX 问题1：请问一下，iDesktopX11.2.1如何修改启动界面 11.2.0 【解决办法】参考帮助文档的“自定义启动界面”内容：https://help.supermap.com/iDesktopX/zh/SpecialFeatures/Development/DevelopmentTutorial/UserCust…

阅读更多...

Java基础访问修饰符全解析

Java基础访问修饰符全解析

一、Java 访问修饰符概述 Java 中的访问修饰符用于控制类、方法、变量和构造函数的可见性和访问权限，主要有四种：public、protected、default（无修饰符）和 private。 Java 的访问修饰符在编程中起着至关重要的作用，它…

阅读更多...

浪潮X86服务器NF5280、8480、5468、5270使用inter VROC Raid key给NVME磁盘做阵列

浪潮X86服务器NF5280、8480、5468、5270使用inter VROC Raid key给NVME磁盘做阵列

Inter VROC技术简介 Intel Virtual RAID on CPU (Intel VROC) 简单来说就是用CPU的PCIE通道给NVME硬盘做Raid 更多信息可以访问官方支持页面 Raid Key 授权，即VROC SKU 授权主要有用的有2个标准和高级，仅Raid1的授权我暂时没见过。标准 VROCSTANMOD …

阅读更多...

【Pytorch】torch.view与torch.reshape的区别

【Pytorch】torch.view与torch.reshape的区别

文章目录一. 简介：二. Pytorch中Tensor的存储方式2.1 Pytorch中张量存储的底层原理2.2 Pytorch张量步长(stride)属性三. 对视图(view)的理解四. view()与reshape()的比较4.1 对view()的理解4.1.1 （1）如何理解满足条件 stride[i] stride[i1…

阅读更多...

光伏电站设计排布前的准备

光伏电站设计排布前的准备

1、确定安装地点地理位置：了解安装地点的经纬度，这对于确定太阳辐射角度和强度非常重要，海拔越高，阳光辐照就越高，比较适合安装光伏电站，根据地理位置还可以确定光伏板的安装倾角是多少，可以进…

阅读更多...

5、防火墙一

5、防火墙一

防火墙的含义 firewalld：隔离功能病毒防护： 1、入侵检测系统：在互联网访问的过程中，不阻断任何网络访问，也不会定位网络的威胁，提供告警和事后的监督，类似于监控。 2、入侵防御系统&#x…

阅读更多...

代码随想录算法训练营第六十天|Day60 图论

代码随想录算法训练营第六十天|Day60 图论

Bellman_ford 队列优化算法（又名SPFA） https://www.programmercarl.com/kamacoder/0094.%E5%9F%8E%E5%B8%82%E9%97%B4%E8%B4%A7%E7%89%A9%E8%BF%90%E8%BE%93I-SPFA.html 本题我们来系统讲解 Bellman_ford 队列优化算法 ，也叫SPFA算法&#xf…

阅读更多...

详解LZ4文件解压缩问题

详解LZ4文件解压缩问题

详解LZ4文件解压缩问题一、LZ4文件解压缩方法1. 使用LZ4命令行工具2. 使用Python库3. 使用第三方工具4. 在线解压工具二、常见问题及解决方法1. 解压显示文件损坏2. 解压后文件大小异常三、总结 LZ4是一种快速的压缩算法，广泛应用于需要实时压缩和解压缩大文件的…

阅读更多...

【Linux网络编程】第四弹---构建UDP服务器与字典翻译系统：源码结构与关键组件解析

【Linux网络编程】第四弹---构建UDP服务器与字典翻译系统：源码结构与关键组件解析

✨个人主页： 熬夜学编程的小林 💗系列专栏： 【C语言详解】【数据结构详解】【C详解】【Linux系统编程】【Linux网络编程】目录 1、UdpServer.hpp 1.1、函数对象声明 1.2、Server类基本结构 1.3、构造函数 1.4、Start() 2、Dict.hpp…

阅读更多...

DBA面试题-1

DBA面试题-1

面临失业，整理一下面试题，找下家继续搬砖主要参考：https://www.csdn.net/?spm1001.2101.3001.4476 略有修改一、mysql有哪些数据类型 1， 整形 tinyint,smallint,medumint,int,bigint；分别占用1字节、2字节、3字节…

阅读更多...

最新文章

推荐文章