强化学习笔记7——DDPG到TD3

强化学习笔记7——DDPG到TD3

news/2025/3/24 12:53:15/文章来源:https://blog.csdn.net/qq_51013517/article/details/145671083

前提：基于TD 的方法多少都会有高估问题，即Q值偏大。原因两个：一、TD目标是真实动作的高估。二：自举法高估。
在这里插入图片描述

DDPG 属于AC方法：异策略，适合连续动作空间，因为他的策略网络直接输出的动作，是向量就表示执行的动作。
而之前的PPO是输出动作的均值和方差，DQN 等输出每个动作的概率

在这里插入图片描述 ################## ### ###################相当于 TDerror 的两部分用两个网络预测 ###################### ########

TD3参考

TD3 相比DDPG 改进其实就是针对不稳定、高估问题，加了两个策略网络和价值网络。即targetNet 和 mainNet ,和之前DQN的做法很像。

针对 Critic网络预测Q 偏大问题，设置两个Critic 同时估计Q ，然后选择小的那一个Q再做error

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/19392.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

150,[5] BUUCTF WEB [BJDCTF2020]EasySearch

150,[5] BUUCTF WEB [BJDCTF2020]EasySearch

进入靶场有个文件和之前一道题如出一辙 <?php// 开启输出缓冲，将后续所有的输出内容先暂存到缓冲区，而不是直接发送到浏览器ob_start();/*** 生成一个基于随机字符串和唯一标识符的哈希值* return string 返回生成的 sha1 哈希值*/function get_…

阅读更多...

分布式光纤传感：为生活编织“感知密网”

分布式光纤传感：为生活编织“感知密网”

分布式光纤测温技术虽以工业场景为核心，但其衍生的安全效益已逐步渗透至日常生活。分布式光纤测温技术（DTS）作为一种先进的线型温度监测手段，近年来在多个领域展现了其独特的优势。虽然其核心应用场景主要集中在工业、能源和基础…

阅读更多...

腾讯发布混元-3D 2.0: 首个开源高质3D-DiT生成大模型

腾讯发布混元-3D 2.0: 首个开源高质3D-DiT生成大模型

在之前的文章中已经和大家介绍过腾讯HunYuan-3D 1.0，感兴趣的小伙伴可以点击下面链接阅读~ HunYuan-3D 是首个开源高质3D-DiT生成大模型，几何与纹理解藕生成，一键将创意具象化。 2.0模型架构图及介绍 2.0模型将几何和纹理生成解耦&#xff0…

阅读更多...

CentOS搭建PPPOE服务器

CentOS搭建PPPOE服务器

一、安装软件包 yum -y install rp-pppoe 二、配置服务器 1.修改配置文件打开/etc/ppp/pppoe-server-options文件 nano /etc/ppp/pppoe-server-options 编辑为以下内容： # PPP options for the PPPoE server # LIC: GPL require-pap require-chap login …

阅读更多...

数据结构实现顺序表的尾插，尾删，按值查找/修改/删除，按下标查找/增加/删除

数据结构实现顺序表的尾插，尾删，按值查找/修改/删除，按下标查找/增加/删除

头文件：head.h #ifndef __HEAD_H__ #define __HEAD_H__#include <stdio.h> #include <string.h> #include <stdlib.h> #define MAXSIZE 20enum num {success,false-1};typedef int datatype;typedef struct {int len;datatype data[MAXSIZE]; }S…

阅读更多...

IDEA集成DeepSeek

IDEA集成DeepSeek

引言随着数据量的爆炸式增长，传统搜索技术已无法满足用户对精准、高效搜索的需求。 DeepSeek作为新一代智能搜索技术，凭借其强大的语义理解与深度学习能力，正在改变搜索领域的游戏规则。对于 Java 开发者而言，将 DeepSeek 集成…

阅读更多...

2025.2.16

2025.2.16

Web [GDOUCTF 2023]泄露的伪装： 点进去看就是装神弄鬼，那就直接扫描果然有东西第一个是php代码第二个是个文件访问发现是一样的分析一下：使用 file_get_contents($cxk) 函数读取 $cxk 变量中指定的 URL 或文件的内容。如果读取的内…

阅读更多...

WPF的Prism框架的使用

WPF的Prism框架的使用

安装Prism.DryIoc库： Prism的区域和模块化： 一个区域可以显示一个用户控件一个模块就是一个项目，也就是一个类库动态切换用户控件的案例： <Grid><Grid.RowDefinitions><RowDefinition Height"auto"…

阅读更多...

S4D480 S4HANA 基于PDF的表单打印

S4D480 S4HANA 基于PDF的表单打印

2022年元旦的笔记草稿 SAP的表单打印从最早的SAPScripts 到后来的SMARTFORM，步入S4时代后由于Fiori的逐渐普及，更适应Web的Adobe Form成了SAP主流output文件格式。目录一、基于PDF表单打印系统架构Interface 接口Form 表单ContextLayout 二、表单接…

阅读更多...

chrome://version/

chrome://version/

浏览器输入： chrome://version/ Google浏览器版本号以及安装路径 Google Chrome131.0.6778.205 (正式版本) （64 位） (cohort: Stable) 修订版本81b36b9535e3e3b610a52df3da48cd81362ec860-refs/branch-heads/6778_155{#8}操作系统Windows…

阅读更多...

【Kubernetes】k8s 部署指南

【Kubernetes】k8s 部署指南

1. k8s 入门 1.1 k8s 简介需要最需要明确的就是：kubernetes（简称 k8s ） 是一个容器编排平台 ，换句话说就是用来管理容器的，相信学过 Docker 的小伙伴对于容器这个概念并不陌生，打个比方：容器…

阅读更多...

【Python】Python入门——基础语法及顺序语句

Python入门——基础语法及顺序语句官方文档地址：https://docs.python.org/zh-cn/3/tutorial/index.htmlPython 是一门易于学习、功能强大的编程语言。它提供了高效的高级数据结构，还能简单有效地面向对象编程。Python 优雅的语法和动态类型以及解释型语…

阅读更多...

在使用 uni.getLocation 步骤和一些坑

在使用 uni.getLocation 步骤和一些坑

1.使用前需要去微信小程序申请开通wx.getLocation 获取当前位置的api (不申请上线之后会使用不了)，申报资料的话我让ai帮我写的，说一下使用场景弄几张图片就可以了地址 ： 小程序 2.第二个需要配置域名具体申请腾讯地图的方法参考 &…

阅读更多...

Docker高级篇

Docker高级篇

1.Mysql主从复制Docker版本 mysql主从复制原理 binlog 1.新建主服务器容器实例 docker run -d -p 3307:3306 --privilegedtrue \ -v /opt/mysql8.4.3/log:/var/log/mysql \ -v /opt/mysql8.4.3/conf:/etc/mysql/conf.d \ -v /opt/mysql8.4.3/data:/var/lib/mysql \ -e MYSQL…

阅读更多...

Java中对象序列化机制的优化研究

Java中对象序列化机制的优化研究

Java中对象序列化机制的优化研究对象序列化（Serialization）是Java编程中一种非常重要的机制，它允许将对象的状态转换为字节流，从而方便存储或网络传输。然而，Java的默认序列化机制虽然功能强大，但在性能、…

阅读更多...

wordpress资讯类网站整站打包

wordpress资讯类网站整站打包

wordpress程序，内置了价值499元的模板.但是有了模板没有全自动采集相信大多数人都搞不懂，目录那么多，全靠原创几乎是不可能的事情，除非你是大公司，每人控制一个板块， 这套源码里面最有价值的应该是这个采集…

阅读更多...

【深度解析】图解Deepseek-V3模型架构-混合专家模型（MoE）

【深度解析】图解Deepseek-V3模型架构-混合专家模型（MoE）

一、引言最近非常火爆的DeepSeek-V3模型，是一个包含6710亿总参数的强大混合专家模型（MoE），其中每个token激活370亿参数。该模型在DeepSeek-V2验证有效的核心架构基础上，采用多头潜在注意力（MLA&#xff0…

阅读更多...

hive:分区＞＞静态分区,动态分区,混合分区

hive:分区＞＞静态分区,动态分区,混合分区

分区表使用场景：数据量庞大且经常用来做查询的表特点：将数据分别存储到不同的目录里优点：避免全盘扫描，提高查询效率分区的类型它们的默认值分别是: false, strict, 要求至少有一个静态分区列，而 nonstr…

阅读更多...

React进阶之React核心源码解析（一）

React进阶之React核心源码解析（一）

React核心源码解析 react 特点CPU卡顿IO 卡顿新老 react 架构对比v15v16.8Scheduler 调度器Reconciler 协调器 React fiber原理更新dommount 构建过程 render阶段 — scheduler reconcilerreact源码解析react-domreact-dom/src/client/ReactDOMRoot.js react-reconcilerreact-…

阅读更多...

ubuntu20.04连接airpods pro2

ubuntu20.04连接airpods pro2

youtub视频解决方法：Setup your AirPods Pro with Linux (Ubuntu w/Mic fix) 重要步骤1， sudo apt-get update sudo apt-get install pulseaudio sudo apt-get upgrade pluseaudio重要步骤2， sudo vim /etc/bluetooth/main.confsudo /ect/…

阅读更多...

最新文章

推荐文章