【RL Base】强化学习核心算法:深度Q网络(DQN)算法

        📢本篇文章是博主强化学习(RL)领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在👉强化学习专栏:

       【强化学习】(50)---《强化学习核心算法:深度Q网络(DQN)算法》

强化学习核心算法:深度Q网络(DQN)算法

目录

1.深度Q网络(Deep Q-Network, DQN)算法详解

2.DQN基本原理

1. Q值函数

2. Bellman方程

3. 深度Q网络

3.DQN算法关键步骤

[Python] DQN算法实现

DQN算法在gym环境中实现

1.库导入

 2.定义Q网络

 3.定义智能体

 4.训练代码

 5.主函数 

[Notice]  说明

4.重要改进

5.DQN的强化学习背景应用


1.深度Q网络(Deep Q-Network, DQN)算法详解

        深度Q网络(DQN)是深度强化学习的核心算法之一,由Google DeepMind在2015年的论文《Playing Atari with Deep Reinforcement Learning》中提出。DQN通过结合深度学习和强化学习,利用神经网络近似Q值函数,在高维、连续状态空间的环境中表现出了强大的能力。


2.DQN基本原理

        DQN的目标是通过学习动作-价值函数Q(s, a),来找到最优策略,使得智能体在每个状态 s 下执行动作a能获得的未来累积奖励最大化。

1. Q值函数

Q值函数表示在状态( s )下执行动作 ( a )后能够获得的期望回报:

Q(s, a) = \mathbb{E}\left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s, a_0 = a \right]

  • ( r_t ): 第 ( t ) 步的奖励。
  • ( \gamma ): 折扣因子,控制未来奖励的权重。
2. Bellman方程

Q值函数满足Bellman最优方程:

Q^(s, a) = r + \gamma \max_{a'} Q^(s', a')

  • ( s' ): 当前状态 ( s )执行动作( a ) 后转移到的下一个状态。
  • ( a' ): 下一步的可能动作。
3. 深度Q网络

        DQN使用神经网络来近似Q值函数( Q(s, a; \theta) ),其中( \theta )是网络参数。网络输入是状态 ( s ),输出是对应每个动作的Q值。


3.DQN算法关键步骤

3.1经验回放(Experience Replay)

        通过存储智能体的交互经验 ( (s, a, r, s') ) 在缓冲区中,并从中随机采样训练神经网络,打破时间相关性,提高数据样本效率。

3.2目标网络(Target Network)

        使用一个目标网络( Q(s, a; \theta^-))来计算目标值,而不是直接使用当前网络。这减少了训练不稳定性。

        每隔一定步数,将当前网络的参数( \theta )同步到目标网络( \theta^- )

3.3损失函数

        使用均方误差(MSE)作为损失函数:

L(\theta) = \mathbb{E}_{(s, a, r, s') \sim D}\left[\left(y - Q(s, a; \theta)\right)^2\right]

        其中目标值 ( y )为:y = r + \gamma \max_{a'} Q(s', a'; \theta^-)

3.4探索与利用(Exploration vs Exploitation)

        使用\epsilon-贪心策略,在动作选择上加入随机性


[Python] DQN算法实现

DQN算法伪代码

"""《DQN算法伪代码》时间:2024.11作者:不去幼儿园
"""
# 随机初始化 Q 网络的参数 θ
# θ 表示 Q 网络的权重,用于近似 Q 值函数
初始化 Q 网络参数 θ 随机# 将目标 Q 网络的参数 θ^- 初始化为 Q 网络参数 θ 的值
# θ^- 是一个独立的目标网络,用于稳定 Q 值更新
初始化目标 Q 网络参数 θ^- = θ# 初始化经验回放缓冲区 D
# D 是一个数据结构(例如 deque),存储智能体的交互经验 (状态, 动作, 奖励, 下一个状态)
初始化经验回放缓冲区 D# 循环进行 M 个训练轮次(即 M 个 episode)
for episode = 1, M do# 初始化环境并获得初始状态 s# 这个状态将作为本轮 episode 的起点初始化状态 s# 循环处理每个时间步,T 是每轮 episode 的最大时间步数for t = 1, T do# 根据 ε-贪心策略选择动作# 以 ε 的概率随机选择动作(探索)# 否则,选择当前状态下 Q 值最大的动作(利用)以概率 ε 选择随机动作 a否则选择 a = argmax_a Q(s, a; θ)# 在环境中执行动作 a# 观察奖励 r 和下一个状态 s'执行动作 a,观察奖励 r 和下一个状态 s'# 将当前经验 (s, a, r, s') 存储到经验回放缓冲区 D 中# 经验回放缓冲区用于保存过去的交互记录将转换 (s, a, r, s') 存储到 D# 从经验回放缓冲区中随机抽取一个批次(minibatch)用于训练# 随机抽样打破时间相关性,提高样本效率从 D 中随机抽取一批 (s, a, r, s')# 使用目标 Q 网络 θ^- 计算目标 Q 值# 根据 Bellman 方程更新:当前奖励加上下一个状态的最大折扣 Q 值计算目标值:y = r + γ * max_{a'} Q(s', a'; θ^-)# 使用目标值 y 和当前 Q 网络 θ 的预测值更新 Q 网络# 损失函数计算预测 Q 值与目标 Q 值之间的差距更新 Q 网络,最小化损失:L(θ) = (y - Q(s, a; θ))^2# 每隔 N 步将当前 Q 网络的参数 θ 更新到目标 Q 网络 θ^-# 目标网络更新可以稳定训练过程每 N 步,更新 θ^- = θ# 将下一个状态 s' 设置为当前状态 ss = s'# 如果当前状态是终止状态,则结束本轮 episodeif s 是终止状态 then breakend for
end for

DQN算法在gym环境中实现

1.库导入

import gym
import numpy as np
import random
import torch
import torch.nn as nn
import torch.optim as optim
from collections import deque

 2.定义Q网络

# Define the Q-Network
class QNetwork(nn.Module):def __init__(self, state_size, action_size):super(QNetwork, self).__init__()self.fc = nn.Sequential(nn.Linear(state_size, 64),nn.ReLU(),nn.Linear(64, 64),nn.ReLU(),nn.Linear(64, action_size))def forward(self, x):return self.fc(x)

 3.定义智能体

# DQN Agent Implementation
class DQNAgent:def __init__(self, state_size, action_size, gamma=0.99, epsilon=1.0, epsilon_min=0.1, epsilon_decay=0.995, lr=0.001):self.state_size = state_sizeself.action_size = action_sizeself.gamma = gammaself.epsilon = epsilonself.epsilon_min = epsilon_minself.epsilon_decay = epsilon_decayself.lr = lrself.q_network = QNetwork(state_size, action_size)self.target_network = QNetwork(state_size, action_size)self.optimizer = optim.Adam(self.q_network.parameters(), lr=self.lr)self.criterion = nn.MSELoss()self.replay_buffer = deque(maxlen=10000)def act(self, state):if random.random() < self.epsilon:return random.choice(range(self.action_size))state_tensor = torch.FloatTensor(state).unsqueeze(0)with torch.no_grad():q_values = self.q_network(state_tensor)return torch.argmax(q_values).item()def remember(self, state, action, reward, next_state, done):self.replay_buffer.append((state, action, reward, next_state, done))def replay(self, batch_size):if len(self.replay_buffer) < batch_size:returnbatch = random.sample(self.replay_buffer, batch_size)states, actions, rewards, next_states, dones = zip(*batch)states = torch.FloatTensor(states)actions = torch.LongTensor(actions).unsqueeze(1)rewards = torch.FloatTensor(rewards)next_states = torch.FloatTensor(next_states)dones = torch.FloatTensor(dones)# Compute target Q valueswith torch.no_grad():next_q_values = self.target_network(next_states).max(1)[0]target_q_values = rewards + self.gamma * next_q_values * (1 - dones)# Compute current Q valuesq_values = self.q_network(states).gather(1, actions).squeeze()# Update Q-networkloss = self.criterion(q_values, target_q_values)self.optimizer.zero_grad()loss.backward()self.optimizer.step()def update_target_network(self):self.target_network.load_state_dict(self.q_network.state_dict())def decay_epsilon(self):self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay)

 4.训练代码

# Train DQN in a Gym Environment
def train_dqn(env_name, episodes=500, batch_size=64, target_update=10):env = gym.make(env_name)state_size = env.observation_space.shape[0]action_size = env.action_space.nagent = DQNAgent(state_size, action_size)rewards_history = []for episode in range(episodes):state = env.reset()total_reward = 0done = Falsewhile not done:action = agent.act(state)next_state, reward, done, _ = env.step(action)agent.remember(state, action, reward, next_state, done)state = next_statetotal_reward += rewardagent.replay(batch_size)rewards_history.append(total_reward)agent.decay_epsilon()if episode % target_update == 0:agent.update_target_network()print(f"Episode {episode + 1}/{episodes}, Total Reward: {total_reward}, Epsilon: {agent.epsilon:.2f}")env.close()return rewards_history

 5.主函数 

# Example usage
if __name__ == "__main__":rewards = train_dqn("CartPole-v1", episodes=500)# Plot training resultsimport matplotlib.pyplot as pltplt.plot(rewards)plt.xlabel("Episode")plt.ylabel("Total Reward")plt.title("DQN Training on CartPole-v1")plt.show()

[Notice]  说明

  1. 核心组件:

    • QNetwork: 定义了一个简单的全连接神经网络,近似 ( Q(s, a) )。
    • DQNAgent: 实现了行为选择、经验存储、经验回放、目标网络更新等功能。
  2. 主要过程:

    • 每次选择动作时遵循 ( \epsilon )-贪心策略,结合探索与利用。
    • 使用经验回放提升训练效率,通过随机采样打破时间相关性。
    • 定期更新目标网络,稳定训练过程。
  3. 环境:

    • 使用 Gym 提供的 CartPole-v1 环境作为测试场景。
  4. 结果:

    1. 训练曲线显示随着训练的进行,智能体逐渐学习到了稳定的策略,总奖励逐步增加。

        由于博文主要为了介绍相关算法的原理和应用的方法,缺乏对于实际效果的关注,算法可能在上述环境中的效果不佳或者无法运行,一是算法不适配上述环境,二是算法未调参和优化,三是没有呈现完整的代码,四是等等。上述代码用于了解和学习算法足够了,但若是想直接将上面代码应用于实际项目中,还需要进行修改。


4.重要改进

Double DQN

        解决DQN在估计目标值 \max_{a'} Q(s', a'; \theta^-)时可能存在的过高偏差:

y = r + \gamma Q(s', \arg\max_{a'} Q(s', a'; \theta); \theta^-)

Dueling DQN

        引入状态价值函数 ( V(s) )和优势函数( A(s, a) ),分解Q值:

[ Q(s, a) = V(s) + A(s, a) ]

Prioritized Experience Replay

        通过为经验回放分配优先级,提高样本效率。


5.DQN的强化学习背景应用

  • 游戏AI: Atari游戏、围棋、象棋等智能体。
  • 机器人控制: 在动态环境中学习复杂行为。
  • 资源调度: 云计算任务调度、边缘计算优化。
  • 交通管理: 自主驾驶、智能交通信号优化。

参考文献:Playing Atari with Deep Reinforcement Learning

 更多自监督强化学习文章,请前往:【强化学习(RL)】专栏


        博客都是给自己看的笔记,如有误导深表抱歉。文章若有不当和不正确之处,还望理解与指出。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请联系博主删除。如有错误、疑问和侵权,欢迎评论留言联系作者,或者添加VX:Rainbook_2,联系作者。✨

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/480195.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot【三】

自动注入 xml中可以在bean元素中通过autowire属性来设置自动注入的方式&#xff1a; <bean id"" class"" autowire"byType|byName|constructor|default" /> byName&#xff1a;按照名称进行注入 byType&#xff1a;按类型进行注入 constr…

软件报错:找不到vcomp140.dll的原因分析,总结六种解决vcomp140.dll的方法

vcomp140.dll是一个与MicrosoftVisualCRedistributableforVisualStudio2015相关的动态链接库文件&#xff0c;主要用于支持并行编程。这个DLL文件是VisualC库的一部分&#xff0c;用来处理并行计算&#xff0c;特别是那些利用OpenMP(OpenMulti-Processing)技术编写的程序。分析…

android 项目多电脑共用github及github项目迁移

背景&#xff1a;最新需要将公司的项目在本地电脑进行使用&#xff0c;将项目迁移到本地电脑。 操作步骤&#xff1a; ssh 公钥绑定github上 : https://blog.csdn.net/mo_sss/article/details/137910910 用github进行克隆时无法下载&#xff08;已将本地创建的公钥上传gith…

常用元器件使用方法18:单节锂电池充电管理芯片XT4052的使用方法

文章目录 一、产品概述二、产品特点三、典型应用电路图四、引脚分配五、应用电路六、PCB应用建议一、产品概述 XT4052 是一个完善的单片锂离子电池恒流/恒压线形电源管理芯片。它薄的尺寸和小的外包装使它便于便携应用。更值得一提的是,XT4052专门设计适用于USB的供电规格。得…

java八股-分布式服务的接口幂等性如何设计?

文章目录 接口幂等token Redis分布式锁 原文视频链接&#xff1a;讲解的流程特别清晰&#xff0c;易懂&#xff0c;收获巨大 【新版Java面试专题视频教程&#xff0c;java八股文面试全套真题深度详解&#xff08;含大厂高频面试真题&#xff09;】 https://www.bilibili.com/…

python的字体如何调整

首先打开pycharm&#xff0c;新建一个Python文件&#xff0c;点击“File”&#xff0c;在下拉菜单栏中选择“New”。 然后点击“File”&#xff0c;输入我们的Python文件名称&#xff0c;后缀一定要填写“.py”&#xff0c;要不会出错&#xff0c;单击“OK”。 在新文件中输入代…

【Linux系列】Chrony时间同步服务器搭建完整指南

1. 简介 Chrony是一个用于Linux系统的高效、精准的时间同步工具&#xff0c;通常用于替代传统的NTP&#xff08;Network Time Protocol&#xff09;服务。Chrony不仅在系统启动时提供快速的时间同步&#xff0c;还能在时钟漂移较大的情况下进行及时调整&#xff0c;因此广泛应…

Ubuntu问题 -- 使用scp将本机文件传输至ubuntu服务器中

目的 临时没有文件传输工具使用一条命令快速传输指定文件或文件夹 使用scp命令 传输指定文件 scp -P 22 D:\Storage\myCache\UE\Linux_ue_demo.zip txl10.1.112.93:/home/txl-P是远程机器的ssh端口号, SCP&#xff08;安全复制协议&#xff09;使用和SSH&#xff08;安全外壳…

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:电影院后台管理系统(前后端源码 + 数据库 sql 脚本)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 项目介绍 2.0 用户登录功能 3.0 用户管理功能 4.0 影院管理功能 5.0 电影管理功能 6.0 影厅管理功能 7.0 电影排片管理功能 8.0 用户评论管理功能 9.0 用户购票功…

PHP 函数的未来发展有哪些变化呢

PHP 8.0 引入了一些新特性&#xff0c;比如 JIT 编译器、联合类型、nullsafe 运算符等。 JIT 编译器 (Just-In-Time Compiler)&#xff1a;PHP 8.0 引入了实验性的 JIT 编译器&#xff0c;可以显著提高代码执行速度。联合类型&#xff08;Union Types&#xff09;&#xff1a;…

Java文件遍历那些事

文章目录 一、简要概述二、文件遍历几种实现1. java实现2. Apache common-io3. Spring 三、最终结论 一、简要概述 文件遍历基本上是每个编程语言具备的基本功能&#xff0c;Java语言也不例外。下面我们以java原生实现&#xff0c;Apache common-io、spring框架实现为例来比较…

【网络安全设备系列】12、态势感知

0x00 定义&#xff1a; 态势感知&#xff08;Situation Awareness&#xff0c;SA&#xff09;能够检测出超过20大类的云上安全风险&#xff0c;包括DDoS攻击、暴力破解、Web攻击、后门木马、僵尸主机、异常行为、漏洞攻击、命令与控制等。利用大数据分析技术&#xff0c;态势感…

MySQL 启动失败问题分析与解决方案:`mysqld.service failed to run ‘start-pre‘ task`

目录 前言1. 问题背景2. 错误分析2.1 错误信息详解2.2 可能原因 3. 问题排查与解决方案3.1 检查 MySQL 错误日志3.2 验证 MySQL 配置文件3.3 检查文件和目录权限3.4 手动启动 MySQL 服务3.5 修复 systemd 配置文件3.6 验证依赖环境 4. 进一步优化与自动化处理结语 前言 在日常…

企业如何落地搭建商业智能BI系统

随着新一代信息化、数字化技术的应用&#xff0c;引发了新一轮的科技革命&#xff0c;现代化社会和数字化的联系越来越紧密&#xff0c;数据也变成继土地、劳动力、资本、技术之后的第五大生产要素&#xff0c;这一切都表明世界已经找准未来方向&#xff0c;前沿科技也与落地并…

docker搭建nginx

一. 直接启动nginx镜像 1. 下载nginx镜像 docker pull nginx 2. 运行镜像 docker run -p 8080:80 --name web -d nginx 3. 网址查看 xx.xx.xx.xx:8080 二. 挂在文件启动nginx镜像 1. 拷贝docker文件到本地 docker cp web:/etc/nginx/nginx.conf /root/data/config/nginx…

Java开发工程师最新面试题库系列——Java基础部分(附答案)

如果你有更好的想法请在评论区留下您的答案&#xff0c;一起交流讨论# 面向对象有哪些特征&#xff1f; 答&#xff1a;继承、封装、多态 JDK与JRE的区别是什么&#xff1f; 答&#xff1a;JDK是java开发时所需环境&#xff0c;它包含了Java开发时需要用到的API&#xff0c;JRE…

DICOM医学影像应用篇——窗宽窗位概念、原理及实现详解

目录 窗宽窗位调整&#xff08;Windowing&#xff09;在DICOM医学影像中的应用 窗宽窗位的基本概念 窗宽&#xff08;Window Width, WW&#xff09; 窗位&#xff08;Window Level, WL&#xff09; 窗宽窗位调整的基本原理 映射逻辑 数学公式 窗宽窗位调整的C实现 代码…

尚硅谷学习笔记——Java设计模式(一)设计模式七大原则

一、介绍 在软件工程中&#xff0c;设计模式&#xff08;design pattern&#xff09;是对软件设计中普遍存在&#xff08;反复出现&#xff09;的各种问题&#xff0c;提出的解决方案。我们希望我们的软件能够实现复用性、高稳定性、扩展性、维护性、代码重用性&#xff0c;所以…

网络原理->DNS协议和NAT协议解

前言 大家好我是小帅&#xff0c;今天我们来了解应用层的DNS协议和NAT技术 个人主页&#xff1a;再无B&#xff5e;U&#xff5e;G 文章目录 1.重要应⽤层协议DNS(Domain Name System)1.1 DNS背景 2. NAT技术3. 总结 1.重要应⽤层协议DNS(Domain Name System) DNS是⼀整套从域…

虚拟机ubuntu-20.04.6-live-server搭建OpenStack:Victoria(一:工具、环境准备-controller node)

文章目录 一、软件准备A. 下载ubuntu-live-server&#xff1a;B. 下载并安装Xshell&#xff1a; 二、安装Ubuntu&#xff08;控制节点主机&#xff09;A. 开启服务B. 先预安装C. 虚拟机设置D. 安装系统 三、连接XshellA. 配置网络接口B. 连接 Xshell 一、软件准备 温馨提示&…