Day4:强化学习之Qlearning走迷宫

一、迷宫游戏

1.环境已知

迷宫环境是定义好的,障碍物位置和空位置是已知的;

# 定义迷宫
grid = [[0, 0, 0, 1, 0],[0, 1, 0, 1, 0],[0, 1, 0, 0, 0],[0, 0, 0, 1, 0],[0, 1, 1, 1, 0]
]

2.奖励方式已知

如果碰到障碍物则得-1,如果到终点则得10分,正常走一步-0.1分。

 # 检查是否越界或碰到障碍if 0 <= row < self.rows and 0 <= col < self.cols and self.grid[row][col] == 0:# 满足在边界内部,且网格为空(对应数值为0)self.state = (row, col) #可以走到这个位置else:return self.state, -1, False  # 碰到障碍或越界,返回惩罚-1,标记未完成# 检查是否到达终点if self.state == self.goal:return self.state, 10, True  # 到达终点,返回奖励10,标记完成else:return self.state, -0.1, False  # 正常移动,返回小惩罚-0.1,标记未完成

3.动作选择策略

ε-greedy策略选择动作。

 def choose_action(self, state):# 根据ε-greedy策略选择动作,以epsilon的概率选择探索,以1-epsilon的概率选择利用# 一般随着时间的推移,epsilon逐渐减小,即减小探索,增大利用概率# 如果随机抽样小于epsilon,则选择探索,即随机抽取动作if random.uniform(0, 1) < self.epsilon: return random.choice([0, 1, 2, 3])  # 探索# 如果随机抽样大于等于epsilon,则选择利用,即利用现有规则进行动作选择else:return np.argmax(self.q_table[state])  # 利用,state是当前状态,为二维坐标

4.Q值更新方法

# Q值更新参数方法 q(st,at)=q(st,at)+alpha*(reward+gamma*max(q)-q(st,at))self.q_table[state][action] += self.alpha * (reward + self.gamma * best_next_q - self.q_table[state][action])state = next_state # 状态更新 

5.Qlearning计算流程图

二、代码实现

import numpy as np
import random# 定义迷宫环境
class Maze:def __init__(self, grid, start, goal):self.grid = grid  # 迷宫网格,0表示空地,1表示障碍self.start = start  # 起点self.goal = goal  # 终点self.rows, self.cols = len(grid), len(grid[0]) # 网格行、列边界self.state = start  # 当前状态def reset(self):# 重置迷宫状态self.state = self.startreturn self.statedef step(self, action):# 根据动作移动智能体row, col = self.stateif action == 0:  # 上row -= 1 # 行减1elif action == 1:  # 下row += 1 # 行加1elif action == 2:  # 左col -= 1 # 列-1elif action == 3:  # 右col += 1 # 列+1# 检查是否越界或碰到障碍if 0 <= row < self.rows and 0 <= col < self.cols and self.grid[row][col] == 0:# 满足在边界内部,且网格为空(对应数值为0)self.state = (row, col) #可以走到这个位置else:return self.state, -1, False  # 碰到障碍或越界,返回惩罚-1,标记未完成# 检查是否到达终点if self.state == self.goal:return self.state, 10, True  # 到达终点,返回奖励10,标记完成else:return self.state, -0.1, False  # 正常移动,返回小惩罚-0.1,标记未完成def render(self):# 可视化迷宫for r in range(self.rows): # 遍历状态for c in range(self.cols): # 遍历动作if (r, c) == self.state: # 对于当前位置,用字母A表示print("A", end=" ")  # 智能体位置elif (r, c) == self.goal: #对于目标位置用字母G表示print("G", end=" ")  # 终点elif self.grid[r][c] == 1: # 对于障碍物用#表示print("#", end=" ")  # 障碍else: # 对于空地用0表示print("0", end=" ")  # 空地print()print()# Q-learning算法
class QLearning:def __init__(self, maze, alpha=0.1, gamma=0.99, epsilon=0.1):self.maze = maze # 迷宫环境self.alpha = alpha  # 学习率self.gamma = gamma  # 折扣因子self.epsilon = epsilon  # 探索概率self.q_table = np.zeros((maze.rows, maze.cols, 4))  # Q表,4个动作,三个维度def choose_action(self, state):# 根据ε-greedy策略选择动作,以epsilon的概率选择探索,以1-epsilon的概率选择利用# 一般随着时间的推移,epsilon逐渐减小,即减小探索,增大利用概率# 如果随机抽样小于epsilon,则选择探索,即随机抽取动作if random.uniform(0, 1) < self.epsilon: return random.choice([0, 1, 2, 3])  # 探索# 如果随机抽样大于等于epsilon,则选择利用,即利用现有规则进行动作选择else:return np.argmax(self.q_table[state])  # 利用,state是当前状态,为二维坐标def train(self, episodes):# 训练for episode in range(episodes):state = self.maze.reset() # 重置状态done = False # 训练完成标志total_reward = 0 # 总奖励while not done:action = self.choose_action(state) # 选择动作,根据1-epsilon策略next_state, reward, done = self.maze.step(action) #根据动作移动智能体total_reward += reward# Q-learning更新规则best_next_q = np.max(self.q_table[next_state]) # Qtable里面下一状态对应Q的最大值# Q值更新参数方法 q(st,at)=q(st,at)+alpha*(reward+gamma*max(q)-q(st,at))self.q_table[state][action] += self.alpha * (reward + self.gamma * best_next_q - self.q_table[state][action])state = next_state # 状态更新 # 每当完成100回合,则输出一次总奖励数据if (episode + 1) % 100 == 0:print(f"Episode {episode + 1}: Total Reward = {total_reward}")def test(self):# 测试训练后的策略state = self.maze.reset()done = Falsesteps = []while not done:action = np.argmax(self.q_table[state]) #选择Q表中最大的动作next_state, _, done = self.maze.step(action) steps.append(action)state = next_stateself.maze.render() # 可视化迷宫print("Steps taken:", steps) #输出动作集合,每一步动作都被储存倒steps【】列表中# 定义迷宫
grid = [[0, 0, 0, 1, 0],[0, 1, 0, 1, 0],[0, 1, 0, 0, 0],[0, 0, 0, 1, 0],[0, 1, 1, 1, 0]
]
start = (0, 0) # 起点
goal = (4, 4) # 终点# 创建迷宫和Q-learning对象
maze = Maze(grid, start, goal)
ql = QLearning(maze)# 训练和测试
ql.train(episodes=1000) #训练1000轮
ql.test() #测试

三、结果展示

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20341.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows 环境下 Grafana 安装指南

目录 下载 Grafana 安装 Grafana 方法 1&#xff1a;使用 .msi 安装程序&#xff08;推荐&#xff09; 方法 2&#xff1a;使用 .zip 压缩包 启动 Grafana 访问 Grafana 配置 Grafana&#xff08;可选&#xff09; 卸载 Grafana&#xff08;如果需要&#xff09; 下载 G…

栈回溯方案

注&#xff1a;栈回溯无法很好的定位到未调优化的函数&#xff0c;需要编译前使用 -fno-optimize-sibling-calls 选项禁止尾调优化。 基于unwind的栈回溯 在 arm 架构下&#xff0c;不少32位系统用的是 unwind 形式的栈回溯&#xff0c;这种栈回溯要复杂很多。首先需要程序有一…

[算法学习笔记]1. 枚举与暴力

一、枚举算法 定义 枚举是基于已有知识来猜测答案的问题求解策略。即在已知可能答案的范围内&#xff0c;通过逐一尝试寻找符合条件的解。 2. 核心思想 穷举验证&#xff1a;对可能答案集合中的每一个元素进行尝试终止条件&#xff1a;找到满足条件的解&#xff0c;或遍历完…

突破反爬困境:从服务端渲染到客户端SPA,爬虫环境的演变与新挑战(一)

声明 本文所讨论的内容及技术均纯属学术交流与技术研究目的&#xff0c;旨在探讨和总结互联网数据流动、前后端技术架构及安全防御中的技术演进。文中提及的各类技术手段和策略均仅供技术人员在合法与合规的前提下进行研究、学习与防御测试之用。 作者不支持亦不鼓励任何未经授…

(蓝桥杯——10. 小郑做志愿者)洛斯里克城志愿者问题详解

题目背景 小郑是一名大学生,她决定通过做志愿者来增加自己的综合分。她的任务是帮助游客解决交通困难的问题。洛斯里克城是一个六朝古都,拥有 N 个区域和古老的地铁系统。地铁线路覆盖了树形结构上的某些路径,游客会询问两个区域是否可以通过某条地铁线路直达,以及有多少条…

java基础——抽象类与接口

目录 一、抽象类 1. 定义 2. 示例代码 3. 特点 4. 使用场景 二、接口 1. 定义 2. 示例代码 3. 特点 三、抽象类和接口的区别 四、接口与抽象类的结合 五、自定义排序方法 六、总结 在 Java 编程中&#xff0c;抽象类和接口是两个极为重要的概念&#xff0c;它们在…

HTML应用指南:利用GET请求获取全国乐乐茶门店位置信息

随着新零售业态的快速发展,门店位置信息的获取变得越来越重要。作为新茶饮品牌之一,乐乐茶自2016年在上海五角场创立,乐乐茶不仅在产品质量和服务体验上持续领先,还积极构建广泛的门店网络,以支持其不断增长的用户群体。为了更好地理解和利用这些数据,本篇文章将深入探讨…

蚁剑(AutSword)的下载安装与报错解决

蚁剑&#xff08;AutSword&#xff09;的下载安装与报错解决 1.下载 唯一官方github下载地址 GitHub - AntSwordProject/AntSword-Loader: AntSword 加载器 2.安装 打开并且进入到下面的界面 下载需要的的版本 进行初始化 3.报错 出现下面的报错 4.解决方法 出现上面报错…

从低清到4K的魔法:FlashVideo突破高分辨率视频生成计算瓶颈(港大港中文字节)

论文链接&#xff1a;https://arxiv.org/pdf/2502.05179 项目链接&#xff1a;https://github.com/FoundationVision/FlashVideo 亮点直击 提出了 FlashVideo&#xff0c;一种将视频生成解耦为两个目标的方法&#xff1a;提示匹配度和视觉质量。通过在两个阶段分别调整模型规模…

《计算机视觉》——角点检测和特征提取sift

角点检测 角点的定义&#xff1a; 从直观上理解&#xff0c;角点是图像中两条或多条边缘的交点&#xff0c;在图像中表现为局部区域内的灰度变化较为剧烈的点。在数学和计算机视觉中&#xff0c;角点可以被定义为在两个或多个方向上具有显著变化的点。比如在一幅建筑物的图像…

Linux下ioctl的应用

文章目录 1、ioctl简介2、示例程序编写2.1、应用程序编写2.2、驱动程序编写 3、ioctl命令的构成4、测试 1、ioctl简介 ioctl&#xff08;input/output control&#xff09;是Linux中的一个系统调用&#xff0c;主要用于设备驱动程序与用户空间应用程序之间进行设备特定的输入/…

对称加密算法——IDEA加密算法

Java IDEA算法详解 1. 理论背景 IDEA&#xff08;International Data Encryption Algorithm&#xff09;是一种对称密钥加密算法&#xff0c;由Xuejia Lai和James Massey于1991年提出。它被设计用于替代DES&#xff08;Data Encryption Standard&#xff09;算法&#xff0c;…

Jenkins 给任务分配 节点(Node)、设置工作空间目录

Jenkins 给任务分配 节点(Node)、设置工作空间目录 创建 Freestyle project 类型 任务 任务配置 Node 打开任务-> Configure-> General 勾选 Restrict where this project can be run Label Expression 填写一个 Node 的 Label&#xff0c;输入有效的 Label名字&#x…

20250217 随笔 redis非原子性操作简述

从你提供的文本来看&#xff0c;核心是 Redis 作为缓存的检查机制&#xff0c;以及非原子性操作导致的不一致性问题。 我们可以拆解为两个部分来理解&#xff1a; &#x1f4cc; 1. 逻辑&#xff1a;先查 Redis&#xff0c;再决定是否注册 逻辑流程 先查询 Redis 是否有某个 …

SVM对偶问题

1、对偶问题数学基础 对偶问题&#xff1a;在线性规划中&#xff0c;每一个线性规划问题(称为原问题)都有一个与之对应的对偶问题。从数学形式上看&#xff0c;如果原问题是求解一个线性目标函数的最大值&#xff08;或最小值&#xff09;&#xff0c;在满足一系列线性不等式&…

CSDN、markdown环境下如何插入各种图(流程图,时序图,甘特图)

流程图 横向流程图 mermaid graph LRA[方形] --> B{条件a}B -->|满足| C(圆角)B -->|不满足| D(圆角)C --> E[输出结果1]D --> E效果图&#xff1a; 竖向流程图 mermaid graph TDC{条件a} --> |a1| A[方形]C --> |a2| F[竖向流程图]A --> B(圆角)B …

MSI微星电脑冲锋坦克Pro Vector GP76 12UGS(MS-17K4)原厂Win11系统恢复镜像,含还原功能,预装OEM系统下载

适用机型&#xff1a;【MS-17K4】 链接&#xff1a;https://pan.baidu.com/s/1P8ZgXc6S_J9DI8RToRd0dQ?pwdqrf1 提取码&#xff1a;qrf1 微星笔记本原装出厂WINDOWS11系统自带所有驱动、出厂主题壁纸、系统属性专属联机支持标志、Office办公软件、MSI Center控制中心等预装…

MySQL 之INDEX 索引(Index Index of MySQL)

MySQL 之INDEX 索引 1.4 INDEX 索引 1.4.1 索引介绍 索引&#xff1a;是排序的快速查找的特殊数据结构&#xff0c;定义作为查找条件的字段上&#xff0c;又称为键 key&#xff0c;索引通过存储引擎实现。 优点 大大加快数据的检索速度; 创建唯一性索引&#xff0c;保证数…

Ubuntu18.04安装rvm、ruby2.6.5和rails5.2.6

系统环境&#xff1a;Ubuntu 18.04 一、安装前准备 1. sudo apt update 2. sudo apt upgrade 如果提示abort&#xff0c;忽略。 3. sudo apt install sqlite3 gnupg curl git libpq-dev 二、安装rvm ruby版本管理器 1.切换管理员模式 sudo su 2.安装软件签名公钥 gpg…

【WPS+VBA】表格中重复表头与页码的批量删除

向豆包对话可以死磕的&#xff0c;以前问问题我只是根据第一条给出的答案使用。AI还有个优点&#xff0c;不会烦你&#xff0c;只要有问题就接着问&#xff0c;一直问到解决好问题。小编对豆包的连环提问&#xff0c;最终解决了批量删表头页面的问题。 1、豆包对话过程 开始问…