24/8/15算法笔记 项目练习冰湖

import gym
from matplotlib import pyplot as plt
%matplotlib inline
import os
os.environ['SDL_VIDEODRIVER']='dummy'
#设置环境变量 SDL_VIDEODRIVER='dummy' 是在使用基于 SDL (Simple DirectMedia Layer) 的应用程序时,告诉应用程序不使用任何视频驱动程序。这通常用于无头环境(headless environment)或自动化脚本,其中不需要图形界面。
#创建环境
#is_slippery控制会不会滑
#map_name决定地图的尺寸,还可以取8X8
#desc决定地形
env = gym.make('FrozenLake-v1',is_slippery=False,map_name='4X4',desc=['SFFF','FHFH','FFFH','HFFG'])
env.reset()   #用于重置环境状态到其初始状态的方法,并准备开始一个新的周期(episode)。#解封装才能访问状态转移矩阵p
env.env.unwrapped#打印游戏
def show():plt.imshow(env.render(mode='rgb_array'))plt.show()

游戏信息

#查看冰湖这个游戏的状态列表
#一共4*4=16个状态
#每个状态下都可以执行4个动作
#每个动作执行完,都有概率得到3个结果
#(0.333333333333,0,0.0,False)这个数据结构表示(概率,下个状态,奖励,是否结束)
len(env.P),env.P[0]

初始化values和pi

import numpy as np#初始化每个格子的价值
values = np.zeros(16)#初始化每个格子下采用动作的概率
pi = np.ones([16,4])*0.25#两个算法都是可以的
algorithm = '策略迭代'
algorithm = '价值迭代'values,pi

Q函数

#计算qsa
def get_qsa(state,action):value = 0.0#每个动作都会有三个不同的结果,这里要按概率把他们加权求和for prop,next_state,reward,over in env.P[state][action]:#计算下个状态的分数,取values当中记录的分数,再打个折扣next_value = values[next_state]*0.9#如果下个状态是终点或者陷阱,则下个状态的分数是0if over:next_value = 0#动作的分数就是reward,和下个状态的分数相加就是最终分数next_value+=reward#因为下个状态是概率出现了,所以这里要乘以概率next_value*=propvalue+=next_valuereturn value
get_qsa(0,0)
#策略评估
def get_values():#初始化一个新的values,重新评估所有格子的分数new_values = np.zeros([16])#遍历所有格子for state in range(16):#计算当前格子4个动作分别的分数action_value = np.zeros(4)#遍历所有动作for action in range(4):action_value[action] = get_qsa(state,action)if algorithm =='策略迭代':#每个动作的分数和它的概率相乘action_value*=pi[state]#最后这个格子的分数,等于该格子下所有动作的分数求和new_values[state] = action_value.sum()if algorithm=='价值迭代':#求每一个格子的分数,等于该格子下所有动作的最大分数new_values[state] = action_value.max()return new_values
get_values()

#策略提升算法
def get_pi():#重新初始化每个格子下采用动作的概率,重新评估new_pi = np.zeros([16,4])#遍历所有格子for state in range(16):#计算当前格子4个动作分别的分数action_value = np.zeros(4)#遍历所有动作for action in range(4):action_value[action] = get_qsa(state,action)#计算当前state下,达到最大分数的动作有几个count = (action_value ==action_value.max()).sum()#让这些动作均分概率for action in range(4):if action_value[action] ==action_value.max():new_pi[state,action] = 1/countelse:new_pi[state,action] = 0return new_pi
#循环迭代策略评估和策略提升,寻找最优解
for _ in range(10):for _ in range(100):values = get_values()pi = get_pi()
values,pi

#打印每个格子的策略
def print_pi():#遍历所有格子for row in range(4):line=' 'for col in range(4):state = row*4+colif(row==1 and col==1)or(row==1 and col==3)or(row ==2 and col ==2)or(row ==3 and col==0):line+='O'continueif row==3 and col==3:line+='*'continueline+='上下左右'[pi[state].argmax()]print(line)print_pi()

测试函数

from IPython import display
import timedef play():env.reset()#起点在0index= 0#最多玩N步for i in range(200):#选择一个动作action =np.random.choice(np.arange(4),size= 1,p=pi[index])[0]#执行动作index,reward,terminated,truncated,_=env.step(action)#打印动画display.clear_output(wait=True)time.sleep(1)show()#获取当前状态,如果状态时终点或者陷阱则终止if terminated or truncated:breakprint(i)
play()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/401631.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Transformer动画讲解-单头注意力和多头注意力

单头注意力和多头注意力 Transformer的起源:Google Brain 翻译团队通过论文《Attention is all you need》提出了一种全新的简单网络架构——Transformer,它完全基于注意力机制,摒弃了循环和卷积操作。 注意力机制是全部所需 正如论文标题所…

景联文科技:一文详解如何构建高质量SFT数据

在图像处理和计算机视觉领域中,将一张图像转化为可用于训练机器学习模型的数据是一项复杂而重要的任务。SFT(Supervised Fine-Tuning,监督微调)是一种常见的深度学习策略,在这一过程中发挥着核心作用。 SFT是指在一个预…

PostgreSQL-02-入门篇-查询数据

文章目录 1 简单查询SELECT 语句简介SELECT 语句语法SELECT 示例1) 使用 SELECT 语句查询一列数据的示例2) 使用 SELECT 语句查询多列数据的示例3) 使用 SELECT 语句查询表所有列数据的示例4) 使用带有表达式的 SELECT 语句的示例5) 使用带有表达式的 SELECT 语句的示例 2 列别…

【MySQL进阶之路】MySQL基础——从零认识MySQL

目录 主流数据库 什么是MySQL MySQL服务 从文件系统角度理解数据库 MySQL架构 SQL语句分类 存储引擎 个人主页:东洛的克莱斯韦克-CSDN博客 主流数据库 数据库开发商特点适用场景SQL Server微软.NET程序员的最爱,适合中大型项目企业级应用&#xf…

Mapreduce_wordcount自定义单词计数

自定义的wordcount 数据处理过程 加载jar包 查看后面的pom文件 以上为需要的jar包路径,将其导入至idea中 Map package com.hadoop;import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; im…

电动汽车和混动汽车DC-DC转换器的创新设计与测试方法

汽车 DC-DC 转换器市场规模将达到187亿美元,年复合增长率为10%。 DC-DC 转换器是汽车的重要组成部分,它可以通过电压转换为各种车载系统供电,例如日益复杂的车载信息娱乐系统、使用驾驶辅助系统(ADAS)实现的增强安全功…

灵办AI免费ChatGPT4人工智能浏览器插件快速便捷(多功能)

灵办AI就是您所需的最佳助手!我们为您带来了一款多功能AI工具,不仅能为您提供精准翻译,还能满足您的对话需求、智能续写、AI搜索、文档阅读、代码生成与修正等多种需求。灵办 AI,真正让工作和学习变得轻松高效! 推荐使…

人工智能在网络安全威胁测试中的应用:LLMs如何改变网络威胁格局

一、引言 随着人工智能技术的快速发展,特别是大型语言模型(LLMs)的崛起,网络安全领域也迎来了新的变革。LLMs不仅在自然语言处理方面展现出惊人的能力,还在网络安全威胁测试中显示出巨大的潜力。本文旨在探讨LLMs在网…

【区块链+乡村振兴】链上云仓智慧动产监管平台 | FISCO BCOS应用案例

2021 年初 ,《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》将“乡村振兴”的重要性提升 到前所未有的战略高度。而随着科技与金融的深度融合,金融行业亦开始步入大数据、云计算、人工智能、区块 链的新技术发展。启动金融科技赋能乡村振兴示范工程…

微信小程序--24(列表渲染)

一、wx&#xff1a;for 1.作用 根据指定数组&#xff0c;循环渲染重复的组件结构 2.语法 <view wx:for"{{data中的数据}}"> 索引是&#xff1a;{{index}}, item项是&#xff1a;{{item}}</view> index:表索引item&#xff1a;表当前循环项 …

<数据集>骑行头盔识别数据集<目标检测>

数据集格式&#xff1a;VOCYOLO格式 图片数量&#xff1a;5026张 标注数量(xml文件个数)&#xff1a;5026 标注数量(txt文件个数)&#xff1a;5026 标注类别数&#xff1a;3 标注类别名称&#xff1a;[helmet, without_helmet, two_wheeler] 序号类别名称图片数框数1helm…

轻空间成功承建马来西亚吉隆坡多功能气膜馆

近期&#xff0c;轻空间&#xff08;江苏&#xff09;膜结构科技有限公司顺利完成了马来西亚吉隆坡多功能气膜馆的建设工作。这一项目是轻空间在海外市场的又一重大突破&#xff0c;不仅展现了公司在国际气膜结构领域的卓越技术实力&#xff0c;也进一步巩固了轻空间作为全球领…

IDEA关键词全局检索-之jar包

正常没有下载到源码的jar包&#xff0c;是无法检索到.class编译文件中内容的 repository本地仓库中&#xff0c;也是没有源码的 《检索步骤》 1、首先&#xff0c;下载源码 - 可以配置maven自动下载所有jar包的源码&#xff08;再同样配置File-NewProjectsSetup-Settingsfor…

u-picker 点击遮罩层 无法关闭的原因,尤其要注意最后一点

u-view 组件 u-picker 点击遮罩层无法关闭问题 &#xff08;说实话uview的文档写的真的一般&#xff0c;跟pc端的完全不能比啊&#xff09; 三个需要注意的点 1. 需要添加 closeOnClickOverlay 属性 <u-picker :show"show" :columns"columns" keyNam…

C# 不一样的洗牌算法---Simd指令

洗牌算法&#xff0c;以随机打乱数组中元素的位置 测试数据创建 int[] _data; Random rng new Random(); protected override void CreateData() {_data new int[_size];for (int i 0; i < _data.Length; i){_data[i] i;} } 普通打乱数组元素位置 protected overrid…

如何跳过极狐GitLab 密钥推送保护功能?

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;专门面向中国程序员和企业提供企业级一体化 DevOps 平台&#xff0c;用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规&#xff0c;而且所有的操作都是在一个平台上进行&#xff0c;省事省心省钱。可以一键安装极狐GitL…

函数(子程序)的常见、易混淆概念详解【对初学者有帮助】

C语⾔中的函数也被称做子程序&#xff0c;意思就是⼀个完成某项特定的任务的⼀小段代码。 C语⾔标准中提供了许多库函数&#xff0c;点击下面的链接可以查看c语言的库函数和头文件。 C/C官⽅的链接&#xff1a;https://zh.cppreference.com/w/c/header 目录 一、函数头与函…

springBoot框架

使用springmvc框架&#xff0c;除了引入相关的依赖&#xff0c;还需要手动配置spring对象和springmvc对象&#xff0c;这个过程使用xml文件编写实现&#xff0c;最后在web的配置文件中引入这两个对象。 要实现dispatcherServelet的组件功能&#xff0c;还得在springmvc容器中手…

redis事件机制

redis服务器是一个由事件驱动(死循环)的程序&#xff0c;它总共就干两件事&#xff1a; 文件事件&#xff1a;利用I/O复用机制&#xff0c;监听Socket等文件描述符发生的事件&#xff0c;如网络请求时间事件&#xff1a;定时触发的事件&#xff0c;负责完成redis内部定时任务&…

智能语音识别技术在无人驾驶领域的应用案例

随着无人驾驶技术的进步与发展&#xff0c;越来越多的企业、创业者注意到无人驾驶领域潜藏的巨大市场经济价值&#xff0c;越来越多的企业和创业者进入无人驾驶领域&#xff0c;以近期业内关注的萝卜快跑为例&#xff0c;其在武汉地区的成功推广与落地预示着无人驾驶在网约车领…