使用强化学习训练神经网络玩俄罗斯方块

一、说明

        在 2024 年暑假假期期间,Tim学习并应用了Q-Learning (一种强化学习形式)来训练神经网络玩简化版的俄罗斯方块游戏。在本文中,我将详细介绍我是如何做到这一点的。我希望这对任何有兴趣将强化学习应用于新领域的人有所帮助!

        正如您在下面的 GIF 中看到的,经过约 6,000 场游戏或约 85,000 次单独动作的训练后,该模型成功“学会”了如何有效且高效地玩简化的俄罗斯方块游戏:

二、游戏

为了在尽可能简单的游戏环境中演示 Q-Learning 的过程,我使用了俄罗斯方块游戏的一个非常简化的版本。“棋盘”是 4 行 4 列,一个 4x4 矩阵。游戏非常简单:AI 代理必须选择将单个框逐一“放入”4 列中的哪一列,目标是最终填满棋盘上的所有 16 个方格。

尽管这个游戏对你我来说似乎非常简单易玩,但实际上有很多可能出错的地方。如果人工智能无法学习游戏的本质,它就会不断进行随机操作,最终做出非法操作。

例如,考虑以下情况:

如果模型不理解游戏,而是随机玩游戏,则有 25% 的概率它会选择将一个方块放入第 4 列(最右边的列)。这将是一个非法举动,使游戏无效,并且不允许 AI 达到 16 分的 100% 得分!

我训练这个模型的目标是让模型有效、高效地玩游戏,避免非法动作,并在每场比赛中达到最高分 16 分

三、方法:Q 学习

        为了训练 AI 玩这个简化版的俄罗斯方块游戏,我们将使用Q-Learning。Q -Learning 是机器学习中的一种强化学习算法。Q-Learning 的目标是找到任何潜在游戏状态的最佳动作选择策略。但这是什么意思呢?

        在深入研究 Q-Learning 方法之前,让我们首先了解什么是“Q-Table”,因为这是 Q-Learning 中的一个核心概念。

        您可以将 Q 表视为系统记录和存储的长列表(表格),该列表映射了在任何给定情况下它选择的任何可能的下一步行动将带来的奖励。例如,请考虑下表:

        使用上面的 Q 表,系统可以通过查看该状态下每个潜在下一步行动的值来“查找”游戏任何状态下的最佳下一步行动(游戏状态在这里用两个整数表示,这是一种非常简单的表示)。例如,对于状态 (2,1),放入第 2 列将是下一个最佳行动,因为这将导致预期奖励为0.5,这是此位置所有可能动作中的最高值。

        通过反复玩游戏,最终系统可以从游戏的每个潜在状态中玩出每个潜在动作!一旦它做到了这一点,它就会有一个词汇表,记录在游戏的任何场景中哪些动作是最佳选择。唯一的挑战是,在绝大多数游戏中,潜在场景的数量实在是太多了。在大多数游戏中,有数百万、数十亿甚至数万亿个潜在的独特状态。存储如此长的表格是不可能的。而要玩完所有这些例子?那将花很长时间!

        因为 Q 表太大无法收集和存储,所以我们求助于神经网络。神经网络的规模要小得多,通过观察游戏过程和收集奖励,可以学习游戏中的潜在模式。这些模式使神经网络能够理解和估计与某些位置的某些动作相关的奖励,而无需存储表格;这很像我们人类的学习方式!实际上,该模型正在学习模拟“Q 表”

        当我们建立一个模型并通过 Q-Learning 进行训练时,我们会反复让模型通过自我对弈来遇到、行动和观察。换句话说,在游戏的每个“步骤”中,游戏的当前情况(模型必须对此做出决定)称为状态。模型看到状态,然后决定下一步应该怎么做;这一举动称为动作。在对游戏执行选定的动作(动作)后,模型会观察发生了什么——这一举动是否让情况变得更好?更糟?这被称为奖励

        该模型会自己反复玩游戏……数千次!最终,该模型收集了如此多的状态、动作、奖励对(称为“经验”),以至于它可以从这些经验中学习,并充分了解哪些状态下的哪些动作会带来最高奖励(最成功)

四、神经网络模型

        TensorFlow顺序神经网络将用于估计上述给定位置中每个潜在移动的估计奖励。我使用Keras API 使神经网络的高级操作更容易。

        如上所述,每次要求模型决定下一步该怎么做时,都会向其呈现游戏的当前“状态”。这是对游戏整体情况的简单表示,包括模型在决定下一步做什么时应考虑的所有标准。

        在这个迷你俄罗斯方块游戏中,“状态”非常简单:4x4 棋盘上有 16 个方格,因此有 16 个唯一输入。16 个输入中的每一个都将被表示并“显示”给模型,即10;如果特定方格已被占用,则该方格的位置将表示为1,如果为空,则表示为0

        例如,考虑以下棋盘状态:

上图中的棋盘状态可以表示为以下整数数组,其中每个方格表示为01,其中每个方格在数组中的位置如上图所示:

[0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1  ] 

        因此,我们的神经网络在评估位置和下一步要走什么时会考虑16 个输入。那么输出呢?在 Q-Learning 中,神经网络旨在预测任何给定状态下每个可能动作的“Q 值”或估计的当前/未来奖励。由于我们正在玩的游戏有4 个潜在动作(在第 1、2、3 或 4 列中放置一个方块),我们的神经网络将有4 个输出

        我们的神经网络还会有多个隐藏层,它们是连接输入层和输出层的数学神经元层。这些隐藏层充当神经网络的“大脑”,通过训练不断调整以“学习”游戏的性质以及状态、动作及其相关奖励之间的关系。

        以下是构建整个模型所使用的代码:

# 构建层
input_board = keras.layers.Input(shape=( 16 ,), name= "input_board" ) 
carry = keras.layers.Dense( 64 , "relu" , name= "layer1" )(input_board) 
carry = keras.layers.Dense( 64 , "relu" , name= "layer2" )(carry) 
carry = keras.layers.Dense( 32 , "relu" , name= "layer3" )(carry) 
output = keras.layers.Dense( 4 , "linear" , name= "output" )(carry) #构建模型
self.model = keras.Model(inputs=input_board, output=output) 
self.model.compile (optimizer=keras.optimizers.Adam(learning_rate= 0.003 ), loss= "mse" )

要查看构建和训练神经网络的代码,请在GitHub 上查看。要了解如何将游戏状态转换为扁平整数数组表示形式,请在此处查看该转换函数。

五、奖励函数

        如上所述,神经网络旨在从游戏的任何给定状态近似每个潜在动作的Q 值。“Q 值”只是当前和未来奖励的混合体(即“从短期和长期来看,这一举动对我有多大帮助?”)的花哨术语。如果模型能够从任何状态近似所有四种可能动作的奖励,那么该模型可以简单地选择它认为将返回最大奖励的动作作为建议的下一个最佳动作

        但是,模型如何从本质上知道哪些动作是“好的”,哪些动作“不太好”,哪些动作是“坏的”?这就是我们作为设计此过程的人需要为 AI 代理提供一些指导的地方。这种指导称为奖励函数

        简而言之,奖励函数只是一个简单的函数,我们将编写它来以数学方式计算任何潜在举动的好坏。请记住,对于人工智能做出的每一个举动,它都会观察它做出这一举动所获得的奖励。我们定义了一个高级函数,可以粗略地计算出这一举动是好是坏。

        我对这个迷你俄罗斯方块 AI 使用的奖励函数非常简单,可以在模块中的类score_plus()中的函数中找到:GameState类在tetris

def score_plus(self) -> float:# start at scoreToReturn:float = float(self.score())# penalize for standard deviationstdev:float = statistics.pstdev(self.column_depths())ToReturn = ToReturn - (stdev * 2)return ToReturn

        首先,我已将系统设置为仅根据移动和移动前的“score_plus”之间的差异来确定奖励。换句话说,score_plus模型在移动之前观察,移动,然后再次观察score_plus,差异(增加)即为奖励。

        我的奖励函数非常简单。首先,score统计游戏的分数——这只是棋盘上被占据的方格数。之后,我使用一个简单的标准偏差函数来计算“列深度”的偏差,或者每列有多少个方格未被占据。

标准差越大,意味着棋盘的开发方式非常不平衡 — 即一边很高,而另一边不高;这对于俄罗斯方块游戏来说并不好。非常“水平”的棋盘反而等同于较小的标准差。通过从总分中减去柱深标准差,我们可以惩罚模型构建不均匀、不平衡的棋盘,从而激励构建平衡的棋盘。

六、训练过程

        在我们建立好底层模型并建立奖励函数后,现在是时候训练模型了!如前所述,模型将自行运行,自己反复玩游戏。它将从零开始了解如何玩游戏 — 只是能够观察游戏、做出决定并查看该决定获得的奖励。

        通过反复进行自我游戏并根据这些结果进行训练,神经网络最终形成了棋盘当前状态、可能做出的潜在决策以及此类决策的典型奖励之间的关系。一旦巩固了这种理解,尽可能地玩游戏就很简单了;我们所要做的就是始终选择模型预期会获得最大回报的移动(动作)!

更具体地说,以下是精简的训练过程。完整的训练脚本可以在train.py中找到。

  1. 初始化一个新的神经网络。
  2. 通过选择模型认为最佳的动作组合来收集几百种状态、动作和奖励经验(
  3. 将当前游戏的状态转换为整数列表。
  4. 根据模型认为最好的选择一种动作(但可能不是,因为模型还不知道任何事情!)或随机动作。偶尔会选择随机动作来鼓励探索。在此处阅读有关探索与开发的更多信息。
  5. 执行(玩)该动作并观察该动作所给予的奖励。
  6. 将此状态、动作、奖励“体验”存储到一个集合中。
  7. 循环遍历所有这些收集到的状态、动作和奖励经验,每次根据经验进行训练(更新神经网络权重),以便在给定状态和动作的情况下更好地近似正确的奖励。
  8. 计算 Q 值(即时/未来奖励)应该是多少(即时/未来奖励的混合,代表该决策的总奖励)。
  9. 要求模型预测它认为的奖励(Q 值)什么。
  10. 该模型的预测可能不正确,因为它还不知道任何事情。
  11. 通过根据步骤 1 中计算的正确 Q 值进行训练来“纠正”模型。
  12. 对每一次经历都反复这样做。
  13. 反复重复上述步骤,直到模型学会如何有效、合法地玩游戏!

在此处查看 GitHub 上的完整训练脚本。

七、结果

在train.py模块中设置好上述训练过程后,我让它运行了大约 4 个小时。在这 4 个小时里,经过 85,000 个状态、动作和奖励体验的训练后,我的模型成功学会了完美地玩游戏。该模型可以从任何状态完美地玩游戏——从新的游戏位置(空白板)甚至“随机”位置。每次玩游戏时,它总是在每场“游戏”中得分 16(满分),并且从不做出非法举动。

我的模型经过了 85,000 次经验(移动)的训练,但我认为没有必要训练这么多。正如训练日志文件中显示的那样,最佳性能似乎在 4,500 次经验(移动)标记附近实现。

您可以从下面的模型检查点部分下载我训练的模型,并在assess.py脚本中运行它。

附代码

该项目的所有代码均为开源,https://github.com/TimHanewich/tetris-ai-mini

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/504319.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot的网上商城购物系统

作者:学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等 文末获取“源码数据库万字文档PPT”,支持远程部署调试、运行安装。 目录 项目包含: 开发说明: 系统功能: 项目截图…

API架构风格的深度解析与选择策略:SOAP、REST、GraphQL与RPC

❃博主首页 &#xff1a; 「码到三十五」 &#xff0c;同名公众号 :「码到三十五」&#xff0c;wx号 : 「liwu0213」 ☠博主专栏 &#xff1a; <mysql高手> <elasticsearch高手> <源码解读> <java核心> <面试攻关> ♝博主的话 &#xff1a…

【网络协议】开放式最短路径优先协议OSPF详解(四)

前言 在本章的第一部分和第二部分中&#xff0c;我们探讨了OSPF的基本配置&#xff0c;并进一步学习了更多OSPF的概念&#xff0c;例如静态路由的重分发及其度量值。在第三部分中&#xff0c;我们讨论了多区域OSPF。在第四部分中&#xff0c;我们将关注OSPF与多访问网络&#…

上门按摩系统架构与功能分析

一、系统架构 服务端&#xff1a;Java&#xff08;最低JDK1.8&#xff0c;支持JDK11以及JDK17&#xff09;数据库&#xff1a;MySQL数据库&#xff08;标配5.7版本&#xff0c;支持MySQL8&#xff09;ORM框架&#xff1a;Mybatis&#xff08;集成通用tk-mapper&#xff0c;支持…

攻防世界 ics-07

点击之后发现有个项目管理能进&#xff0c;点进去&#xff0c;点击看到源码&#xff0c;如下三段 <?php session_start(); if (!isset($_GET[page])) { show_source(__FILE__); die(); } if (isset($_GET[page]) && $_GET[page] ! index.php) { include(flag.php);…

Spring Boot教程之四十九:Spring Boot – MongoRepository 示例

Spring Boot – MongoRepository 示例 Spring Boot 建立在 Spring 之上&#xff0c;包含 Spring 的所有功能。由于其快速的生产就绪环境&#xff0c;使开发人员能够直接专注于逻辑&#xff0c;而不必费力配置和设置&#xff0c;因此如今它正成为开发人员的最爱。Spring Boot 是…

测试ip端口-telnet开启与使用

前言 开发过程中我们总会要去测试ip通不通&#xff0c;或者ip下某个端口是否可以联通&#xff0c;为此我们可以使用telnet 命令来实现。 一、telnet 开启 可能有些人使用telnet报错&#xff0c;不是内部命令&#xff0c;可以如下开启&#xff1a; 1、打开控制面板&#xff…

SpringBoot3动态切换数据源

背景 随着公司业务战略的发展&#xff0c;相关的软件服务也逐步的向多元化转变&#xff0c;之前是单纯的拿项目&#xff0c;赚人工钱&#xff0c;现在开始向产品化\服务化转变。最近雷袭又接到一项新的挑战&#xff1a;了解SAAS模型&#xff0c;考虑怎么将公司的产品转换成多租…

爬虫学习记录

1.概念 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 通用爬虫:抓取的是一整张页面数据聚焦爬虫:抓取的是页面中的特定局部内容增量式爬虫:监测网站中数据更新的情况,只会抓取网站中最新更新出来的数据 robots.txt协议: 君子协议,网站后面添加robotx.txt…

通过 route 或 ip route 管理Linux主机路由

目录 一&#xff1a;route 使用说明1、查看路由信息2、删除指定路由3、增加指定路由 二&#xff1a;ip route 使用说明1、查看主机路由2、新增主机路由3、删除主机路由 通过route 或者ip route修改Linux主机路由后属于临时生效&#xff0c;系统重启后就恢复默认值了&#xff0c…

el-table表格合并某一列

需求&#xff1a;按照下图完成单元格合并&#xff0c;数据展示 可以看到科室列是需要合并的 并加背景色展示&#xff1b;具体代码如下&#xff1a; <el-tableref"tableA":data"tableDataList":header-cell-style"{ backgroundColor: #f2dcdb, col…

CSS Grid 布局全攻略:从基础到进阶

文章目录 一.Grid 是什么二.示例代码1. 基础使用 - 固定宽高2.百分百宽高3.重复设置-repeat4.单位-fr5.自适应6.间距定义其他 一.Grid 是什么 CSS 中 Grid 是一种强大的布局方式&#xff0c;它可以同时处理行和列 Grid 和Flex有一些类似&#xff0c;都是由父元素包裹子元素使用…

数据结构:包装类和泛型

目录 一、包装类 1、基本数据类型和对应的包装类 2、装箱和拆箱 3、自动装箱和自动拆箱 二、泛型 1、什么是泛型 2、泛型语法 3、泛型类 4、擦除机制 5、泛型的上界 6、泛型方法 三、通配符 1、什么是通配符 2、通配符上界 3、通配符下界 &#x1f4da…

备考蓝桥杯:顺序表相关算法题

目录 询问学号 寄包柜 移动0 颜色分类 合并两个有序数组 物品移动 询问学号 我们的思路&#xff1a;创建一个顺序表存储从1开始依次存放进入教室的学生学号&#xff0c;然后查询 #include <iostream> #include <vector> using namespace std; const int N 2…

Python入门教程 —— 网络编程

1.网络通信概念 简单来说,网络是用物理链路将各个孤立的工作站或主机相连在一起,组成数据链路,从而达到资源共享和通信的目的。 使用网络的目的,就是为了联通多方然后进行通信,即把数据从一方传递给另外一方。 前面的学习编写的程序都是单机的,即不能和其他电脑上的程…

C#异步多线程——ThreadPool线程池

C#实现异步多线程的方式有多种&#xff0c;以下总结的是ThreadPool的用法。 线程池的特点 线程池受CLR管理&#xff0c;线程的生命周期&#xff0c;任务调度等细节都不需要我们操心了&#xff0c;我们只需要专注于任务实现&#xff0c;使用ThreadPool提供的静态方法把我们的任…

68.基于SpringBoot + Vue实现的前后端分离-心灵治愈交流平台系统(项目 + 论文PPT)

项目介绍 本系统将严格按照软件开发流程进行各个阶段的工作&#xff0c;采用B/S架构&#xff0c;面向对象编程思想进行项目开发。在引言中&#xff0c;作者将论述心灵治愈交流平台的当前背景以及系统开发的目的&#xff0c;后续章节将严格按照软件开发流程&#xff0c;对系统进…

Linux(上):基本知识篇

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、Linux初识1 Linux简介2 Linux学习环境配置(1)安装Linux(2)FinalShell远程连接Linux服务器二、Linux基础命令1 Linux目录结构,根目录 /2 Linux命令基础(1)什么是命令、命令行?(2)…

Python中的可变对象与不可变对象;Python中的六大标准数据类型哪些属于可变对象,哪些属于不可变对象

Python中的可变对象与不可变对象&#xff1b;Python中的六大标准数据类型哪些属于可变对象&#xff0c;哪些属于不可变对象 Python中的可变对象与不可变对象一、Python的六大标准数据类型1. 数字类型 (Number)2. 字符串 (String)3. 列表 (List)4. 元组 (Tuple)5. 集合 (Set)6. …

VSCode Live Server 插件安装和使用

VSCode Live Server是一个由Ritwick Dey开发的Visual Studio Code扩展插件&#xff0c;它提供了一个带有实时重载功能的本地开发服务器。在VSCode中安装和使用Live Server插件进行实时预览和调试Web应用程序。这将大大提高前端开发效率&#xff0c;使网页设计和开发变得更为流畅…