PyTorch深度学习实战——使用深度Q学习进行Pong游戏
- 0. 前言
- 1. 结合固定目标网络的深度 Q 学习模型
- 1.1 模型输入
- 1.2 模型策略
- 2. 实现深度 Q 学习进行 Pong 游戏
- 相关链接
0. 前言
我们已经学习了如何利用深度 Q 学习来进行 Gym
中的 CartPole 游戏。在本节中,我们将研究更复杂的 Pong 游戏,并了解如何结合深度 Q 学习与固定目标网络进行此游戏,同时利用基于卷积神经网络 (Convolutional Neural Networks
, CNN
) 的模型替代普通神经网络。
1. 结合固定目标网络的深度 Q 学习模型
1.1 模型输入
在本节中,我们的目标是构建一个可以与计算机进行乒乓球对战并击败它的智能体,该智能体预计能够获得 21
分。我们采用以下策略训练智能体用于进行 Pong
游戏:
裁剪图像的无关部分,获取游戏当前帧(状态):
在上示图像中,我们获取了原始图像,并裁剪原始图像的顶部和底部像素。
1.2 模型策略
为了构建具有固定目标网络的深度 Q 学习模型,使用以下策略:
- 堆叠四个连续的帧——智能体需要状态序列了解球是否正在向它靠近
- 智能体在初