rayLib的DQN和A3C
1. DQN(Deep Q-Network)
概述
DQN 是一种将深度学习与 Q - learning 相结合的强化学习算法,由 DeepMind 在 2013 年提出,并在 2015 年进行了改进。传统的 Q - learning 使用表格来存储状态 - 动作值(Q 值),但在处理高维状态空间时,表格的规模会变得非常大,甚至无法存储。DQN 使用深度神经网络来近似 Q 值函数,从而可以处理高维的状态输入,如图像。
核心思想
- 经验回放:将智能体的经验(状态、动作、奖励、下一个状态)存储在经验回放缓冲区中,训练时随机从缓冲区中采样一批经验进行学习,这样可以打破数据之间的相关性,提高训练的稳定性。
- 目标网络:引入目标网络来计算目标 Q 值,目标网络的参数定期从主网络复制过来,这样可以减少训练过程中的目标值波动,提高学习的稳定性。