Pytorch深度强化学习1-6：详解时序差分强化学习(SARSA、Q-Learning算法)

0 专栏介绍

本专栏重点介绍强化学习技术的数学原理，并且采用Pytorch框架对常见的强化学习算法、案例进行实现，帮助读者理解并快速上手开发。同时，辅以各种机器学习、数据处理技术，扩充人工智能的底层知识。

🚀详情：《Pytorch深度强化学习》

1 时序差分强化学习

在这里插入图片描述

在Pytorch深度强化学习1-5：详解蒙特卡洛强化学习原理中我们指出，在现实的强化学习任务中，转移概率、奖赏函数甚至环境中存在哪些状态往往很难得知，因此有模型强化学习在实际应用中不可行，而需要免模型学习技术，即假设转移概率和环境状态未知，奖赏也仅是根据经验或需求设计。蒙特卡洛强化学习正是免模型学习中的一种，其核心思想是使用蒙特卡洛方法来估计各个状态-动作对的值函数。通过对大量的样本进行采样，并根据它们的累积奖励来评估状态-动作对的价值，智能体可以逐步学习到最优策略。

本节介绍的时序差分强化学习(Temporal Difference Reinforcement Learning)则是另一类免模型学习算法，它结合了动态规划和蒙特卡洛强化学习的优点，用于在未知环境中进行决策。

2 策略评估原理

策略评估本质上是求解状态值函数 $V^{\pi}\left( s \right)$ 或状态-动作值函数 $Q^{\pi}\left( s,a \right)$ ，数值越大表明策略回报越高。从定义出发，蒙特卡洛强化学习核心是采样近似，基于采样的算法通常采用增量更新方式节省内存

$\begin{aligned}Q^{\pi}\left( s,a \right) &=\mathbb{E} \left[ R_t \right] \mid_{s_t=s,a_t=a}^{}\\&\approx \frac{1}{n}\sum_{i=1}^n{R_{t,i}}\\&\xlongequal{n\text{次增量}}\frac{Q^{\pi}\left( s,a \right) \times \mathrm{count}\left( s,a \right) +R_t}{\mathrm{count}\left( s,a \right) +1}\\&\xlongequal{n\text{次增量}}Q^{\pi}\left( s,a \right) +\frac{1}{\mathrm{count}\left( s,a \right) +1}\left( R_t-Q^{\pi}\left( s,a \right) \right)\end{aligned}$

因为采样过程通常以万次计，因此可以用一个较小的正数 $\alpha$ 来描述，超参数 $\alpha$ 可理解为模型的学习率， $R_t-Q^{\pi}\left( s,a \right)$ 称为蒙特卡洛误差

$Q^{\pi}\left( s,a \right) \xlongequal{n\text{次增量}}Q^{\pi}\left( s,a \right) +\alpha \left( R_t-Q^{\pi}\left( s,a \right) \right)$

动态规划强化学习核心是自我迭代

$Q^{\pi}\left( s,a \right) =\mathbb{E} \left[ R_t \right] \mid_{s_t=s,a_t=a}^{}=\sum_{s'\in S}{P_{s\rightarrow s'}^{a}}\left[ R_{s\rightarrow s'}^{a}+\gamma \sum_{a'\in A}{\pi \left( s',a' \right) Q^{\pi}\left( s',a' \right)} \right]$

根据动态特性和当前 $Q^{\pi}\left( s,a \right)$ ，具体计算出下一次迭代的 $Q^{\pi}\left( s,a \right)$

动态规划强化学习的优点是计算准确且效率高，但无法适应无模型场景；蒙特卡洛强化学习的优点是克服无模型障碍，但有更新延迟现象。时序差分强化学习是动态规划与蒙特卡洛的折中

$\begin{aligned}Q^{\pi}\left( s_t,a_t \right) &\xlongequal{n\text{次增量}}Q^{\pi}\left( s_t,a_t \right) +\alpha \left( R_t-Q^{\pi}\left( s_t,a_t \right) \right) \\\,\, &\xlongequal{n\text{次增量}}Q^{\pi}\left( s_t,a_t \right) +\alpha \left( r_{t+1}+\gamma R_{t+1}-Q^{\pi}\left( s_t,a_t \right) \right) \\\,\, &\xlongequal{n\text{次增量}}{ \underset{\text{采样}}{\underbrace{Q^{\pi}\left( s_t,a_t \right) +\alpha \left( r_{t+1}+{ \gamma Q^{\pi}\left( s_{t+1},a_{t+1} \right) }-Q^{\pi}\left( s_t,a_t \right) \right) }}}\end{aligned}$

其中 $r_{t+1}+\gamma Q^{\pi}\left( s_{t+1},a_{t+1} \right) -Q^{\pi}\left( s_t,a_t \right)$ 称为时序差分误差。当时序差分法只使用一步实际奖赏时称为 $T D (0)$ 算法，扩展为 $T D (n)$ 算法，当 $n$ 充分大时退化为蒙特卡洛强化学习