Proximal Policy Optimization (PPO)
一、Motivation
避免较多的策略更新。
- 根据经验,训练期间较小的策略更新更有可能收敛到最优解决方案。
- 在策略更新中,太大的一步可能会导致“掉下悬崖”(得到一个糟糕的策略),并且有很长时间甚至没有可能恢复。
所以在PPO中,我们保守地更新策略。为此,我们需要使用当前policy和前policy之间的比率计算来衡量当前政策与前政策相比发生了多少变化。我们把比率控制在[1-e,1+e],意味着我们移除当前policy与前policy太远的激励(因此称为近端政策术语)。