文章目录 什么是 PPO(Proximal Policy Optimization,近端策略优化)?PPO 简介PPO 算法流程PPO 的数学公式PPO 算法原理如何在实际应用中使用PPO算法?什么是近端优化?怎样进行近端优化的?什么是 KL 散度?ppo2.py 什么是 PPO(Proximal Policy Optimization,近端策略优化)? 论文:https://arxiv.org/abs/1707.06347 提出了一系列用于强化学习的新策略梯度方法,它们通过与环境的交互在采样数据和使用随机梯度上升优化“代理”