SAC算法 全称Soft Actor-Critic算法,为优化目标引入了熵约束项,增大了动作的探索性,避免陷入局部最优解,原论文 继承了Soft Q-Learning提出了Soft Policy Iteration,进而推导了Soft Actor-Critic参数更新时机:每走N步数,更新M次参数 算法伪代码