李宏毅-深度强化学习-入门笔记:Actor-Critic
- 一、深度强化学习简介
- 二、Policy-based 方法
- (一)学习一个 Actor
- (二)Deep Learning 的 3 个步骤
- 1. 确定 Function:作为 Actor 的神经网络
- 2. 确定 Actor 的好坏
- 3. 选择最好的 Actor
- 三、Value-based 方法
- (一)学习一个 Critic
- (二)3 种 Critic
- (三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)
- 四、 Actor-Critic
网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/
一、深度强化学习简介
RL分类:Policy-based、Value-based
model-based 需要对未来世界有一定理解,知道未来可能会发生什么事
二、Policy-based 方法
(一)学习一个 Actor
Machine Learning 的任务是找一个 Function, RL 也是找一个称为 Actor 的 Function。
(二)Deep Learning 的 3 个步骤
1. 确定 Function:作为 Actor 的神经网络
NN 的输入:表示机器观测的一个向量或矩阵
NN 的输出:在输出层与动作相关的神经元
2. 确定 Actor 的好坏
3. 选择最好的 Actor
(1)梯度下降
(2)增加一个 baseline
三、Value-based 方法
(一)学习一个 Critic
Critic 不确定 Actor
给定一个 Actor,Critic 可以评估 Actor 有多好
(二)3 种 Critic
(三)如何评估 V π ( s ) V^{\pi}(s) Vπ(s)
四、 Actor-Critic