【王树森】深度强化学习(DRL)课程笔记：P1 基本概念（含gym安装）

课程信息

课程主讲：王树森（史蒂文斯理工学院计算机科学系的终身制助理教授）
课程内容：基本概念、价值学习、策略学习、Actor-Critic方法、AlphaGo、Monte Carlo (蒙特卡洛)
课程资料：https://github.com/wangshusen/DRL

下载链接：https://pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb

B站搬运地址：https://www.bilibili.com/video/BV12o4y197US

数学基础

概率

概率密度函数（Probability Density Function,PDF）
在这里插入图片描述

期望（Expectation）
在这里插入图片描述

基本概念

属性

agent：操作主体，智能体

state：几个状态

action:执行动作

police:执行策略
在这里插入图片描述

反馈

Reward
在这里插入图片描述
Value Function评估函数

玩游戏

AI的目的就是学习 $\pi$ 函数或者 $Q$ 函数
在这里插入图片描述

gym的安装

gym官方网站：https://github.com/openai/gym
1.使用命令安装gym环境，安装所有环境

pip install gym[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

2.使用如下代码进行测试

import gym
env = gym.make("LunarLander-v2", render_mode="human")
env.action_space.seed(42)observation, info = env.reset(seed=42)for _ in range(1000):observation, reward, terminated, truncated, info = env.step(env.action_space.sample())if terminated or truncated:observation, info = env.reset()env.close()