基于“蘑菇书”的强化学习知识点（五）：条件期望

条件期望

- 摘要
- 一、条件期望的定义
- 二、条件期望的关键性质
- 三、条件期望的直观理解
- 四、条件期望的应用场景
- 五、简单例子
- - 离散情况
  - 连续情况

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！

对应蘑菇书EasyRL——2.2.2 贝尔曼方程

条件期望 是概率论中的一个核心概念，表示在给定某个条件的情况下，随机变量的期望值。条件期望不仅是一个数值，还可能是另一个随机变量。下面是条件期望的定义和具体解释。

一、条件期望的定义

对于两个随机变量 $X$ 和 $Y$ ：

离散情况：
如果 $X$ 和 $Y$ 是离散随机变量，则 $X$ 在给定 $Y = y$ 的条件下的条件期望定义为：
$\mathbb{E}[X \mid Y=y] = \sum_x x \cdot P(X=x \mid Y=y).$
- $\mid Y=y)$ 是条件概率，表示在 $Y = y$ 的情况下， $X = x$ 的概率。
- $\mathbb{E}[X \mid Y=y]$ 是一个数，表示在 $Y = y$ 时，随机变量 $X$ 的期望值。
连续情况：
如果 $X$ 和 $Y$ 是连续随机变量，则 $X$ 在给定 $Y = y$ 的条件下的条件期望定义为：
$\mathbb{E}[X \mid Y=y] = \int_{-\infty}^{+\infty} x \cdot f_{X \mid Y}(x \mid y) \, dx,$
- $f_{X \mid Y}(x \mid y)$ 是条件概率密度函数。
- 该积分表示在 $Y = y$ 的条件下，随机变量 $X$ 的加权平均值。
随机变量形式：
当 $Y$ 不是固定值，而是一个随机变量时，条件期望 $\mathbb{E}[X \mid Y]$ 被看作是一个关于 $Y$ 的新随机变量，其值依赖于 $Y$ 。

直观来说， $\mathbb{E}[X \mid Y]$ 表示在已知 $Y$ 的情况下， $X$ 的期望值。它是一个函数：
$\mathbb{E}[X \mid Y] = g(Y),$
其中 (g(Y)) 是某个由 (Y) 确定的函数。

二、条件期望的关键性质

期望的分解（全期望公式）：
$\mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]].$
这是条件期望最重要的性质，表明我们可以通过先计算条件期望，再对条件变量 $Y$ 求期望，得到整体期望。
线性性：
条件期望是线性的：
$\mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z],$
其中 $a$ 和 $b$ 是常数。
塔式性质（Law of Iterated Expectations）：
如果 $X$ 、 $Y$ 、 $Z$ 是随机变量，且 $Z$ 包含的条件比 $Y$ 多，那么：
$\mathbb{E}[\mathbb{E}[X \mid Y] \mid Z] = \mathbb{E}[X \mid Z].$
条件期望约简：
如果 $X$ 与 $Y$ 条件独立于 $Z$ ，则：
$\mathbb{E}[X \mid Y, Z] = \mathbb{E}[X \mid Y].$

三、条件期望的直观理解

条件期望可以理解为在给定条件（如随机变量 $Y = y$ ）下，随机变量 $X$ 的“平均值”。

假设你有一个测量身高 $X$ 和年龄 $Y$ 的数据集。你想知道“给定某个年龄 $Y = y$ ，对应的平均身高是多少”。这个问题的答案就是条件期望 $\mathbb{E}[X \mid Y=y]$ 。
如果 $Y$ 是随机变量而不是固定值，比如不同年龄的分布未知，那么条件期望 $\mathbb{E}[X \mid Y]$ 是一个关于 $Y$ 的函数，用于描述不同年龄对应的平均身高。

四、条件期望的应用场景

强化学习：
在强化学习中，条件期望用于计算值函数（Value Function）和 Q 函数。例如，状态值函数 $V (s)$ 是一个条件期望：
$\mathbb{E}[R_t + \gamma V(S_{t+1}) \mid S_t=s].$
保险精算：
条件期望被用于计算在给定信息下的风险和保费。例如，给定过去的索赔记录，计算未来可能的平均赔偿额。
金融：
在期权定价和投资组合分析中，条件期望用于分析在给定市场条件下资产的期望收益。

五、简单例子

离散情况

假设 $X$ 表示某人某天吃的苹果数， $Y$ 表示当天的天气。我们有以下概率分布：

$P(Y=\text{晴天}) = 0.6$ ， $P(Y=\text{雨天}) = 0.4$ 。
如果是晴天， $\mid Y=\text{晴天}) = 0.3$ ， $\mid Y=\text{晴天}) = 0.7$ 。
如果是雨天， $\mid Y=\text{雨天}) = 0.8$ ， $\mid Y=\text{雨天}) = 0.2$ 。

求条件期望 $\mathbb{E}[X \mid Y=\text{晴天}]$ 和 $\mathbb{E}[X \mid Y=\text{雨天}]$ 。

解：
$\mathbb{E}[X \mid Y=\text{晴天}] = 1 \cdot 0.3 + 2 \cdot 0.7 = 0.3 + 1.4 = 1.7.$
$\mathbb{E}[X \mid Y=\text{雨天}] = 1 \cdot 0.8 + 2 \cdot 0.2 = 0.8 + 0.4 = 1.2.$

连续情况

假设 $X$ 表示一个股票的价格变化， $Y$ 表示市场波动程度。已知：

$f_{X \mid Y}(x \mid y) = y \cdot e^{-yx}$ （指数分布， $\geq 0$ ）。
给定 $Y = y$ ，随机变量 $X$ 的条件期望为：
$\mathbb{E}[X \mid Y=y] = \int_0^\infty x \cdot y \cdot e^{-yx} \, dx.$