【简博士统计学习方法】3. 统计学习方法的三要素

3. 统计学习方法的三要素

3.1 监督学习的三要素

3.1.1 模型

假设空间（Hypothesis Space）：所有可能的条件概率分布或决策函数，用 $\mathcal{F}$ 表示。

若定义为决策函数的集合： $\mathcal{F}=\{f|Y=f(X)\}$ .
$\mathcal{F}$ 由一个参数向量决定的函数族构成： $\mathcal{F}=\{f|Y=f_{\theta}(X),\theta\in\mathbb{R}^n\}$ （ $n$ 维欧氏空间）.
所有可能的参数向量组成了参数空间 $\Theta=\{\theta|\theta\in\mathbb{R}^n\}$ .

【例】线性回归

实例： $x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T}$ .
决策函数： $f(x)=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)}+b$ .
向量形式： $\cdot x+b$ ，其中， $w=\left(w^{(1)}, w^{(2)}, \cdots, w^{(n)}\right)$ .

条件概率形式：

若定义为条件概率的集合： $\mathcal{F}=\{P|P(Y|X)\}$ .
$\mathcal{F}$ 由一个参数向量决定的条件概率分布族构成：
$\mathcal{F}=\{P|P_{\theta}(Y|X),\theta\in\mathbb{R}^n\}$

【注】 $\exp(f(x))$ 是指 $e^{f(x)}$ .

3.1.2 策略

如何在假设空间里选择一个最优的模型，就需要用到第二个要素，策略

3.1.2.1 概念

损失函数：度量模型一次预测的好坏，记作 $L (Y, f (X))$ .
风险函数：度量平均意义下模型预测的好坏。
$\begin{aligned} R_{\exp }(f) & =E_{P}[L(Y, f(X))] \\ & =\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) d x d y \end{aligned}$
exp代表的是期望的意思，R代表的是风险，此处风险函数就是对损失函数求了一下概率期望，联合分布 $P (X, Y)$ 并不是已知，所以选择下面的经验风险（估计值）来替代风险函数。所以这个沿着鬼笛卡尔积做曲线积分的这个式子根本不需要看懂，因为这玩意本身就是不能算出来的。
经验风险：模型 $f (X)$ 关于训练集的平均损失。
$R_{e m p}(f)=\frac{1}{N} \sum\limits_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
emp指的是经验，R指的是风险。

其中训练集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\}$

【注】数学期望：
数学期望可以看作是随机变量的加权平均，其中加权系数是相应事件发生的概率。

离散型随机变量的期望：
如果一个离散型随机变量 $X$ 具有可能取值 $x_1,x_2,\cdots,x_n$ ，且对应的概率分别为 $P(x_1),P(x_2),\cdots,P(x_n)$ ，那么 $X$ 的数学期望 $E (X)$ 由以下公式给出：
$E(X)=\sum\limits_{i=1}^{n} x_{i} P\left(x_{i}\right)$
其中， $x_i$ 是随机变量 $X$ 可能取的值， $P(x_i)$ 是 $X$ 取值 $x_i$ 的概率。
连续型随机变量的期望：
对于一个连续型随机变量 $X$ ，它的概率密度函数为 $f (x)$ ，则期望 $E (X)$ 定义为：
$E(X)=\int_{-\infty}^{\infty} x f(x) d x$
其中， $f (x)$ 是随机变量 $X$ 的概率密度函数，表示在某个区间内取值的概率密度。

3.1.2.2 四种常见的损失函数

0-1损失函数（0-1 Loss Function）
$f(X))=\left\{\begin{array}{ll} 1, & Y \neq f(X) \\ 0, & Y=f(X) \end{array}\right.$
0-1损失函数主要针对分类问题。当真实值 $Y$ 和预测值 $f (X)$ 不相等的时候取1，当真实值 $Y$ 和预测值 $f (X)$ 相等的时候取0。这也是一种示性函数，后面的朴素贝叶斯会用到这种损失函数。

【注】示性函数：示性函数，也叫做特征函数、指示函数，是一个数学函数，通常用于描述集合中元素是否满足某个特定性质。

平方损失函数（Quadratic Loss Function）
$L(Y, f(X))=(Y-f(X))^{2}$
平方损失函数主要针对回归问题，它度量真实值 $Y$ 与预测值 $f (X)$ 之间的距离。K邻近模型会用到这种函数。
绝对损失函数（Absolute Loss Function）
$L (Y, f (X)) = ∣ Y - f (X) ∣$
绝对损失函数主要针对回归问题，它度量真实值 $Y$ 与预测值 $f (X)$ 之间的距离。K邻近模型会用到这种函数。
对数损失函数（Logarithmic Loss Function）
$X))=-\log P(Y | X)$
对数损失函数主要针对概率模型，因为此处模型用的是条件概率分布的形式。它涉及到的模型是给定 $X$ 条件下 $Y$ 的条件概率分布，也就是用条件概率分布模型，所以对数损失函数针对概率模型。

3.1.2.3 风险最小化

根据大数定律，当 $N\to\infty$ 时，
$R_{\text {emp }}(f)=\frac{1}{N} \sum\limits_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \longrightarrow R_{\exp }(f)=E_{P}[L(Y, f(X))], \quad N \rightarrow \infty$ ，也就是当 $N\to\infty$ 时，经验损失趋近于风险函数。所以在一定程度上，用经验损失作为风险函数的估计值是合理的，但是在现实生活中样本容量 $N$ 一般是有限的，有的时候甚至会很小，所以仅仅用经验风险来估计风险函数效果并不理想，所以需要对其进行一定的矫正。

【注】大数定律：
大数定律是概率论中的一个重要定理，描述了在大量独立、同分布的随机试验中，随着试验次数的增加，样本均值会趋近于期望值。简单来说，就是随着实验次数的增加，实验结果的平均值越来越接近期望值。大数定律反映了“偶然性”对长期平均结果的影响逐渐减小。
大数定律主要有两种形式：弱大数定律和强大数定律。

弱大数定律（Weak Law of Large Numbers，WLLN）：
弱大数定律表明，随着独立同分布随机变量数量的增加，样本均值会以较高的概率收敛到期望值。具体来说，给定一组独立同分布的随机变量，其样本均值 $\bar{X}_{n}=\frac{1}{n} \sum\limits_{i=1}^{n} X_{i}$ 会以概率收敛于期望值 $\mu=E[X_i]$ ，即
$P\left(\lim\limits _{n \rightarrow \infty} \bar{X}_{n}=\mu\right)=1$
这意味着随着试验次数增加，样本均值会以高概率接近理论期望值。
强大数定律（Strong Law of Large Numbers，SLLN）：
强大数定律进一步加强了这一结果，它表明不仅样本均值几乎一定会收敛于期望值，而且这种收敛是几乎确定的，即在几乎所有的情况下，样本均值都会趋近于期望值。具体来说，给定独立同分布随机变量 $X_1,X_2,X_3,\cdots$ ，强大数定律表明：
$P\left(\lim _{n \rightarrow \infty} \bar{X}_{n}=\mu\right)=1$
这意味着在几乎所有的实验中，随着实验次数趋近于无穷大，样本均值会准确地收敛到期望值。

直观地说，大数定律的核心思想是：在重复实验的情况下，随着实验次数的增加，观察到的结果会趋向于理论预测的结果。这就像是抛硬币实验，当抛掷次数很少时，正面和反面的比例可能会偏离 50%，但随着投掷次数的增加，正面和反面的比例会趋近于 50%。

经验风险最小化：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
当样本容量 $N$ 足够大的时候，我们可以认为经验风险是风险函数的一个估计值，这时候只需要选取使经验风险最小的模型即可。
结构风险：
$R_{s r m}=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
当样本容量 $N$ 比较小的时候，仅仅使经验风险最小化，容易造成过拟合的现象（过拟合后面会讲到），于是引入结构风险概念，结构风险就是在经验风险的基础上加了一个惩罚项 $\lambda J(f)$ ，这个惩罚项是针对于模型的复杂度的 $J (f)$ ，模型越复杂 $J (f)$ 就越大，模型越简单 $J (f)$ 就越小，所以结构风险平衡了经验风险和模型的复杂度。
结构风险最小化：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
结构风险最小化则是选取一个使结构风险最小的模型。

关于监督学习的策略，追根究底就是选取一个目标函数，或者是经验风险，或者是结构风险，通过优化这个目标函数，达到一个学习模型的目的。

3.1.2.4 算法

算法：如何求解最优模型的问题；
若优化问题存在显式解析解，算法简易；
通常不存在解析解，需要数值计算方法，比如梯度下降法。

3.2 无监督学习的三要素

它处理的是无标记数据。

模型：函数 $z=g_{\theta}(x)$ ， $z$ 是来自于隐式结构空间（隐藏在数据中的统计分布），条件概率分布 $P_{\theta}(z|x)$ 或条件概率分布 $P_{\theta}(x|z)$ .（参数空间是所有可能的参数 $\theta$ ）
策略：优化目标函数。
算法：通常是迭代算法。

【注】参数空间：无监督学习中的参数空间是指模型可以探索的所有可能的参数组合。无论是在聚类、降维、特征学习等任务中，模型的超参数和训练过程中的设置都会定义一个参数空间。优化这个参数空间，选择合适的参数组合，是提升无监督学习模型性能的关键。大白话解释就是调参，比如K-means聚类的参数K或者深度学习模型的其他参数。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/503271.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！