机器学习基础

泛化误差

偏差和方差

噪声

生成模型和判别模型

正态分布（Normal Distribution）

超参数选择

Grid Search 网格搜索

Random Search 随机搜索

Hyperopt

Hyperas

参数估计方法对比

MLE 最大似然估计

MAP最大后验估计

贝叶斯估计

距离度量方法

欧氏距离

余弦距离

闵可夫斯基距离（明氏距离）

马氏距离

互信息

皮尔逊相关系数

Jaccard相关系数

曼哈顿距离

熵

自信息

信息熵

联合信息熵

条件熵

交叉熵

相对熵（KL散度）

互信息（信息增益与其相同）

信息增益率

基尼系数

混淆矩阵

模型度量指标

准确率Accuracy

精确度 Precision（查准率）

召回率Recall（查全率）

F1值

mAP（mean Average Precision）

如何处理数据中的缺失值

完整的机器学习项目流程

数据清洗与特征处理

数据清洗

特征处理 (概括了PCA和LDA和t-SNE)

***自用复习材料，开放原因是方便大家一同学习，同时哪里出错麻烦大家矫正，若有侵权很抱歉，请及时联系我，谢谢理解！

泛化误差

英文名字：generalization error，也叫out-of-sample error或risk。

定义：一种衡量算法对以前未见过的数据预测结果的准确度的度量，一般是训练数据集的损失与一般化的数据集的损失之间的差异。

由于模型是基于有限样本进行训练的，对模型的评估一定会受到采样误差的影响，也就是当前数据的预测误差和真实误差之间是存在差异的。

在监督学习中，模型的泛化误差可以分解为：偏差、方差和噪声之和：

“偏差-方差分解”表明模型的泛化能力是由算法的能力、数据的充分性、任务本身的难度共同决定的。

偏差和方差

偏差和方差是衡量模型泛化误差的两个方面：

偏差（Bias）：
- Bias是用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。模型预测的期望值和真实值之间的差；
- 描述模型的拟合能力；
- 产生原因：对学习算法做了错误的假设或者模型复杂度不够；
- 体现：在训练误差上体现。
- 计算公式：，其中是模型的期望预测，y是真实结果。度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。

模型的期望预测是什么？

在概率论中，期望值是对随机变量所有可能取值的加权平均，权重为对应的概率。对于离散随机变量，期望值的计算公式为：。

在分割任务中，模型的输出通常是每个像素属于每个类别的概率分布。假设有 num_classes 个类别，模型输出的概率分布为：，代表像素i属于类别c的概率。为了计算每个像素的期望预测，我们需要将类别标签（通常是整数）与对应的概率相乘，然后求和。计算公式如下：

方差（Variance）：
- 不同模型预测的期望值和预测值之间的差平方和；
- 是不同的训练数据集训练出的模型输出值之间的差异；
- 描述模型的稳定性；
- 产生原因：模型复杂度对于训练集过高；
- 体现：体现在测试误差相对于训练误差的增量上。
- 计算公式：。度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响（模型的稳定性）。

神经网络较为复杂，因此，拟合能力相对较强，因此，通常其训练误差（偏差）会相对较小，单由于其过强的拟合能力，导致其测试误差（泛化误差）会增大。

偏差和方差的关系和模型容量（模型复杂度）、欠拟合和过拟合的概念紧密相联：

当模型的容量增大（x 轴）时，偏差（用点表示）随之减小，而方差（虚线）随之增大。
沿着 x 轴存在最佳容量，小于最佳容量会呈现欠拟合，大于最佳容量会导致过拟合。

噪声

表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。