什么是机器学习

机器学习是一种通过输入大量数据来构建一种模型（网络），这个训练好的模型将会被用来预测或执行某些操作，这个训练的过程和方法就是机器学习。

我们也可以理解为构建一个“函数”，使得这个函数面对我们的输入数据能够返回出某些结果，而寻找或者说构建这个函数的过程就是机器学习。

机器学习的基本知识

偏差：偏差度量了模型的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。偏差则表现为在特定分布上的适应能力，偏差越大越偏离真实值。

方差：方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。方差越大，说明数据分布越分散。

噪声：噪声表达了在当前任务上任何模型所能达到的泛化误差的下界，即刻画了学习问题本身的难度。
在这里插入图片描述
过拟合：指的是在训练数据集上表现良好，而在未知数据上表现差。

欠拟合：指的是模型没有很好地学习到数据特征，不能够很好地拟合数据，在训练数据和未知数据上表现都很差
在这里插入图片描述

为什么参数越小代表模型越简单

越复杂的模型，越是会尝试对所有的样本进行拟合，甚至包括一些异常样本点，这就容易造成在较小的区间里预测值产生较大的波动，这种较大的波动也反映了在这个区间里的导数很大，而只有较大的参数值才能产生较大的导数。因此复杂的模型，其参数值会比较大。因此参数越少代表模型越简单。

机器学习的方法分类

有监督学习

有监督学习就是通过标注好的数据集来进行训练，学习一个从输入变量X到输入变量Y的函数映射

训练数据通常是(n×x,y)的形式，其中n代表训练样本的大小，x和y分别是变量X和Y的样本值

有监督学习可大体分为两大类问题：分类，回归

分类：预测某一样本所属的类别。
回归：预测某一样本的所对应的实数输出。

分类任务是指在给定一组数据集合时，我们需要预测数据所属的类别或标签。例如，我们可以输入许多水果的图片和相应的标签，如苹果、香蕉或梨子，然后训练一个分类器，以便它能够在新的水果图片中识别出它所属的类别。通常情况下，分类任务的输出是离散值，如标签。

回归任务则是指在给定一组数据集合时，我们需要预测数据的数值。例如，我们可以输入一组房屋的特征，如面积、卧室数量、卫生间数量、地理位置等，然后训练一个回归器，以便它能够预测房价。通常情况下，回归任务的输出是连续值，如价格。

分类问题

1.决策树

在这里插入图片描述

决策树显然是一种树形结构，可以认为是if-then结构的集合，这种结构具有良好的可读性，缺点是过拟合。

训练时，利用训练数据，根据损失函数最小化的原则建立决策树模型。
预测时，直接利用模型进行分类或回归。

决策树训练通常包括3个步骤：特征选择、决策树生成以及修剪。

特征选择
在构建决策树的时候，最重要的一步是要决定需要选取的特征。通常来说，选取的特征要与最终的分类结果有一定的相关性，如果选取该特征后与随机分类的结果没有太大分布，这样的特征是无效的。

决策树生成CART（生成算法有很多如ID3,C4.5）
CART算法由Breiman等人在1984年提出，是一种构建决策树的方法。CART算法所生成的决策树都是二叉树。其算法主要分为生成树和剪枝两个过程，生成的时候树要尽量大而深，然后再通过剪枝在大树上生成一棵表现最好的子树。

修剪
由于在训练过程中树的深度过大，产生了过拟合。为了避免这种情况发生，在树生成之后，要对其进行剪枝处理，对于删除分类过细的叶节点，使其退化回其父节点，有望可以改善其过拟合的程度。

通常来讲，我们会先定义好损失函数，然后根据各个节点计算所得熵来决定剪枝。
在这里插入图片描述
当某个叶节点t中的各类样本分布越均匀，证明该节点的分类效果越差，得到的熵也就越大，因此该项可以表示决策树的分类误差。式中第二项是描述决策树的复杂度的，当决策树越复杂，叶节点也就越多，该项也就越大。

2.朴素贝叶斯(贝叶斯是基于贝叶斯概率理论的，请提前了解相关概率论知识)

利用Bayes定理来预测一个未知类别的样本属于某个类别的可能性
区别于knn，决策树，神经网络等很多其他方法的直接学习Y与X之间额F(x)关系，贝叶斯采用的是生成方法。

优点：在数据较少的情况下仍然有效，可以处理多类别问题。

缺点：对于输入数据的准备方式较为敏感。
适用数据类型：标称型数据

先验概率P(X)： 先验概率是指根据以往经验和分析得到的概率。

后验概率P(Y|X)： 事情已发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，后验分布P(Y|X)表示事件X已经发生的前提下，事件Y发生的概率，称事件X发生下事件Y的条件概率。

后验概率P(X|Y)： 在已知Y发生后X的条件概率，也由于知道Y的取值而被称为X的后验概率。

朴素： 朴素贝叶斯算法是假设各个特征之间相互独立，也是朴素这词的意思，那么贝叶斯公式中的P(X|Y)可写成：

例：

图中给出了weather和player(列省略)对应的play状态，
比如第一个选手在sunny day的时候会选择no play
请根据已有信息，推断天气味sunny的时候某一未知选手的paly状态

显然如下

朴素贝叶斯公式：

$P(Y|X) = \frac{P(x_1|Y)P(x_2|Y)\cdot \cdot \cdot P(x_n|Y)P(Y)}{P(X)}$
朴素贝叶斯分类器： 朴素贝叶斯分类器(Naïve Bayes Classifier)采用了“属性条件独立性假设” ，即每个属性独立地对分类结果发生影响。为方便公式标记，不妨记P(C=c|X=x)为P(c|x)，基于属性条件独立性假设，贝叶斯公式可重写为：

朴素贝叶斯分类器的训练器的训练过程就是基于训练集D估计类先验概率P(C）,并为每个属性估计条件概率 P（xi|c），令Dc表示训练集D中第c类样本组合的集合，则类先验概率：