【机器学习】第1章概述

一、概念

1.机器学习是一种通过先验信息来提升模型能力的方式。

即从数据中产生“模型”( model )的算法，然后对新的数据集进行预测。

2.数据集（Dataset）：所有数据的集合称为数据集。

训练集：用来训练出一个适合模型的，相当于人预习用的数据集。

验证集：相当于游戏的内测玩家。

测试集：用来测试训练的模型对不对的数据集。

3.样本（Sample）：数据集中每条记录称为样本。

4.属性（Attribute）或特征（Feature）：每个样本在某方面的表现或性质。

5.特征向量（Feature Vector）：每个样本的特征对应的特征空间中的一个坐标向量。

6.分类（Classification）：使用计算机学习出的模型进行预测得到的是离散值。

（1）人话：你是人，他是狗。

（2）有二分类和多分类之分。

7.回归（Regression）：使用计算机学习出的模型进行预测得到的是连续值。

8.聚类（Clustering）：对无标签样本的相似度进行度量，挖掘特征、结构、内在性质，使类内相似度大，类间相似度小。

（1）人话：物以类聚，一样的放一块。

（2）与分类的区别：

a.分类是有监督，聚类是无监督（更diao）

b.聚类只要求相似度高的放一块，而分类则要求分到预定义的类别或标签。

9.输出结果（预测值）与其对应的真实值之间往往会存在一定的差异，这种差异被称为模型的输出误差，简称为误差。

（1）人话：误差=预测值-真实值（正负先不管）

（2）分三种：

a.训练误差或称经验风险——指模型在训练样本集上的整体误差

b.测试误差——模型在测试样本集上的整体误差

c.泛化误差——测试集的泛化能力，泛化就是举一反三，就是白人是人，黑人也是人。

10.泛化能力：

（1）过拟合：就是过度拟合，猿猴不是人，但是非得说是人。

（2）欠拟合：就是不拟合，黑人是人，但是非得说黑人不算人。

11.机器学习的分类

（1）监督学习：人为干涉让模型更完美

分类：逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测：线性回归、KNN、梯度提升（Gradient Boosting）、迭代算法（AbaBoost）

（2）非监督式学习：不管机器，让他自己来

典型例子：聚类算法

（3）半监督学习：人为干涉一点点，大部分让机器来，这是三者中最晚诞生的，自己掂量掂量。

（4）强化学习：与环境建立联系，然后各个动作产生的结果进行反馈（奖励或惩罚）。

12.机器学习的步骤：

数据收集+预处理（数据清洗）—— 特征选择+模型构建 —— 评估+测试

（1）模型构建的相关过程：

a. 建立训练数据集和测试数据集，通常80%为训练数据集。

b. 选择机器学习算法

c. 模型调优

d. 模型融合

二、习题

单选题：

1.构建一个完整的机器学习算法需要三个方面的要素，分别是数据、模型和（D ）。

A、评估 B、验证 C、训练和验证 D、性能度量准则

3. 以下属于典型的监督学习的是（C ）

A、聚类 B、关联分析 C、分类 D、降维

4. （A ）是指机器学习算法对新鲜样本的适应能力。

A、泛化能力 B、测试能力 C、识别能力 D、训练能力

5. 欠拟合是指（C ）

A、在训练集表现非常好，但在测试集上表现很差

B、在训练集表现非常好，但在测试集上表现也非常好

C、在训练集表现非常差，但在测试集上表现很差

D、在训练集表现非常差，但在测试集上表现非常好

6. 如果我使用训练集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明（B ）

A、欠拟合 B、过拟合 C、模型很棒 D、模型不确定

18. 以下属于典型的无监督学习的是（C ）

A、支持向量机

B、k-近邻算法

C、降维

D、逻辑回归

19. 下列关于过拟合的说法错误的是（A ）。

A、模型的训练误差比较高，则称此分类模型过拟合。

B、可以通过选取具有代表性样本的训练样本集来解决过拟合问题。

C、模型的训练误差低但是泛化误差比较高，则称此分类模型过拟合。

D、可以通过预剪枝，避免决策树规模过大产生过拟合。

多选题：

1. 根据样本集合中是否包含标签以及半包含标签的多少，可以将机器学习分为（ABD ）

A、监督学习 B、无监督学习 C、迁移学习 D、半监督学习

2. 以下属于解决模型过拟合的方法的是（ABD ）

A、增加训练数据量 B、对模型进行裁剪 C、增加训练过程的迭代次数 D、正则化

3. 聚类的宗旨是（BD ）

A、类内距离最大化 B、类间距离最大化 C、类间距离最小化 D、类内距离最小化

6. 机器学习中，通常将数据集划分为（ABC ）

A、训练集 B、验证集 C、测试集 D、对照集

判断题：

1. 根据模型预测输出的连续性，可以将机器学习算法适配的问题划分为分类问题和线性问题。（F ）

答：回归

2. 降维、聚类是无监督学习算法。（T ）

3. 当我们说模型训练结果过拟合的时候，意思是模型的泛化能力很强（F ）

答：弱

4. 训练误差和泛化误差之间的差异越小，说明模型的泛化性能越好。（T ）

17. 特征提取是指对现有特征进行重新组合产生新的特征，例如相对于年龄,出生年月就是冗余特征。（F ）

答：从原始数据中抽取出新的特征

19. 聚类的目的是对样本集合进行自动分类，以发掘数据中隐藏的信息、结构，从而发现可能的商业价值。 (T )