《人工智能导论》知识思维导图梳理【第7章节】

文章目录

说明
专家系统
机器学习
- 机器学习定义
- 工作流程
- 模型评估
- 机器学习分类
- 在这里插入图片描述
机器学习部分md内容
机器学习
- 1 机器学习定义
- - 机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测
  - 机器学习（machine learning）使计算机能模拟人的学习行为，自动地通过学习来获取知识和技能，不断改善性能，实现自我完善
  - 一个学习系统一般由环境、学习、知识库、执行与评价四个基本部分组成
- 2 机器学习过程
- - 机器学习工作流程总结
- 3 机器学习分类
- - 按照学习方式分
  - 按照学习任务分
- 特征提取：将原始特征转换为一组具有明显物理意义或者统计意义或核的特征，特征提取会改变原来的特征空间。

说明

《人工智能导论》知识思维导图梳理【1~5章节
《人工智能导论》第七章知识思维导图梳理，本文整理相对重要的内容，助力快速复习和整体知识梳理。
这里由于是参考导论课程教材学习梳理，有关机器学习算法，并没有进行梳理

专家系统

在这里插入图片描述

机器学习

机器学习定义

在这里插入图片描述

工作流程

在这里插入图片描述

模型评估

在这里插入图片描述

机器学习分类

机器学习部分md内容

xmind的绘图使用以下的内容进行绘制，需要完善的同学可以直接拿去使用！

机器学习

1 机器学习定义

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测

机器学习（machine learning）使计算机能模拟人的学习行为，自动地通过学习来获取知识和技能，不断改善性能，实现自我完善

一个学习系统一般由环境、学习、知识库、执行与评价四个基本部分组成

2 机器学习过程

机器学习工作流程总结

1.获取数据
2.数据基本处理
3.特征工程
4.机器学习（模型训练）
5.模型评估

数据采集：爬虫、API、数据库
数据处理：数据清洗
特征工程
- 特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征
- 数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已
- 包括特征构建、特征提取、特征选择三个部分
  - 特征构建：指从原始数据中人工的找出一些具有物理意义的特征
  - 特征提取：通过映射（变换）的方法把高维的特征向量变换为低维的特征向量
  - 特征选择：从原始特征中挑选出一些最有代表性、分类性能好的特征以达到降低特征空间维数的目的
构建模型
- 1.建立训练数据集和测试数据集，通常80%为训练数据集。
- 1. 选择机器学习算法
  - 导入算法
  - 创建模型
  - 训练模型
模型调优
- 选择合适的算法对模型进行训练
- f(x)学习模型，泛化能力是指机器学习算法对新鲜样本的适应能力
模型评估
- 模型评估主要分为离线评估和在线评估两个阶段
- 模型评估指标
  - 准确率
    - 正确分类的样本数除以所有的样本数，通常来说，正确率越高，分类器越好
  - 精确率和召回率
    - 精确率
      - 正确分类的正样本个数/分类器判定为正样本的样本个数
    - 查准率和查全率是一对矛盾的度量。一般说查准率高时，查全率往往偏低，而查全率高时，查准率往往偏低
    - 召回率
      - 正确分类的正样本个数占真正的正样本数的比例
    - 例如：true这列表示正例或者负例，hyp这列表示阈值0.5的情况下，概率是否大于0.5。
      根据这个表格我们可以计算：TP=6，FN=0，FP=2，TN=2。故recall=6/(6+0)=1,
      precison=6/(6+2)=0.75，那么得出坐标（1，0.75）。同理得到不同阈下的坐标，即可绘制出曲线。
      - 若一个PR曲线被另一个PR曲线完全包住，则可断言后者的性能优于前者，如A曲线优于C曲线，如果两个曲线发生了交叉，如A和B曲线，则很难判断判断优劣，只能在具体的查准率或查全率条件下进行比较
      - “平衡点”（Break-Even Point，简称“BEF”）就是这样一个度量，它是查准率=查全率时的取值
- 模型评估方法
  - 交叉验证
    - 首先将全部样本划分成K个大小相等的样本子集，每个子集都尽可能保持数据分布的一致性，即从D中通过分层采样得到，然后每次用K-1个子集的并集作为训练集，余下的那个子集作为测试集，这样就可以获得K组训练集/测试集，从而可进行K次训练和测试，最终返回的是K个测试结果的均值。

3 机器学习分类

按照学习方式分

监督学习（根据数据标签存在与否）
- 监督学习
- 半监督学习
- 非监督学习
强化学习

按照学习任务分

分类
- 交叉验证法评估结果的稳定性和保真性在很大程度上取决于K的取值，为强调这一点，通常把交叉验证称为“K折交叉验证”，K的最常取值为10，称为10折交叉验证
- 分类是预测一个标签（是离散的），属于监督学习
回归
- 回归是预测一个数量（是连续的），属于监督学习
聚类
- 属于无监督学习（基于数据的内部结构寻找观察样本的自然族群（即集群）。使用案例包括细分客户、新闻聚类、文章推荐等。）