【机器学习笔记】机器学习基本概念

机器学习基本概念

文章目录

  • 机器学习基本概念
    • 1 概述
    • 2 机器学习实验方法与原则
      • 2.1 平均指标
    • 2.2 训练集、验证集与测试集
    • 2.3 随机重复实验
    • 2.4 K折交叉验证
    • 2.4 统计有效性检验

1 概述

  1. 什么是机器学习 —— 在某种任务上基于经验不断进步

    T (Task):需要解决什么任务

    P(Performance):任务确定什么指标

    E(Experience):通过什么经验学习进步

  2. 归纳学习假设

    任一假设若在足够大训练样例集很好地逼近目标函数, 它也能在未见实例中很好地逼近目标函数

  3. 通用机器学习系统设计

    • 用于训练的经验——数据、训练过程、特征(训练数据偏差)

    • 到底应该学什么——目标函数:正确 vs 可行(假设

    • 应该如何表示——函数类型必须依据表达能力仔细选取

    • 具体用什么算法去学习——最小均方误差、梯度下降法

    • 综合设计——数据→特征表示→算法→评价

      image-20240122215205128

  4. 基本概念

    • 实例空间(Instance Space) X:例:每一天由一些属性描述 天空,空气温度,湿度,风,水,预报

    • 假设空间(Hypothesis Space) H:例:一个假设 if (温度 = 寒冷 AND 湿度 = 高) then 打网球 = 否

    • 训练样例空间(Sample Space) D:正例和负例 (基于问题设定)<x1,c(x1)> ,……, <xm,c(xm)>

    • 目标概念(Target Concept) C:假设 h ∈ H h∈H hH,求 $ h(x)=c(x)for;all;x∈X $

      全部x的实例空间太大,换成$ h(x)=c(x)for;all;x∈D $

  5. 有监督和无监督学习

    有监督无监督
    训练样例(X,Y)对,通常包含人为的努力仅 X ,通常不涉及人力
    学习目标学习 X 和 Y 的关系学习 X 的结构
    效果衡量损失函数
    应用预测: X=输入, Y=输出分析: X=输入

2 机器学习实验方法与原则

2.1 平均指标

  1. 回归任务:预测值 p i p_i pi 常为连续值,需要衡量与真实值 y i y_i yi 之间的误差

    • 平均绝对误差(MAE)
      M A E = 1 n ∑ i = 1 n ∣ y i − p i ∣ MAE=\frac {1} {n}\sum_{i=1}^{n} {|y_i-p_i|} MAE=n1i=1nyipi

    • 均方误差(MSE):预测误差较大的样本影响更大
      M S E = 1 n ∑ i = 1 n ( y i − p i ) 2 MSE=\frac {1} {n}\sum_{i=1}^{n} {(y_i-p_i)^2} MSE=n1i=1n(yipi)2

    • 均方根误差(RMSE):与预测值、标签单位相同
      R M S E = M S E = 1 n ∑ i = 1 n ( y i − p i ) 2 RMSE=\sqrt{MSE}=\sqrt{\frac {1} {n}\sum_{i=1}^{n} {(y_i-p_i)^2}} RMSE=MSE =n1i=1n(yipi)2

  2. 分类任务:预测值一般为离散的类别,需要判断是否等于真实类别

    • 准确率(Accuracy)
      A c c u r a c y = 1 n ∑ i = 1 n ( y i = p i ) Accuracy=\frac {1} {n}\sum_{i=1}^{n} {(y_i=p_i)} Accuracy=n1i=1n(yi=pi)

    • 错误率(Error Rate)
      E r r o r R a t e = 1 − A c c u r a c y = 1 − 1 n ∑ i = 1 n ( y i = p i ) Error\,Rate = 1-Accuracy=1-\frac {1} {n}\sum_{i=1}^{n} {(y_i=p_i)} ErrorRate=1Accuracy=1n1i=1n(yi=pi)

      以下为针对二分类任务的评价指标

      image-20240122230828785.png

    • 精度(Precision):预测为正例的样本中有多少确为正例
      P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP+FP} Precision=TP+FPTP

    • 召回率(Recall):找到的真实正例占所有正例中的比例
      R e c a l l = T P T P + F N Recall = \frac{TP}{TP+FN} Recall=TP+FNTP

    • 加权调和平均 F β F_\beta Fβ​:
      F β = 1 / [ 1 1 + β 2 ( 1 P + β 2 R ) ] F 1 = 2 P R P + R F_\beta=1/[\frac{1}{1+\beta ^2}(\frac{1}{P}+\frac{\beta^2}{R})]\\ F_1=\frac{2PR}{P+R} Fβ=1/[1+β21(P1+Rβ2)]F1=P+R2PR

    • ROC曲线:表示在不同阈值下模型的真阳性率(TPR)和假阳性率(FPR)之间的关系。

      image-20240122232003344

      • 根据预测值对样本排序
      • 以该样本的预测值为阈值
      • 大于或等于阈值记正例,否则记负例可得到一组结果及评价指标,共有样本数n组结果
      • 假正例率(False Positive Rate,FPR)为横轴
      • 真正例率(True Positive Rate,TPR,也即召回率)为纵轴
    • AUC(Area Under ROC Curve):ROC曲线下的面积,越大越好

      • 把测试样例以预测值从大到小排序,其中有n1个真实正例,n0个真实负例
      • r i r_i ri 为第 i i i 个真实负例的秩(排序位置), S 0 = ∑ r i S_0=\sum r_i S0=ri

      A U C = S 0 − n 0 ( n 0 + 1 ) / 2 n 0 N 1 AUC=\frac{S_0-n_0(n_0+1)/2}{n_0N_1} AUC=n0N1S0n0(n0+1)/2

      image-20240122233627200

  3. 特定任务:

    • 个性化推荐:前K项精度(Precision@K)、前K项召回率(Recall@K)、前K项 命中率(Hit@K)等

    • 对话系统:BLEU、ROUGE、METEOR等

    • DCG(Discounted Cumulative Gain):DCG 是对一个特定位次p的累积增益(Cumulative)

2.2 训练集、验证集与测试集

  1. 训练集:模型可见样本标签,用于训练模型,样本数有限
  2. 测试集:用于评估模型在可能出现的未见样本上的表现
  3. 验证集:从训练集中额外分出的集合,一般用于超参数的调整(防止过拟合

image-20240122234843100

2.3 随机重复实验

  1. 数据随机性:由数据集划分带来的评价指标波动
    • (数据足够多时)增多测试样本
    • (数据量有限时)重复多次划分数据集
  2. 模型随机性:由模型或学习算法本身带来的评价指标波动
    • 更改随机种子重复训练、测试
  3. 报告结果:评价指标的均值 X ˉ = 1 n ∑ i = 1 n X i \bar X=\frac{1}{n}\sum_{i=1}^{n}X_i Xˉ=n1i=1nXi
    • 样本标准差(个体离散程度,反映了个体对样本均值的代表性) S = ∑ i = 1 n ( X i − X ˉ ) 2 / ( n − 1 ) S=\sqrt{\sum_{i=1}^{n}(X_i-\bar X)^2/(n-1)} S=i=1n(XiXˉ)2/(n1)
    • 标准误差(样本均值的离散程度,反映了样本均值对总体均值的代表性) S E M = S n SEM=\frac{S}{\sqrt{n}} SEM=n S

注意:保持每次得到的评价指标独立同分布(iid)

2.4 K折交叉验证

​ 随机把数据集分成K个相等大小的不相交子集,K一般取5、10

image-20240122235825060

  • 优点:数据利用率高,适用于数据较少时
  • 缺点:训练集互相有交集,每一轮之间并不满足独立同分布
  • 增大K,一般情况下:
    • 所估计的模型效果偏差(bias)下降
    • 所估计的模型效果方差(variance)上升
    • 计算代价上升,更多轮次、训练集更大

2.4 统计有效性检验

  1. 抽样理论基础

    二项分布:描述了在n次次独立的伯努利试验中,成功的次数的离散情况。

    伯努利试验:成功概率: p,失败概率: q =1-p;n次试验中正好得到r次成功的概率为P®。
    P ( r ) = C n r p r ( 1 − p ) n − r = n ! r ! ( n − r ) ! p r ( 1 − p ) n − r P(r)=C_n^rp^r(1-p)^{n-r}=\frac{n!}{r!(n-r)!}p^r(1-p)^{n-r} P(r)=Cnrpr(1p)nr=r!(nr)!n!pr(1p)nr
    image-20240125204758756

  2. 效果估计

    给定一个假设在有限量数据上的准确率,该准确率是否能准确估计在其它未见数据上的效果?

    n 个随机样本中有 r 个被误分类的概率——二项分布(样本的错误率=真实的错误率)
    真实错误率 e r r o r D ( h ) = p , 样本错误率 e r r o r S ( h ) = r / n E [ r ] = n p , E [ e r r o r S ( h ) ] = E [ r / n ] = p = e r r o r D ( h ) σ e r r o r S ( h ) = σ r n ≈ e r r o r S ( h ) ( 1 − e r r o r S ( h ) ) n 真实错误率error_D(h)=p,样本错误率error_S(h)=r/n\\ E[r]=np,E[error_S(h)]=E[r/n]=p=error_D(h)\\ σ_{error_S(h)}=\frac{σ_r}{n}≈\sqrt{\frac{error_S(h)(1-error_S(h))}{n}} 真实错误率errorD(h)=p,样本错误率errorS(h)=r/nE[r]=np,E[errorS(h)]=E[r/n]=p=errorD(h)σerrorS(h)=nσrnerrorS(h)(1errorS(h))
    样本期望值=真实期望值;样本方差值 ≈ 真实方差值

    • 估计**偏差 (Bias)**

      如果 S 是训练集, e r r o r S ( h ) error_S (h) errorS(h) 是有偏差的,bias指样本错误率的期望真实错误率的差值
      bias = E [ error S ( h ) ] − error D ( h ) \text{bias}=E[\text{error}_S(h)]-\text{error}_D(h) bias=E[errorS(h)]errorD(h)
      对于无偏估计(bias =0), h(训练集模型)和 S(测试集)必须独立不相关地产生——不要在训练集上测试!

    • 估计**方差 (Varias)**

      即使是S 的无偏估计, e r r o r S ( h ) error_S (h) errorS(h) 可能仍然和 e r r o r D ( h ) error_D (h) errorD(h) 不同,例:n=100,r=12;n=25,r=3错误率都为12%,但是方差分别为3.2%,6.5%

      需要选择无偏的且有最小方差的估计

  3. 置信区间——准确率的估计可能包含多少错误?

    定义:参数p 的N %置信区间是一个以N %的概率包含p 的区间, N% : 置信度

    90.0%的置信度 ,年龄:[12, 24]

    99.9%的置信度,年龄:[3, 60]

    • 如何得到置信区间?——通过正态分布的某个区间 (面积)来获得

      image-20240125213425919

      均值 μ μ μ有N%的可能性落在区间 y ± Z N σ y±Z_Nσ y±ZNσ

    • 中心极限定理——当样本量足够大时,二项分布可以用正态分布来近似

      经验法则: n > 30 , n p ( 1 − p ) > 5 n>30, np(1-p)> 5 n>30,np(1p)>5

      问题设定:

      a. 独立同分布的随机变量 Y 1 , . . . , Y n Y_1,...,Y_n Y1,...,Yn

      b. 未知分布,有均值 μ \mu μ和有限方差 σ 2 \sigma^2 σ2

      c. 估计均值为 Y ˉ = 1 n ∑ i = 1 n Y i \bar Y=\frac{1}{n}\sum_{i=1}^nY_i Yˉ=n1i=1nYi,服从正态分布

      若S 包含 n >= 30个样本, 与h独立产生,且每个样本独立采样,则真实错误率 e r r o r D error_D errorD落在以下区间有N% 置信度:
      e r r o r S ( h ) ± z N e r r o r S ( h ) ( 1 − e r r o r S ( h ) ) n error_S(h)±z_N\sqrt{\frac{error_S(h)(1-error_S(h))}{n}} errorS(h)±zNnerrorS(h)(1errorS(h))

  4. 假设检验

    比较两个样本或一个样本和一个常数的均值差异是否显著

    • z检验

      Z检验通常用于大样本(样本容量大于30)或已知总体标准差的情况。Z值的计算方式为:

      Z = X ˉ − μ σ n Z = \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} Z=n σXˉμ

      • X ˉ \bar{X} Xˉ 是样本均值。
      • μ \mu μ是总体均值。
      • σ \sigma σ是总体标准差。
      • n n n 是样本容量。

      一般用于单次评测,随机变量为每个测试样本的对错

    • t检验

      t检验适用于小样本(样本容量小于30)或总体标准差未知的情况。t值的计算方式为:
      t = X ˉ − μ s n t = \frac{\bar{X} - \mu}{\frac{s}{\sqrt{n}}} t=n sXˉμ

      • X ˉ \bar{X} Xˉ 是样本均值。
      • μ \mu μ是总体均值。
      • s s s是样本标准差。
      • n n n 是样本容量。

      一般用于多次评测如重复实验,随机变量为每次测试集上的指标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/254189.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLaMA 模型中的Transformer架构变化

目录 1. 前置层归一化&#xff08;Pre-normalization&#xff09; 2. RMSNorm 归一化函数 3. SwiGLU 激活函数 4. 旋转位置嵌入&#xff08;RoPE&#xff09; 5. 注意力机制优化 6. Group Query Attention 7. 模型规模和训练超参数 8. 分布式模型训练 前置归一化与后置…

改进神经网络

Improve NN 文章目录 Improve NNtrain/dev/test setBias/Variancebasic recipeRegularizationLogistic RegressionNeural networkother ways optimization problemNormalizing inputsvanishing/exploding gradientsweight initializegradient checkNumerical approximationgrad…

设计模式-行为型模式(下)

1.访问者模式 访问者模式在实际开发中使用的非常少,因为它比较难以实现并且应用该模式肯能会导致代码的可读性变差,可维护性变差,在没有特别必要的情况下,不建议使用访问者模式. 访问者模式(Visitor Pattern) 的原始定义是&#xff1a; 允许在运行时将一个或多个操作应用于一…

【华为云】云上两地三中心实践实操

写在前面 应用上云之后&#xff0c;如何进行数据可靠性以及业务连续性的保障是非常关键的&#xff0c;通过华为云云上两地三中心方案了解相关方案认证地址&#xff1a;https://connect.huaweicloud.com/courses/learn/course-v1:HuaweiXCBUCNXI057Self-paced/about当前内容为华…

react将选中文本自动滑动到容器可视区域内

// 自动滚动到可视区域内useEffect(() > {const target ref;const wrapper wrapperRef?.current;if (target && wrapperRef) {const rect target.getBoundingClientRect();const wrapperRect wrapper.getBoundingClientRect();const isVisible rect.bottom &l…

2. Maven 继承与聚合

目录 2. 2.1 继承 2.2继承关系 2.2.1 思路分析 2.2.2 实现 2.1.2 版本锁定 2.1.2.1 场景 2.1.2.2 介绍 2.1.2.3 实现 2.1.2.4 属性配置 2.2 聚合 2.2.1 介绍 2.2.2 实现 2.3 继承与聚合对比 maven1&#xff1a;分模块设计开发 2. 在项目分模块开发之后啊&#x…

查大数据检测到风险等级太高是怎么回事?

随着金融风控越来越多元化&#xff0c;大数据作为新兴的技术被运用到贷前风控中去了&#xff0c;不少人也了解过自己的大数据&#xff0c;但是由于相关知识不足&#xff0c;看不懂报告&#xff0c;在常见的问题中&#xff0c;大数据检测到风险等级太高是怎么回事呢?小易大数据…

吉他学习:C大调第一把位音阶,四四拍曲目练习 小星星

第十三课 C大调第一把位音阶https://m.lizhiweike.com/lecture2/29364198 第十四课 四四拍曲目练习 小星星https://m.lizhiweike.com/lecture2/29364131 C大调第一把位音阶非常重要,可以多练习&#

游戏视频录制软件推荐,打造专业电竞视频(3款)

随着游戏产业的快速发展&#xff0c;越来越多的玩家开始关注游戏视频录制软件。一款好的录制软件不仅可以帮助玩家记录游戏中的精彩瞬间&#xff0c;还可以让其与他人分享自己的游戏体验。接下来&#xff0c;我们将介绍三款热门的游戏视频录制软件&#xff0c;并对其进行详细的…

【Git】05 分离头指针

文章目录 一、分离头指针二、创建分支三、比较commit内容四、总结 一、分离头指针 正常情况下&#xff0c;在通过git checkout命令切换分支时&#xff0c;在命令后面跟着的是分支名&#xff08;例如master、temp等&#xff09;或分支名对应commit的哈希值。 非正常情况下&…

【网工】华为设备命令学习(nat网络地址转换)

本次实验通过nat技术实现私网转公网。 实验中 pc1和ar2的基本配置省略&#xff0c;只需要配置基本IP地址就行。主要记录AR3的配置代码。 <Huawei>sy Enter system view, return user view with CtrlZ. [Huawei]int g0/0/0 [Huawei-Giga…

在PyTorch中,如何查看深度学习模型的每一层结构?

这里写目录标题 1. 使用print(model)2. 使用torchsummary库3.其余方法&#xff08;可以参考&#xff09; 在PyTorch中&#xff0c;如果想查看深度学习模型的每一层结构&#xff0c;可以使用print(model)或者model.summary()&#xff08;如果你使用的是torchsummary库&#xff0…

第2节、让电机转起来【51单片机+L298N步进电机系列教程】

↑↑↑点击上方【目录】&#xff0c;查看本系列全部文章 摘要&#xff1a;本节介绍用简单的方式&#xff0c;让步进电机转起来。其目的之一是对电机转动有直观的感受&#xff0c;二是熟悉整个开发流程。本系列教程必要的51单片机基础包括IO口操作、中断、定时器三个部分&#…

多模态对比语言图像预训练CLIP:打破语言与视觉的界限,具备零样本能力

多模态对比语言图像预训练CLIP:打破语言与视觉的界限,具备零样本能力。 一种基于多模态(图像、文本)对比训练的神经网络。它可以在给定图像的情况下,使用自然语言来预测最相关的文本片段,而无需为特定任务进行优化。CLIP的设计类似于GPT-2和GPT-3,具备出色的零射击能力…

MATLAB知识点:逻辑运算函数

​讲解视频&#xff1a;可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇&#xff08;数学建模清风主讲&#xff0c;适合零基础同学观看&#xff09;_哔哩哔哩_bilibili 节选自第3章 3.4.4 逻辑运算 3.4.4.1 逻辑运算函数 在上…

springboo冬奥会科普平台源码和论文

随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理平台应运而生&#xff0c;各行各业相继进入信息管理时代&#xf…

AD域国产替代方案,助力某金融企业麒麟信创电脑实现“真替真用”

近期收到不少企业客户反馈采购的信创PC电脑用不起来&#xff0c;影响信创改造的进度。例如&#xff0c;某金融企业积极响应国产化信创替代战略&#xff0c;购置了一批麒麟操作系统电脑。分发使用中发现了如下问题&#xff1a; • 当前麒麟操作系统电脑无法做到统一身份认证&…

Flutter组件 StatefulWidget、StatelessWidget 可继承写法

前言 学过Java的同学&#xff0c;应该都知道面向对象语言的三大特征&#xff0c;封装、继承、多态&#xff1b; Dart也是面向对象的语言&#xff0c;但是在Flutter中的很多组件都被下划线 _ 标记为私有&#xff0c;导致无法继承&#xff0c;本文将介绍一种非私有的创建组件写…

@PostMapping/ @GetMapping等请求格式

目录 1.只传一个参数的 第一种 第二种 第三种:表单 2.传整个对象的 2.1修改实体类就是传整个对象过来 2.2新增实体类就是传整个对象过来新增 1.只传一个参数的 第一种 PostMapping("/add/{newsId}")public Result addOne(PathVariable Integer newsId) {}pos…

Python爬虫之文件存储#5

爬虫专栏&#xff1a;http://t.csdnimg.cn/WfCSx 文件存储形式多种多样&#xff0c;比如可以保存成 TXT 纯文本形式&#xff0c;也可以保存为 JSON 格式、CSV 格式等&#xff0c;本节就来了解一下文本文件的存储方式。 TXT 文本存储 将数据保存到 TXT 文本的操作非常简单&am…