【简博士统计学习方法】3. 统计学习方法的三要素

3. 统计学习方法的三要素

3.1 监督学习的三要素

3.1.1 模型

假设空间(Hypothesis Space):所有可能的条件概率分布或决策函数,用 F \mathcal{F} F表示。

  • 若定义为决策函数的集合: F = { f ∣ Y = f ( X ) } \mathcal{F}=\{f|Y=f(X)\} F={fY=f(X)}.
  • F \mathcal{F} F由一个参数向量决定的函数族构成: F = { f ∣ Y = f θ ( X ) , θ ∈ R n } \mathcal{F}=\{f|Y=f_{\theta}(X),\theta\in\mathbb{R}^n\} F={fY=fθ(X),θRn} n n n维欧氏空间).
  • 所有可能的参数向量组成了参数空间 Θ = { θ ∣ θ ∈ R n } \Theta=\{\theta|\theta\in\mathbb{R}^n\} Θ={θθRn}.

【例】线性回归

  • 实例: x = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( n ) ) T x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^{T} x=(x(1),x(2),,x(n))T.
  • 决策函数: f ( x ) = w ( 1 ) x ( 1 ) + w ( 2 ) x ( 2 ) + ⋯ + w ( n ) x ( n ) + b f(x)=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)}+b f(x)=w(1)x(1)+w(2)x(2)++w(n)x(n)+b.
  • 向量形式: f ( x ) = w ⋅ x + b f(x)=w \cdot x+b f(x)=wx+b,其中, w = ( w ( 1 ) , w ( 2 ) , ⋯ , w ( n ) ) w=\left(w^{(1)}, w^{(2)}, \cdots, w^{(n)}\right) w=(w(1),w(2),,w(n)).

条件概率形式:

  • 若定义为条件概率的集合: F = { P ∣ P ( Y ∣ X ) } \mathcal{F}=\{P|P(Y|X)\} F={PP(YX)}.
  • F \mathcal{F} F由一个参数向量决定的条件概率分布族构成:
    F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } \mathcal{F}=\{P|P_{\theta}(Y|X),\theta\in\mathbb{R}^n\} F={PPθ(YX),θRn}

【注】 exp ⁡ ( f ( x ) ) \exp(f(x)) exp(f(x))是指 e f ( x ) e^{f(x)} ef(x).

3.1.2 策略

如何在假设空间里选择一个最优的模型,就需要用到第二个要素,策略

3.1.2.1 概念
  • 损失函数:度量模型一次预测的好坏,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)).
  • 风险函数:度量平均意义下模型预测的好坏。
    R exp ⁡ ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y \begin{aligned} R_{\exp }(f) & =E_{P}[L(Y, f(X))] \\ & =\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) d x d y \end{aligned} Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy
    exp代表的是期望的意思,R代表的是风险,此处风险函数就是对损失函数求了一下概率期望,联合分布 P ( X , Y ) P(X,Y) P(X,Y)并不是已知,所以选择下面的经验风险(估计值)来替代风险函数。所以这个沿着鬼笛卡尔积做曲线积分的这个式子根本不需要看懂,因为这玩意本身就是不能算出来的
  • 经验风险:模型 f ( X ) f(X) f(X)关于训练集的平均损失。
    R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{e m p}(f)=\frac{1}{N} \sum\limits_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) Remp(f)=N1i=1NL(yi,f(xi))
    emp指的是经验,R指的是风险。

其中训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯ , ( x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\} T={(x1,y1),(x2,y2),(xN,yN)}

【注】数学期望
数学期望可以看作是随机变量的加权平均,其中加权系数是相应事件发生的概率。

  • 离散型随机变量的期望
    如果一个离散型随机变量 X X X具有可能取值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,,xn,且对应的概率分别为 P ( x 1 ) , P ( x 2 ) , ⋯ , P ( x n ) P(x_1),P(x_2),\cdots,P(x_n) P(x1),P(x2),,P(xn),那么 X X X的数学期望 E ( X ) E(X) E(X)由以下公式给出:
    E ( X ) = ∑ i = 1 n x i P ( x i ) E(X)=\sum\limits_{i=1}^{n} x_{i} P\left(x_{i}\right) E(X)=i=1nxiP(xi)
    其中, x i x_i xi是随机变量 X X X可能取的值, P ( x i ) P(x_i) P(xi) X X X取值 x i x_i xi的概率。
  • 连续型随机变量的期望
    对于一个连续型随机变量 X X X,它的概率密度函数为 f ( x ) f(x) f(x),则期望 E ( X ) E(X) E(X)定义为:
    E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infty}^{\infty} x f(x) d x E(X)=xf(x)dx
    其中, f ( x ) f(x) f(x)是随机变量 X X X的概率密度函数,表示在某个区间内取值的概率密度。
3.1.2.2 四种常见的损失函数
  • 0-1损失函数(0-1 Loss Function)
    L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{ll} 1, & Y \neq f(X) \\ 0, & Y=f(X) \end{array}\right. L(Y,f(X))={1,0,Y=f(X)Y=f(X)
    0-1损失函数主要针对分类问题。当真实值 Y Y Y和预测值 f ( X ) f(X) f(X)不相等的时候取1,当真实值 Y Y Y和预测值 f ( X ) f(X) f(X)相等的时候取0。这也是一种示性函数,后面的朴素贝叶斯会用到这种损失函数。

【注】示性函数:示性函数,也叫做特征函数、指示函数,是一个数学函数,通常用于描述集合中元素是否满足某个特定性质。

  • 平方损失函数(Quadratic Loss Function)
    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L(Y,f(X))=(Yf(X))2
    平方损失函数主要针对回归问题,它度量真实值 Y Y Y与预测值 f ( X ) f(X) f(X)之间的距离。K邻近模型会用到这种函数。
  • 绝对损失函数(Absolute Loss Function)
    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y-f(X)| L(Y,f(X))=Yf(X)
    绝对损失函数主要针对回归问题,它度量真实值 Y Y Y与预测值 f ( X ) f(X) f(X)之间的距离。K邻近模型会用到这种函数。
  • 对数损失函数(Logarithmic Loss Function)
    L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) L(Y, P(Y | X))=-\log P(Y | X) L(Y,P(YX))=logP(YX)
    对数损失函数主要针对概率模型,因为此处模型用的是条件概率分布的形式。它涉及到的模型是给定 X X X条件下 Y Y Y的条件概率分布,也就是用条件概率分布模型,所以对数损失函数针对概率模型。
3.1.2.3 风险最小化

根据大数定律,当 N → ∞ N\to\infty N时,
R emp  ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) ⟶ R exp ⁡ ( f ) = E P [ L ( Y , f ( X ) ) ] , N → ∞ R_{\text {emp }}(f)=\frac{1}{N} \sum\limits_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) \longrightarrow R_{\exp }(f)=E_{P}[L(Y, f(X))], \quad N \rightarrow \infty Remp (f)=N1i=1NL(yi,f(xi))Rexp(f)=EP[L(Y,f(X))],N,也就是当 N → ∞ N\to\infty N时,经验损失趋近于风险函数。所以在一定程度上,用经验损失作为风险函数的估计值是合理的,但是在现实生活中样本容量 N N N一般是有限的,有的时候甚至会很小,所以仅仅用经验风险来估计风险函数效果并不理想,所以需要对其进行一定的矫正。

【注】大数定律
大数定律是概率论中的一个重要定理,描述了在大量独立、同分布的随机试验中,随着试验次数的增加,样本均值会趋近于期望值。简单来说,就是随着实验次数的增加,实验结果的平均值越来越接近期望值。大数定律反映了“偶然性”对长期平均结果的影响逐渐减小。
大数定律主要有两种形式:弱大数定律强大数定律

  • 弱大数定律(Weak Law of Large Numbers,WLLN):
    弱大数定律表明,随着独立同分布随机变量数量的增加,样本均值会以较高的概率收敛到期望值。具体来说,给定一组独立同分布的随机变量,其样本均值 X ˉ n = 1 n ∑ i = 1 n X i \bar{X}_{n}=\frac{1}{n} \sum\limits_{i=1}^{n} X_{i} Xˉn=n1i=1nXi会以概率收敛于期望值 μ = E [ X i ] \mu=E[X_i] μ=E[Xi],即
    P ( lim ⁡ n → ∞ X ˉ n = μ ) = 1 P\left(\lim\limits _{n \rightarrow \infty} \bar{X}_{n}=\mu\right)=1 P(nlimXˉn=μ)=1
    这意味着随着试验次数增加,样本均值会以高概率接近理论期望值。
    强大数定律(Strong Law of Large Numbers,SLLN):
    强大数定律进一步加强了这一结果,它表明不仅样本均值几乎一定会收敛于期望值,而且这种收敛是几乎确定的,即在几乎所有的情况下,样本均值都会趋近于期望值。具体来说,给定独立同分布随机变量 X 1 , X 2 , X 3 , ⋯ X_1,X_2,X_3,\cdots X1,X2,X3, ,强大数定律表明:
    P ( lim ⁡ n → ∞ X ˉ n = μ ) = 1 P\left(\lim _{n \rightarrow \infty} \bar{X}_{n}=\mu\right)=1 P(nlimXˉn=μ)=1
    这意味着在几乎所有的实验中,随着实验次数趋近于无穷大,样本均值会准确地收敛到期望值。

直观地说,大数定律的核心思想是:在重复实验的情况下,随着实验次数的增加,观察到的结果会趋向于理论预测的结果。这就像是抛硬币实验,当抛掷次数很少时,正面和反面的比例可能会偏离 50%,但随着投掷次数的增加,正面和反面的比例会趋近于 50%。

  • 经验风险最小化
    min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) fFminN1i=1NL(yi,f(xi))
    当样本容量 N N N足够大的时候,我们可以认为经验风险是风险函数的一个估计值,这时候只需要选取使经验风险最小的模型即可。
  • 结构风险
    R s r m = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{s r m}=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) Rsrm=N1i=1NL(yi,f(xi))+λJ(f)
    当样本容量 N N N比较小的时候,仅仅使经验风险最小化,容易造成过拟合的现象(过拟合后面会讲到),于是引入结构风险概念,结构风险就是在经验风险的基础上加了一个惩罚项 λ J ( f ) \lambda J(f) λJ(f),这个惩罚项是针对于模型的复杂度的 J ( f ) J(f) J(f),模型越复杂 J ( f ) J(f) J(f)就越大,模型越简单 J ( f ) J(f) J(f)就越小,所以结构风险平衡了经验风险和模型的复杂度。
  • 结构风险最小化
    min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)
    结构风险最小化则是选取一个使结构风险最小的模型。

关于监督学习的策略,追根究底就是选取一个目标函数,或者是经验风险,或者是结构风险,通过优化这个目标函数,达到一个学习模型的目的。

3.1.2.4 算法
  • 算法:如何求解最优模型的问题;
  • 若优化问题存在显式解析解,算法简易;
  • 通常不存在解析解,需要数值计算方法,比如梯度下降法。

3.2 无监督学习的三要素

它处理的是无标记数据。

  • 模型:函数 z = g θ ( x ) z=g_{\theta}(x) z=gθ(x) z z z是来自于隐式结构空间(隐藏在数据中的统计分布),条件概率分布 P θ ( z ∣ x ) P_{\theta}(z|x) Pθ(zx)或条件概率分布 P θ ( x ∣ z ) P_{\theta}(x|z) Pθ(xz).(参数空间是所有可能的参数 θ \theta θ
  • 策略:优化目标函数。
  • 算法:通常是迭代算法。

【注】参数空间:无监督学习中的参数空间是指模型可以探索的所有可能的参数组合。无论是在聚类、降维、特征学习等任务中,模型的超参数和训练过程中的设置都会定义一个参数空间。优化这个参数空间,选择合适的参数组合,是提升无监督学习模型性能的关键。大白话解释就是调参,比如K-means聚类的参数K或者深度学习模型的其他参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/503271.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# 修改项目类型 应用程序程序改类库

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

链上数据分析基础课:Puell倍数(Puell Multiple)

PUELL倍数(Puell Multiple)就是每日币发行金额除以365天的移动平均 每日币发行总额,简单说就是每天结算的币总量和过去一年的平均每天收成的比。这个指标能让我们大概了解矿工的收益情况,还能从矿工的角度看市场趋势和周期变化。 …

初学STM32 --- USMART

目录 USMART简介 USMART主要特点: USMART原理 USMART组成: USMART 的实现流程简单概括 USMART扫描函数: USMART系统命令 USMART移植 USMART简介 USMART是一个串口调试组件,可以大大提高代码调试效率! USMART主…

对话|企业如何构建更完善的容器供应链安全防护体系

对话|企业如何构建更完善的容器供应链安全防护体系 云布道师 随着云计算和 DevOps 的兴起,容器技术和自动化成为软件开发中的必要手段,软件供应链也进入了自动化及 CI/CD 阶段。然而,容器技术和自动化虽然提升了软件的更新速度&…

Backend - EF Core(C# 操作数据库 DB)

目录 一、EF Core 1. 使用的ORM框架(对象关系映射) 2. EFCore 常见两种模式 3. EFCore 提供程序 二、 EF 操作数据库(Code First) 1. 下载NuGet插件 2.创建模型类文件 3.创建DBContext文件 4.Programs.cs文件 5.appsettings.Devel…

科研绘图系列:R语言单细胞数据常见的可视化图形

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理图1图2图3图4图5图6系统信息参考介绍 单细胞数据常见的可视化图形 因为本教程是单细胞数据,因此运行本画图脚本需要电脑的内存最少32Gb 加载…

jenkins入门7 --发送邮件1

jenkins发送邮件配置(全局配置)_jenkins 怎么发送邮件-CSDN博客 本文通过163发送邮件 1、首先163设置选择pop3/smtp/imap,开启服务,获取授权码 2、jenkins下载邮件插件 登录Jenkins管理界面,点击“Manage Jenkins”。 选择“Man…

30、论文阅读:基于小波的傅里叶信息交互与频率扩散调整的水下图像恢复

Wavelet-based Fourier Information Interaction with Frequency Diffusion Adjustment for Underwater Image Restoration 摘要介绍相关工作水下图像增强扩散模型 论文方法整体架构离散小波变换与傅里叶变换频率初步增强Wide Transformer BlockSpatial-Frequency Fusion Block…

衡量算法效率的方法:时间复杂度、空间复杂度

衡量算法效率的方法:时间复杂度、空间复杂度 一、好算法的特点二、算法效率分析1. 时间复杂度2. 空间复杂度 一、好算法的特点 算法是用数学解决问题的方法。一个好算法有以下几个特点: ①正确性:能正确处理各种输入(合法输入、非…

go如何从入门进阶到高级

针对Go语言的学习,不同阶段应采取不同的学习方式,以达到最佳效果.本文将Go的学习分为入门、实战、进阶三个阶段,下面分别详细介绍 一、社区 Go语言中文网 作为专注于Go语言学习与推广的平台,Go语言中文网为开发者提供了丰富的中…

苹果系统MacOS下ObjectC建立的App程序访问opencv加载图片程序

前言 苹果系统下使用opencv感觉还是有些不太方便,总是感觉有点受到限制。本博客描述的是在MacOS下建立App程序然后调用opencv显示图片时出现的一些问题并最后解决的一个过程。 一、程序的建立 选择程序的类型: 选择界面模式和编程语言: 其余…

Nginx——入门介绍、安装与核心配置文件结构(一/五)

目录 1.Nginx 简介1.1.背景介绍1.2.名词解释1.3.常见服务器对比1.3.1.IIS1.3.2.Tomcat1.3.3.Apache1.3.4.Lighttpd1.3.5.其他的服务器 1.4.Nginx 的优点1.4.1.速度更快、并发更高1.4.2.配置简单,扩展性强1.4.3.高可靠性1.4.4.热部署1.4.5.成本低、BSD 许可证 1.5.Ng…

【HarmonyOS-ArkTS语言】计算器的实现【合集】

目录 😋环境配置:华为HarmonyOS开发者 🎯学习小目标: 📺演示效果: 📖实验步骤及方法: 1. 在index.ets文件中通过 Extend(Button) 装饰器扩展Button 组件设置按钮样式函数myButt…

【C语言程序设计——选择结构程序设计】预测你的身高(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 1、输入数值 2、选择结构语句 3、计算结果并输出 编程要求 测试说明 通关代码 测试结果 任务描述 本关任务:编写一个程序,该程序需输入个人数据,进而预测其成年后的身高。 相关知识 为了完成本…

【连续学习之LwM算法】2019年CVPR顶会论文:Learning without memorizing

1 介绍 年份:2019 期刊: 2019CVPR 引用量:611 Dhar P, Singh R V, Peng K C, et al. Learning without memorizing[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 5138-5146. 本文提…

【微服务】3、配置管理

微服务配置管理 已掌握的微服务组件及配置管理问题引出 已掌握注册中心、Openfan、远程调用、负载均衡、网关等组件,具备微服务开发能力,但仍存在其他问题待解决。微服务和网关存在大量配置文件,其中包含很多重复配置,如数据库、日…

【论文+源码】基于Spring和Spring MVC的汉服文化宣传网站

为了实现一个基于Spring和Spring MVC的汉服文化宣传网站,我们需要创建一个简单的Web应用程序来展示汉服文化和相关信息。这个系统将包括以下几个部分: 数据库表设计:定义文章、用户和评论的相关表。实体类:表示数据库中的数据。DAO层接口及MyBatis映射文件:用于与数据库交…

Apache Celeborn 在B站的生产实践

背景介绍 Shuffle 演进 随着B站业务的飞速发展,数据规模呈指数级增长,计算集群也逐步从单机房扩展到多机房部署模式。多个业务线依托大数据平台驱动核心业务,大数据系统的高效性与稳定性成为公司业务发展的重要基石。如图1,目前在大数据基础架构下,我们主要采用 Spark、Fl…

计算机网络:网络层知识点及习题(一)

网课资源: 湖科大教书匠 1、概述 网络层实现主机到主机的传输,主要有分组转发和路由选择两大功能 路由选择处理机得出路由表,路由表再生成转发表,从而实现分组从不同的端口转发 网络层向上层提供的两种服务:面向连接…

深入刨析数据结构之排序(上)

目录 1.内部排序 1.1概述 1.2插入排序 1.2.1其他插入排序 1.2.1.1 折半插入排序 1.2.1.2 2-路插入排序 1.3希尔排序 1.4快速排序 1.4.1起泡排序 1.4.2快速排序 1.4.2.1hoare版本 1.4.2.2挖坑版本 1.4.2.3前后指针版本 1.4.2.4优化版本 1.4.2.4.1小区间插入排序优…