机器学习第十一章——计算学习理论

一、基础知识

计算学习理论(computational learning theory)研究的是关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

给定样例 D假设 X中的所有样本服从一个隐含未知的分布D,D中所有样本都是独立地从这个分布上采样而得,即独立同分布(independent and identically distributed)样本令h为从X到Y的一个映射,其泛化误差为

E(h ; \mathcal{D})=P_{\boldsymbol{x} \sim \mathcal{D}}(h(\boldsymbol{x}) \neq y)

h在D上的经验误差为:

\hat{E}(h;D)=\frac{1}{m}\sum ^{m}_{i=1}II (h(x_{i})\neq y_{i})

我们会用到几个常用不等式:

Jensen不等式:对于凸函数f(x),有

f(E(X))\leqslant E(f(x))

Hoeffding不等式:若有m个独立随机变量,且对任意的i∈[0,1],则对任意ϵ>0,那么有

P({1\over m}\sum ^m_{i=1}x_i-{1\over m}\sum ^m_{i=1}E(x_i)\geqslant \epsilon )\leqslant exp(-2m\epsilon ^2)
P(|{1\over m}\sum ^m_{i=1}x_i-{1\over m}\sum ^m_{i=1}E(x_i)|\geqslant \epsilon )\leqslant 2exp(-2m\epsilon ^2)

McDiarmid不等式: 若有m个独立随机变量,且对任意的i∈[0,1],则有

sup_{x_{1},...,x_{m}.{x}'_{i}}|f(x_{1},...,x_{m})-f(x_{1},...,x_{i-1},{x}'_{i},x_{i+1},..,x_{m})|\leqslant c_{i}

二、PAC学习

概率近似正确(Probably ApproximatelyCorrect,简称PAC):

  • 概念(concept):这是从样本空间\mathcal{X}到标记空间\mathcal{Y}的映射,它决定示例x的真实标记y,若对任何样例(x,y)c(x)= y成立;所有我们希望学得的目标概念所构成的集合称为“概念类”(conceptclass),
  • 假设空间(Hypothesis Space):给定学习算法\mathfrak{L },它所考虑的所有可能概念的集合称为“假设空间”(hypothesis space),用符号\mathcal{H}表示. 对于假设空间中的任一概念,用h表示,称为“假设”(hypothesis)。
  • 可分性(Separability):若目标概念c属于假设空间\mathcal{H},则称该问题对学习算法\mathfrak{L }是可分的(separable)或一致的(consistent)。反之,若c不属于\mathcal{H},则称该问题对学习算法\mathfrak{L }是不可分的(non-separable)或不一致的(non-consistent)。

 定义:

  1. PAC辨识(PAC Identify):给定置信度t和误差参数e,若存在学习算法A,其输出假设h使得泛化误差E(h)小于e的概率大于置信空间1-t,则称学习算法能从假设空间H中PAC辨识概念类C。

  2. PAC可学习(PAC Learnable):若存在学习算法A和多项式函数poly(.,.,.,.),使得对于任意m >= poly(1/e, 1/t, size(X), size(c)),A能从假设空间H中PAC辨识出概念类C,则称概念类C对假设空间H而言是PAC可学习的。

  3. PAC学习算法(PAC Learning Algorithm):若学习算法A使概念类C为PAC可学习,且A的运行时间也是多项式函数poly(1/e, 1/t, size(X), size(c)),则称A为概念类C的PAC学习算法。

  4. 样本复杂度(Sample Complexity):满足PAC学习算法A所需的m >= poly(1/e, 1/t, size(X), size(c))中最小的m,称为算法A的样本复杂度。

三、有限假设空间

1可分情形

在可分情形中,目标概念c存在于假设空间\mathcal{H}中,即c\in \mathcal{H}。这意味着假设空间\mathcal{H}中存在至少一个假设,该假设能够完全按照目标概念的规则对所有示例进行正确分类或标记。

我们先估计泛化误差大于\epsilon但在训练集上仍表现完美的假设出现的概率.假定h的泛化误差大于\epsilon,对分布\mathcal{D}上随机采样而得的任何样例(x, y),有

P(h(x)=y)=1-P(h(x)\neq y)=1-E(h)< 1-\epsilon

由于D包含m个从\mathcal{D}独立同分布采样而得的样例,因此, hD表现一致的概率为

P((h(x_{1})=y_{1})\wedge ...\wedge (h(x_{m})=y_{m}))=(1-P(h(x)\neq y))^{m}< (1-\epsilon)^{m}

保证泛化误差大于\epsilon,且在训练集上表现完美的所有假设出现概率之和不大于\delta,得:

m\geqslant \frac{1}{\epsilon }(\ln |\mathcal{H}|+\ln \frac{1 }{\delta})

2不可分情形

假定对于任何h\in \mathcal{H},\hat{E}(h)\neq 0,由Hoeffding不等式推理得:

定理:若\mathcal{H}为有限假设空间, 0<\delta <1,则对任意h\in \mathcal{H},有

定义:不可知PAC可学习(agnostic PAC learnable):令m表示从分布\mathcal{D}中独立同分布采样得到的样例数目,0 <\epsilon ,\delta < 1,对所有分布\mathcal{D},若存在学习算法\mathfrak{L }和多项式函数poly(·, ·,·,·),使得对于任何m ≥poly(1/e,1/6,size(a), size(c)),\mathfrak{L }能从假设空间\mathcal{H}中输出满足下式的假设h:

P(E(h)-\min_{​{h}'\in \mathcal{H}}E({h}')\leqslant \epsilon )\geqslant 1-\delta

则称假设空间\mathcal{H}是不可知PAC可学习的.

四、VC维

增长函数(growth function):对所有m\in \mathbb{N},假设空间\mathcal{H}的增长函数\Pi _{\mathcal{H}}(m)\Pi _{\mathcal{H}}(m)=\max_{\left \{ x_{1},...,x_{m} \right \}\subseteq \mathcal{X}}|\left \{ (h(x_{1}),...h(x_{m}))|h\in \mathcal{H})\right \}|

对分(dichotomy):对二分类问题来说,\mathcal{H}中的假设对D中示例赋予标记的每种可能结果称为对D的一种“对分”.

打散(shattering):若假设空间\mathcal{H}能实现示例集D上的所有对分,即 \Pi _{\mathcal{H}}(m)=2^{m},则称示例集D能被假设空间\mathcal{H}“打散”.

 VC维:假设空间\mathcal{H}的VC维是能被\mathcal{H}打散的最大示例集的大小,即

VC(\mathcal{H})=\max\left \{ m:\Pi_{\mathcal{H}} (m)=2^{m} \right \}

VC(\mathcal{H})=d表明存在大小为d的示例集能被假设空间\mathcal{H}打散.

通常这样来计算\mathcal{H}的.VC维:若存在大小为d的示例集能被\mathcal{H}打散,但不存在任何大小为d+1的示例集能被\mathcal{H}打散,则H的VC维是d.例:

定理:

  1. 若假设空间\mathcal{H}的VC维为.d,则对任意m > d,0<\delta <1h\in \mathcal{H}

  2. 任何VC维有限的假设空间\mathcal{H}都是(不可知)PAC可学习的.

五、Rademacher复杂度

Rademacher复杂度(Rademacher complexity)是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布.

定义:

函数空间\mathcal{F}关于Z的经验Rademacher复杂度

函数空间\mathcal{F}关于\mathcal{Z}上分布\mathcal{D}的Rademacher复杂度

定理:

对实值函数空间\mathcal{F}:\mathcal{Z}\rightarrow [0,1]根据分布\mathcal{D}\mathcal{Z}中独立同分布采样得到示例集Z=\left \{ z_{1},z_{2},...,z_{m} \right \},z_{i}\in \mathcal{Z},0< \delta < 1,对任意f\in \mathcal{F},以至少1-\delta的概率有

对假设空间\mathcal{H}:\mathcal{X}\rightarrow \left \{ -1,+1 \right \},根据分布\mathcal{D}\mathcal{X}中独立同分布采样得到示例集D=\left \{ x_{1},x_{2},...,x_{m} \right \},x_{i}\in \mathcal{X},0< \delta < 1,对任意h\in \mathcal{H},以至少1-\delta的概率有

假设空间\mathcal{H}的Rademacher 复杂度R_{m}(\mathcal{H})与增长函数\Pi _{\mathcal{H}}(m)满足

R_{m}(\mathcal{H})\leqslant \sqrt{\frac{2\ln \Pi _{\mathcal{H}}(m)}{m}}

六、稳定性

算法的“稳定性”考察的是算法在输入发生变化时,输出是否会随之发生较大的变化.学习算法的输入是训练集,因此下面我们先定义训练集的两种变化.

移除:D^{\setminus i},表示移除D中第i个样例得到的集合D^{\setminus i}=\left \{ z_{1}, z_{2},..., z_{i-1}, z_{i+1},..., z_{m} \right \}
替换:D^{i},表示替换D中第i个样本得到的集合D^{ i}=\left \{ z_{1}, z_{2},..., z_{i-1},{z}'_{i} z_{i+1},..., z_{m} \right \}

损失函数刻画了预测标记和真实标记的差别: 

泛化损失:\ell(\mathfrak{L} ,D)=\mathbb{E}_{x\in \mathcal{X},z=(x,y)}[\ell(\mathfrak{L}_{D},z)]
经验损失:\hat{\ell}(\mathfrak{L} ,D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathfrak{L}_{D},z_{i})
留一(leave-one-out)损失:\ell_{loo}(\mathfrak{L} ,D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathfrak{L}_{D^{\setminus i}},z_{i})

均匀稳定性(uniform stability):
对任何x\in \mathcal{X},z=(x,y),若学习算法满足

|\ell(\mathfrak{L}_{D},z)-\ell(\mathfrak{L}_{D^{\setminus i}},z)|\leqslant \beta ,i=1,2,...,m

则称关于损失函数\ell满足β-均匀稳定性.

给定从分布\mathcal{D}上独立同分布采样得到的大小为m的示例集D,若学习算法\mathfrak{L}满足关于损失函数\ell的β-均匀稳定性,且损失函数l的上界为M,0<\delta <1,则对任意m ≥ 1,以至少1-\delta的概率有

若学习算法\mathfrak{L}是ERM且稳定的,则假设空间\mathcal{H}可学习.

 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/404486.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Verilog刷题笔记53

题目&#xff1a; Fsm serialdata See also: Serial receiver Now that you have a finite state machine that can identify when bytes are correctly received in a serial bitstream, add a datapath that will output the correctly-received data byte. out_byte needs …

如果忘记了 Apple ID 密码,如何重设

“我忘记了我的 Apple ID 密码&#xff0c;如何恢复我的帐户&#xff1f;”为了方便用户&#xff0c;Apple 允许每个人使用唯一的 Apple ID 和密码激活设备并访问所有 Apple 服务。然而&#xff0c;实际上&#xff0c;手动选择某项并忘记它似乎很容易。例如&#xff0c;许多 Ap…

基于web框架的协同过滤的美食推荐系统【数据爬虫、管理系统、数据可更新、样式可调整】

文章目录 有需要本项目的代码或文档以及全部资源&#xff0c;或者部署调试可以私信博主项目介绍研究背景研究的目的与意义协同过滤算法基于用户的协同过滤算法定义基于物品的协同过滤算法的定义 数据库设计db_food&#xff08;美食信息表&#xff09;db_collect&#xff08;美食…

eclipse打开失败 java was started but returned exit code=13

报错详细信息如下 原因&#xff1a;eclipse版本和jdk版本不一致。系统之前jdk是1.6&#xff0c;然后安装1.8之后默认修改了环境变量。导致eclipse启动失败 解决方案&#xff1a;修改eclipse目录下的eclipse.ini文件增加一下内容。文档说明&#xff1a;eclipse.ini - Eclipsepe…

还在用Hexo吗?来试试Gatsby搭建一个网站吧!

本文首发于个人博客网站&#xff1a;http://www.blog.lekshome.top/2024/08/20/shi-yong-gatsby-da-jian-ge-ren-wang-zhan/由于CSDN并不是本人主要的内容输出平台&#xff0c;所以大多数博客直接由md文档导入且缺少审查和维护&#xff0c;如果存在图片或其他格式错误可以前往上…

Halcon灰度图像的形态学运算

Halcon灰度图像的形态学运算 本文介绍的算子的输入类型是灰度的Image图像。 1. 灰度图像与区域的区别 基于区域的形态学运算与基于灰度图像的形态学运算的根本区别在于&#xff0c;二者输入的对象不同。前者输入的是一些区域&#xff0c;并且这些区域是经过闽值处理的二值图…

一文搞懂大模型在多GPU环境的分布式训练!

随着大模型时代的到来&#xff0c;模型参数量、训练数据量、计算量等各方面急剧增长。大模型训练面临新的挑战&#xff1a; 显存挑战&#xff1a;例如&#xff0c;175B的GPT-3模型需要175B*4bytes即700GB模型参数空间&#xff0c;而常见的GPU显存如A100是80G显存&#xff0c;这…

visual studio使用技巧:快速生成Json、XML对应类

visual studio快速生成Json、XML对应类 在项目中经常用到json或者xml作为配置文件&#xff0c;进行序列化和反序列化就需要有对应的类&#xff0c;重新写一遍类就比较麻烦&#xff0c;这里就讲一下通过visual studio快速生成json或者xml对应类型的方法。 自动生成Json类 复制…

图像数据处理17

四、形态学图像处理 4.3 开运算与闭运算 4.3.1开运算与闭运算的定义&#xff1a; 开运算&#xff1a;先腐蚀&#xff0c;再膨胀 闭运算&#xff1a;先膨胀&#xff0c;再腐蚀 记忆方法&#xff1a;膨胀&#xff08;胀开&#xff09;所以开运算最后对应的结果是膨胀&#x…

c++进阶——继承的定义,复杂的菱形继承及菱形虚拟继承

目录 前言&#xff1a; 1.继承的概念及定义 1.1继承的概念 1.2 继承定义 1.2.2继承关系和访问限定符 1.2.3继承基类成员访问方式的变化 2.基类和派生类对象赋值转换 3.继承中的作用域 4.派生类的默认成员函数 5.继承与友元 6. 继承与静态成员 7.复杂的菱形继承及菱…

springsecurity 登录认证一(ajax)

一、准备工作 1.1 导入依赖 因springboot 3.0 以上版本只能支持java17 顾使用2.5.0 版本 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.5.0</version><…

网络工程3(子网通信,为什么要使用mac和ip)

文章目录 一. 子网如何通讯1. 子网内部通信2. 子网外部通信 二. 交换机和路由器的连接三. 为什么不只使用mac地址或ip地址进行网络通信1. 首先要明确的是&#xff0c;不管是只用mac或只用ip通信 四. 子网设备如何获得ip五. 不同网段的主机无法直接通信的原因 一. 子网如何通讯 …

音频矩阵主要功能及常规路数配置有哪些

音频矩阵&#xff0c;又称AUDIO矩阵或音频矩阵切换器&#xff0c;是一种用于管理和控制多个音频信号的设备。它具备多种功能&#xff0c;主要可以概括为以下几个方面&#xff1a; 一、主要功能 信号切换&#xff1a; AUDIO128128音频矩阵能够将多个音频源的信号输入到设备中&…

Python实现水果忍者(开源)

一、整体介绍&#xff1a; 1.1 前言&#xff1a; 游戏代码基于Python制作经典游戏案例-水果忍者做出一些改动&#xff0c;优化并增加了一些功能。作为自己Python阶段学习的结束作品&#xff0c;文章最后有源码链接。 1.2 Python主要知识&#xff1a; &#xff08;1&#xf…

怎么选开放式耳机好?精选五款物超所值机型推荐!

耳机已成为我们日常生活中的常见伙伴&#xff0c;无论是听音乐、玩游戏还是看剧&#xff0c;都离不开它。市场上耳机品牌和款式众多&#xff0c;找到一款真正适合自己的并不容易。尤其是长时间佩戴传统入耳式耳机可能会感到耳朵不舒服或闷热。开放式耳机因其非侵入式设计&#…

运维学习————Linux环境下Tomcat的部署

目录 一、环境准备 二、 启动测试 三、访问端口修改 四、部署web项目 1、材料准备 2、部署 2.1、上传war包到webapps目录下 2.2、修改项目配置 2.3、浏览器访问 引申 一、环境准备 tomcat安装包&#xff1a;apache-tomcat-9.0.52 JDK环境&#xff1a; 我使用的y…

MATLAB口罩检测系统

一、应用背景 作为数字图像处理和计算机视觉领域的一个重要组成部分&#xff0c;利用摄像机对图像进行采集&#xff0c;从图像中检测人脸并进行口罩穿戴的识别的有着非常重要的研究意义和应用价值。面对突如其来的新型肺炎疫情&#xff0c;人们生活秩序被严重打乱。跟普通流感…

LeetCode.80.删除有序数组中的重复项II

题目描述&#xff1a; 给你一个有序数组 nums &#xff0c;请你 原地 删除重复出现的元素&#xff0c;使得出现次数超过两次的元素只出现两次 &#xff0c;返回删除后数组的新长度。 不要使用额外的数组空间&#xff0c;你必须在 原地 修改输入数组 并在使用 O(1) 额外空间…

idea 修改背景图片教程

&#x1f30f;个人博客主页&#xff1a;意疏-CSDN博客 希望文章能够给到初学的你一些启发&#xff5e; 如果觉得文章对你有帮助的话&#xff0c;点赞 关注 收藏支持一下笔者吧&#xff5e; 阅读指南&#xff1a; 开篇说明修改背景图片 开篇说明 给小白看得懂的修改图片教程&…

物流抓取机器人整体设计方案

一、功能简介 1、运行环境&#xff1a;巡线行驶&#xff08;7路数字循迹&#xff0c;麦克纳姆轮车底盘&#xff09; 2、目标识别&#xff1a;颜色识别&#xff08;Maix-II Dock 视觉模块&#xff09; 3、目标定位&#xff1a;视觉测距&#xff08;Maix-II Dock 视觉模块&#x…