李宏毅老师浅谈机器学习

李宏毅老师浅谈机器学习

引例 - 宝可梦/数码宝贝 分类器

参数越多,训练的loss和testing售后的loss差距会越大
参数越多,越有可能overfitting

线条更复杂
edge detection,白色的点
在这里插入图片描述

根据线条的复杂程度
threshold(门槛)
h相当于network里面的参数

在这里插入图片描述

h有多少种可能的选择,也叫模型的复杂程度
含有未知数的模型,未知数的选择很多

如何定义损失函数?- 经验

这里定义一个直观的loss函数

在这里插入图片描述

定义一个loss
每一笔资料,代表h在这一笔资料上表现得好坏,算出来每一笔资料的loss,再取平均值

哪一个threshold的好坏

平均就是 错误率
一般不是这样定义loss,crossentropy
这样,直观但是,不能微分,不能通过gradient decent来optimize function

根据全体数据,得到最好的模型参数(理想)

假设可以搜索到全宇宙的宝可梦、数码宝贝
所有可能的h里面能让 D a l l D_{all} Dall loss的平均值最小的那个取值
如果可以收集到所有的宝可梦和数码宝贝数据,那么可以得出最好的模型参数。
(这里用error rate不能微分但是没关系,h的可行性是有限的,才1w,爆搜就好)

但是,现实问题中,大多数问题只能收集到一部分样本(取样),并不能找到所有的样本数据。取样的要求:独立同分布(independently and identically distribution,i.i.d.)

在这里插入图片描述

如何衡量现实损失和理想损失接近程度?

差距越小越好
在这里插入图片描述
横轴越往右越复杂
纵轴表示在这个线条复杂度上的数码宝贝的数量
哈哈哈哈还记得h是什么吗?线条复杂度超过h就是数码宝贝,没超过就是个宝可梦喔

L a l l L_{all} Lall D a l l D_{all} Dall上的loss一定小于 L t r a i n L_{train} Ltrain D a l l D_{all} Dall上的loss
但可能 L t r a i n L_{train} Ltrain D t r a i n D_{train} Dtrain上的loss会小于 L a l l L_{all} Lall D a l l D_{all} Dall上的loss
但不一定会比其他threshold在其他训练集上得到的loss要小
为什么呢?
在这里插入图片描述
在这里插入图片描述

找一个比较有代表的D_train,不管是哪一个h,在D_train和D_all上的loss都差不多
看的是sample到怎样的序列,怎样一组D_train

如何得到跟含所有样本数据集很像的取样数据集?

接下来讨论的问题:如何得到跟含所有样本数据集很像的取样数据集?

只要满足②,就会得到一个跟含所有样本数据集很像的取样数据集,就一定满足①(即:达到目的:理想和现实的损失值接近)。

在这里插入图片描述

取样得到坏的数据集的概率多大?probablity of failure

接下来讨论的问题:取样得到坏的数据集的概率多大?

说明:
① 以下的讨论与模型没有关系,适用于深度学习或其他模型;
② 以下的讨论没有对数据假设任何的数据分布;
③以下的讨论与损失函数无关,适用于任何损失函数,因为分类和回归只是损失函数不同,所以以下讨论同时适用于分类和回归。

在这里插入图片描述
一般化的原理,适用于很多不同的情境下

一个点 一组训练资料 而不是一笔资料

蓝色 好的训练资料,理想和现实 差别小

橙色的点所占有的机率当然是越小越好,但怎么计算橙色的点占有的机率呢?
{为什么不看蓝色,因为判断一组训练资料是好还是不好,好的条件是:不管哪一个h,都能使得D_train和D_all上的loss都差不多(前者-后者不超过σ),所有h都要满足,那证明一笔训练资料是坏的就只需要找到一个h使得前者-后者超过σ
}
在这里插入图片描述
枚举所有样本集,计算是否是坏样本集,比较繁琐,所以使用如下方法,给定参数 h ,计算哪些样本集是坏样本集,并求出这些样本集占总样本集的概率。

很难考虑overlap的地方,overlap按道理得取并集嘛
不考虑overlap就直接求和,超过了1这个理论就无效了
求并集一定不会大于1,但是求和可能大于1,通常求和算出的P的上界都远远大于1,这时该理论无效。
在这里插入图片描述
在这里插入图片描述
下图中,使用的是霍夫丁不等式

在这里插入图片描述

如何减小取样坏样本集的概率?- 增大样本集&减小参数可能值个数

如果要使得坏样本集的概率变小,有两种办法:一是增大样本集样本个数N;二是减小 h 可能值的个数。

给定某个h,会被它弄坏的那些D_train 出现的机率
L是D里面每一笔训练资料计算出的loss 的平均
如果增大N,那么,每一个h可以弄坏的training data,机率变少了,每一个h管的范围变少了(别忘了h是threshold),让差的dataset被sample到的机率变小
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
事实上,概率和 大于1常发生,不会特别把这些理论在实际中进行计算这个理论只是试图解释机器学习的原理,model的complexity和训练资料对结果会造成什么影响
理论很难派上用场

可以通过公式,计算出训练集中样本个数的下限N。
在这里插入图片描述

假设 H \mathcal H H是有限的,即h(threshold是离散的),参数不应该是连续的吗?

H是有可能使用的function的数量
离散的,1~10000
但在training model里我们的参数不都是连续的吗,那H就是无穷大啊,式子无意义

解释一:计算机中没有绝对连续的数据,所有的计算都是连续的,精度是有限的

解释二:vc-dimension(描述模型复杂程度的指标),即使 H \mathcal H H 是连续的,那么 H \mathcal H H不一定是无穷大,还是有办法估计。

为什么实际情况中都是增大样本集使得理想和现实损失值接近,而不是减小 H \mathcal H H?- 减小 H \mathcal H H会导致找不到最佳参数

理想崩坏,那现实和理想再接近,也毫无意义

想要理想与现实接近,需要满足两个条件:① Larger N 大样本集;② smaller H \mathcal H H 参数可选值少。

H \mathcal H H很小时,理想的损失值大,理想与现实的损失值差距小。
H \mathcal H H很大时,理想的损失值小,理想与现实的损失值差距大。

在这里插入图片描述

有没有办法使得现实的损失值小并且理想与现实的损失值差距也小?- 有,深度学习,how to do?To be continue

在这里插入图片描述

援引

造福后辈,前辈万岁!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/175108.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MFC实现堆栈窗口:多个子界面可任意切换

1、效果 在Qt中可使用QStackedWidget控件直接拖动布置即可实现,但在MFC中并未提供类似的控件,因此需要自己简单实现。 2、实现原理 实现原理比较简单,父级对话框在显示的区域部分,通过切换子对话框即可实现。子对话框去掉边框后…

idea使用MyBatisX插件

1.MyBatisX功能 (1).实现mapper和xml的跳转 (2).自动生成java文件,比如mapper、service、dao、pojo 2.安装MyBatisX插件 install后然后重启idea即可 3.使用MyBatieX实现mapper和xml跳转 (1).点击mapper中的红色图标即可跳转到对应的xml方…

一文告诉你样机是什么,分享几个常用的样机模板

一个项目的诞生通常需要经历头脑构思、绘制设计和最终着陆。在这个过程中,样机制作往往是在着陆实践之前进行的。俗话说:“样机使用得好,草稿过早”。样机设计是产品或网站最终设计的生动、静态和视觉表现。它为用户提供了一种模拟现实的方式…

腾讯云轻量应用服务器“月流量”不够用怎么办?

腾讯云轻量应用服务器“月流量”不够用怎么办?超额部分支付流量费,价格为0.8元/GB。腾讯云轻量服务器月流量什么意思?月流量是指轻量服务器限制每月流量的意思,不能肆无忌惮地使用公网,流量超额需要另外支付流量费&…

电子学会C/C++编程等级考试2023年05月(六级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:字符串插入 有两个字符串str和substr,str的字符个数不超过10,substr的字符个数为3。(字符个数不包括字符串结尾处的’\0’。)将substr插入到str中ASCII码最大的那个字符后面,若有多个最大则只考虑第一个。 时间限制:1000 …

Nginx性能优化

简介 nginx作为常用的web代理服务器,某些场景下对于性能要求还是蛮高的,所以本片文章会基于操作系统调度以及网络通信两个角度来讨论一下Nginx性能的优化思路。 基于操作系统调度进行Nginx优化 CPU工作方式 对于用户进程,CPU会按照下面的…

家政服务系统小程序app开发功能架构;

家政服务小程序系统,轻松搭建上门服务小程序。支持H5与小程序双端,还能DIY页面。根据您的需求,我们可定制开发家政服务小程序系统。想添加多种服务类目、优惠专区以及IM即时沟通功能?没问题,我们支持!想要快…

uniapp保存网络图片

先执行下载uni.downloadFile接口,再执行保存图片uni.saveImageToPhotosAlbum接口。 // 保存二维码 saveQrcode() {var _this this;uni.downloadFile({url: _this.qrcodeUrl, //二维码网络图片的地址success(res) {console.log(res);uni.saveImageToPhotosAlbum({fi…

spring boot配置ssl(多cer格式)保姆级教程

1. 准备cer格式的证书; 2. 合并cer证书并转化成jks格式的证书 为啥有这一步,因为cer证书配置在spring boot项目中,项目启动不起来。如果有大佬想指导一下可以给我留言,在此先谢过大佬。 1)先创建一个jks格式的证…

hack_me_please靶机攻略

hack_me_please 扫描 探查无果,扫描js的时候有结果 访问可以看到 该页面可以看到是SeedDMS搭的 应该和CMS类似 渗透 漏洞库查找一下有没有该漏洞 使用whatweb扫描一下刚才的页面 whatweb http://10.4.7.154/seeddms51x/seeddms-5.1.22/ 这个版本高于漏洞库的&a…

<学习笔记>从零开始自学Python-之-常用库篇(十三)内置小型数据库shelve

一、shelve简介: shelve是Python当中数据储存的方案,类似key-value数据库,便于保存Python对象,shelve只有一个open()函数,用来打开指定的文件(字典),会返回一…

从0到1之微信小程序快速入门(基础知识)

目录 JSON 配置文件 WXML 模板 WXSS 样式 JS 逻辑交互 微信小程序中,每个页面由4 个基本文件组成,它们分别是:js文件(页面的脚本文件,存放页面的数据、事件处理函数等)、json文件(当前页面的配置文件,配置窗口的外…

excel技巧

excel技巧 🍓选中🍓填充🍓日期🍒🍒 日期快捷方式🍒🍒 日期计算🍒🍒时间相减 🍓求和🍓去除小数点🍓美化表格🍒&#x1f352…

Kubernetes Service 详解

Author:rab 目录 前言一、ClusterIP1.1 简介1.2 案例 二、NodePort2.1 简介2.2 案例 三、LoadBalancer3.1 简介3.1.1 MetalLB 简介3.1.2 MetalLB 部署3.1.3 MetalLB 配置3.1.3.1 Layer 2 模式3.1.3.2 BGP 模式 3.2 案例3.2.1 部署3.2.2 验证 四、ExternalName4.1 简…

计算机视觉 激光雷达结合无监督学习进行物体检测的工作原理

一、简述 激光雷达是目前正在改变世界的传感器。它集成在自动驾驶汽车、自主无人机、机器人、卫星、火箭等中。该传感器使用激光束了解世界,并测量激光击中目标返回所需的时间,输出是点云信息,利用这些信息,我们可以从3D点云中查找障碍物。 从自动驾驶汽车的角度看激光雷达…

【PyQt学习篇 · ②】:QObject - 神奇的对象管理工具

文章目录 QObject介绍Object的继承结构测试QObject对象名称和属性QObject对象名称和属性的操作应用场景 QObject父子对象QObject父子对象的操作 QObject的信号与槽QObject的信号与槽的操作 QObject介绍 在PyQt中,QObject是Qt框架的核心对象之一。QObject是一个基类…

长图切图怎么切

用PS的切片工具 切片工具——基于参考线的切片——ctrl+shift+s 过长的图片怎么切 ctrl+alt+i 查看图片的长宽看图片的长宽来切成两个板块(尽量中间切成两半)用选区工具选中下半部分的区域——在选完时不…

leetcode-栈与队列

C中stack 是容器么? 栈,队列往往不被归类为容器,而被归类为container adapter(容器适配器)。因为由底层的容器实现,同时使用适配器模式的设计模式,封装了一层。 我们使用的stack是属于哪个版本的STL?SGI ST…

UE5实现相机水平矫正

UE5实现相机水平矫正 思路,用HIT获得基于相机视角的 离散采样点,然后根据距离相机距离进行权重分析。 距离越近,采样约中心,即越接近人眼注意点,最后算出加权平均高度,赋予给相机,相机将水平旋…

如何用ATECLOUD进行芯片各项性能指标的测试?

功能测试:主要涵盖输入测试向量和响应的一致性。功能测试可以覆盖极高比例的逻辑电路的失效模型。 Parametric测试:有DC和AC测试。DC主要是短路(short)、开路(open)、最大电流(maximmum current)、漏电流(leakage)、输出驱动电流(output drivel current…