机器学习/深度学习——模型的欠拟合和过拟合,正则化方法详解

机器学习/深度学习——模型的欠拟合和过拟合,正则化方法 详解

搭配以下文章进行学习:

卷积神经网络:
深度学习——卷积神经网络(convolutional neural network)CNN详解(一)——概述. 步骤清晰0基础可看

深度学习——卷积神经网络(convolutional neural network)CNN详解(二)——前向传播与反向传播过程(特征提取+预测+反向传播更新参数). 步骤清晰0基础可看

简单的神经网络详解:
深度学习——神经网络(neural network)详解(一). 带手算步骤,步骤清晰0基础可看

深度学习——神经网络(neural network)详解(二). 带手算步骤,步骤清晰0基础可看

梯度下降法:
机器学习/深度学习——梯度下降法(Gradient descent)详解. 步骤清晰 0基础可看

1.数据集划分

(1)训练集(Training Set):

用途:用于模型的训练过程,即学习数据特征和进行参数调优。

比例:通常是数据集中的最大部分,常见的比例为60%-70%。

(2)验证集(Validation Set):

用途:用于模型的调整和选择,比如选择模型的超参数、正则化系数等。验证集帮助我们评估模型在训练集之外的数据上的表现,以避免过拟合。

比例:在没有单独测试集的情况下,验证集可以稍大一些,常见的比例为20%-30%。如果存在单独的测试集,验证集可以较小,比如10%-20%。

(3)测试集(Test Set):

用途:用于最终评估模型的性能。测试集应该在整个模型选择和训练过程结束后只使用一次,以确保评估结果的公正性。
比例:测试集应足够大,以提供可靠的性能估计,常见的比例为10%-20%。

(4)交叉验证集(Cross-Validation Set,可选):

用途:在数据量有限的情况下,可以使用交叉验证来更有效地利用数据。交叉验证通过将训练集分割成多个小的子集,每个子集轮流作为验证集,而剩余的数据作为训练集,这样可以减少过拟合的风险并提高模型评估的可靠性。

方法:常见的交叉验证方法有K折交叉验证(K-fold cross-validation),其中K通常取值5或10。

(5)数据集划分的一般比例:

一个常见的划分比例是:训练集70%,验证集20%,测试集10%,即7:2:1。如果数据量很大,可能使用60%的训练集,20%的验证集和20%的测试集,6:2:2

详细知识点请见:深度学习——卷积神经网络(convolutional neural network)CNN详解(一)——概述. 步骤清晰0基础可看

2.欠拟合(Underfitting)

(1)定义:当一个模型在训练数据上都不能获得满意的性能,即模型太简单,没有学习到数据中的潜在结构和模式。

(2)原因:模型过于简单,参数太少;特征选择不当,重要特征缺失;训练时间过短,模型没有收敛到理想状态。
表现:训练误差和测试误差都较大。

(3)解决方法:增加模型复杂度、添加更多的特征、减少正则化强度、使用更复杂的模型或算法、增加训练数据、延长训练时间等。

如图所示:训练集和验证集的误差都很高,并且随着样本数量的增加,误差并没有显著下降,这通常表明模型是欠拟合的。

在这里插入图片描述

3.过拟合(Overfitting)

定义:当一个模型在训练数据上表现得非常好,但是在未见过的新数据上表现差,即模型对训练数据中的噪声和细节学习得太多,失去了泛化能力。

原因:模型过于复杂,拥有过多的参数;训练数据不足够或质量不高;训练时间过长,导致模型学习到数据中的随机误差。

表现:训练误差很小,但验证误差或测试误差较大。

解决方法:获取更多的数据、减少模型复杂度、使用正则化方法(如L1、L2正则化)、应用Dropout(在深度学习中)、使用数据增强、调整模型训练的迭代次数等。

如图所示:在训练集数目较小的时候,非常容易出现过拟合情况,所以我们可以看到曲线的开始部分,验证集误差很高,可是训练集误差却很小,这是典型的过拟合现象,表明在训练集上出现的超低误差是因为模型过度学习训练集造成的。但是随着训练集样本的增多,过拟合情况缓解,验证集的误差逐步降低,训练集的误差逐步升高。

过拟合

4.正则化是什么?

正则化是在模型的损失函数中添加一个额外的项,这个项通常与模型参数的某种度量(如参数的大小或复杂度)成比例。通过这种方式,正则化有助于简化模型,避免模型过于复杂而学习到数据中的噪声。

常见类型:

(1) L1 正则化(Lasso 正则化)

向损失函数添加参数的绝对值之和,促使模型学习到的权重尽可能稀疏(即有更多的参数变为零),这有助于特征选择。
L1

(2) L2 正则化(Ridge 正则化)

向损失函数添加参数的平方和,促使模型学习到的权重尽可能小,这有助于模型平滑。
L2

(3)弹性网(Elastic Net)正则化

结合了L1和L2正则化,同时考虑参数的绝对值和平方。
弹性网正则化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/397492.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解析HAProxy:构建高可用负载均衡的终极指南

目录 haproxy配置文件组成 实验环境 haproxy安装 haproxy的配置文件说明 全局配置段global 多进程和多线程配置 代理配置段proxies server配置说明 实验相关配置 测试效果: haproxy的状态页 socat命令 socat命令的一些常用示例 HAProxy的调度算法 静…

网鼎杯-2018-Web-Unfinish

先尝试万能注入: 如果万能注入缺少符号,如果加符又进不去,那我们尝试扫描文件,然后发现有一个register.php的文件,应该是注册页面,我们去打开 知道存储的文件,并利用状态码进行过滤 我们注册的用户名就是aa…

【Redis 进阶】集群(重点理解流程和原理)

一、基本概念 前面学习的哨兵模式,提高了系统的可用性。但是真正用来存储数据的还是 master 和 slave 节点,所有的数据都需要存储在单个 master 和 slave 节点中。如果数据量很大,接近超出了 master / slave 所在机器的物理内存&#xff0c…

【数据结构详解】——冒泡排序(动图详解)

目录 🕒 1. 冒泡排序 🕒 1. 冒泡排序 💡 算法思想:两两比较相邻记录的关键字,如果反序则交换,直到没有反序的记录为止。一共进行n-1趟这样的交换将可以把所有的元素排好。 代码实现如下: voi…

uniapp点击图片预览,关闭预览图片后自动触发onshow生命周期,怎么解决?

第一,页面的数据会实时更新,所以接口请求需要在onshow中,变量figh初始为true,数据列表信息可直接调用获取 当点击查看图片时改变,变量figh为false,此时onshow里面的this.postlist()不触发。 此时&#xff0…

国产大模型市场遇冷:挑战与机遇并存,一般人学大模型,我劝你算了吧

前阵子,大模型赛道非常热闹,360、字节、KIMI、知乎等公司纷纷召开发布会,推出自己独具特色的新产品,一时间引发市场的不少想象和讨论。在看似百花齐放、万紫千红的同时,K哥也观察到了一些不好的迹象,这些“…

【软件测试】功能测试理论基础

目录 项目的测试流程🏴 需求评审 评审形式 测试人员在需求评审中职责 测试计划与方案 测试计划 问题 测试方案🏴 测试计划与方案的对比 功能测试设计🏴 测试设计的步骤 项目的测试流程🏴 作用: 有序有效开展…

力扣Hot100-994腐烂的橘子

中等 在给定的 m x n 网格 grid 中,每个单元格可以有以下三个值之一: 值 0 代表空单元格;值 1 代表新鲜橘子;值 2 代表腐烂的橘子。 每分钟,腐烂的橘子 周围 4 个方向上相邻 的新鲜橘子都会腐烂。 返回 直到单元格…

MiniCPM-V: A GPT-4V Level MLLM on Your Phone 手机上的 GPT-4V 级多模态大模型

GitHub - OpenBMB/MiniCPM-V: MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone 2408.01800 (arxiv.org) 目录 Introduction Model Architecture Training End-side Deployment MiniCPM-V是一种高效的多模态大型语言模型&…

cad文字转arcgis注记

cad中文字转为arcgis注记,步骤如下: 1、将dwg文件下annotation文件加到图层中 2、文件点击右键,转换地理数据库注记 3、 导入默认地理数据库中,或自己新建地理数据库,起个文件名、点确定(注意&#xff1a…

手机CPU性能天梯图(2024年8月),含安兔兔/GB6/3DMark跑分

原文地址(高清无水印原图/持续更新/含榜单出处链接): 2024年8月手机处理器天梯图 2024年8月1日更新日志:由于近期并未有新处理器发布,故只做常规更新;移除鲁大师天梯图;补充其它天梯图数量。 -…

Leetcode - 周赛409

目录 一,3242. 设计相邻元素求和服务 二,3243. 新增道路查询后的最短距离 I 三,3244. 新增道路查询后的最短距离 II 四,3245. 交替组 III 一,3242. 设计相邻元素求和服务 本题纯模拟,代码如下&#xff…

工业三防平板助力MES系统打造工厂移动式生产管理

随着工业4.0时代的到来,智能制造、数字化车间等概念层出不穷,生产过程的可视化管理也成为了企业提升效率、优化生产的关键。而工业三防平板,凭借其坚固耐用、功能强大、便携易用等特性,成为了实现生产过程可视化管理的重要利器&am…

服务器网络磁盘挂载

一、Ping测试 先测试磁盘网络的连通性 例如:这里申请的网络磁盘是: 127.0.0.1:/shareData ping 127.0.0.1二、挂载 确认连通后,确定需要挂载的目录,这里服务器的挂载目录为:/data/share (自主选择创建目录…

1985-2023年中国城市统计年鉴(PDF+EXCEL)

1985-2023年中国城市统计年鉴 1、时间:1985-2023年 2、格式:1985-2023年PDF版本,1993-2023年excel格式 3、说明:中国城市统计年鉴收录了全国各级城市社会经济发展等方面的主要统计数据,数据来源于各城市的相关部门。…

算法3:二分查找(下)

文章目录 寻找峰值寻找旋转数组最小值 寻找峰值 class Solution { public:int findPeakElement(vector<int>& nums) {int left 0, right nums.size() - 1;while(left < right){int mid left (right - left) / 2;if(nums[mid] < nums[mid 1])left mid 1;…

漏洞复现-F5 BIG-IP 存在远程代码执行漏洞 (CVE-2023-46747)

1.漏洞描述 F5 Networks是全球范围内应用交付网络&#xff08;ADN&#xff09;领域的知名厂商&#xff0c;致力于帮助全球大型企业和服务提供商实现虚拟化、云计算和灵活的IT业务服务。。 F5 BIG-IP 存在远程代码执行漏洞。未经身份验证的攻击者可能会绕过配置实用程序身份验…

大话设计模式:七大设计原则

目录 一、单一职责原则&#xff08;‌Single Responsibility Principle, SRP&#xff09;‌ 二、开放封闭原则&#xff08;‌Open-Closed Principle, OCP&#xff09; 三、依赖倒置原则&#xff08;‌Dependency Inversion Principle, DIP&#xff09; 四、里氏替换原则&am…

Java事务失效

目录 传送门一、概念1、事务的传播类型2、isolation3、Transactionnal注解属性 二、事务失效场景1、异常捕获2、异步处理3、final修饰事务方法4、非public5、T范围小了6、不加T或者事务传播用了NOT_SUPPORTED这种不支持事务7、数据库MyISAM不支持事务8、事务方法未被Spring管理…

Unity URP 曲面细分学习笔记

学百人时遇到了曲面着色器的内容&#xff0c;有点糊里糊涂&#xff0c;于是上知乎找到了两篇大佬的文章 Unity URP 曲面细分 和 Unity曲面细分笔记&#xff0c;本文只是自己做学习记录使用 1.曲面细分与镶嵌 曲面细分或细分曲面&#xff08;Subdivision surface&#xff09;是…