从0开始深度学习(14)——模型选择、欠拟合、过拟合

① 模型在训练数据上拟合的比在潜在分布中更接近的现象,就叫过拟合(overfitting)
② 用于对抗过拟合的技术称为正则化(regularization)

1 训练误差和泛化误差

①训练误差(training error): 模型在训练数据集上计算得到的误差。
②泛化误差(generalization error): 一个模型在训练完毕后,应用于新的、未见过的数据集时所产生的误差。它反映了模型在处理真实世界中样本的能力,而不仅仅是在训练集上的表现。

2 统计学习理论

泛化是机器学习中的基本问题, 在同名定理(eponymous theorem)中, 格里文科和坎特利推导出了训练误差收敛到泛化误差的速率。 在一系列开创性的论文中, Vapnik和Chervonenkis 将这一理论扩展到更一般种类的函数。 这项工作为统计学习理论奠定了基础。

们假设训练数据和测试数据都是从相同的分布中独立提取的。 这通常被称为独立同分布假设。

有时候我们即使轻微违背独立同分布假设,模型仍将继续运行得非常好。 比如,我们有许多有用的工具已经应用于现实,如人脸识别、语音识别和语言翻译。

有些违背独立同分布假设的行为肯定会带来麻烦。 比如,我们试图只用来自大学生的人脸数据来训练一个人脸识别系统, 然后想要用它来监测疗养院中的老人。 这不太可能有效,因为大学生看起来往往与老年人有很大的不同。

当我们训练模型时,我们试图找到一个能够尽可能拟合训练数据的函数。 但是如果它执行地“太好了”,而不能对看不见的数据做到很好泛化,就会导致过拟合。

3 模型的复杂性

当我们有简单的模型大量的数据时,我们期望泛化误差与训练误差相近。
当我们有更复杂的模型更少的样本时,我们预计训练误差会下降,但泛化误差会增大

通常对于神经网络,我们认为需要更多训练迭代的模型比较复杂, 而需要早停(early stopping)的模型(即较少训练迭代周期)就不那么复杂。

本节为了给出一些直观的印象,我们将重点介绍几个倾向于影响模型泛化的因素。

  1. 可调整参数的数量。当可调整参数的数量(有时称为自由度)很大时,模型往往更容易过拟合。
  2. 参数采用的值。当权重的取值范围较大时,模型可能更容易过拟合。
  3. 训练样本的数量。即使模型很简单,也很容易过拟合只包含一两个样本的数据集。而过拟合一个有数百万个样本的数据集则需要一个极其灵活的模型。

4 模型选择

在机器学习中,我们通常在评估几个候选模型后选择最终的模型, 这个过程叫做模型选择。 为了确定候选模型中的最佳模型,我们通常会使用验证集。

4.1 验证集

我们在训练集进行训练,调整模型的参数,使得模型能够拟合训练数据的特征。

我们在验证集进行调优,用于调优模型的超参数或架构,比如选择最佳的模型结构、调整正则化参数等。

我们在测试集进行评估,在模型训练完毕后,用于评估模型的最终性能。

4.2 K折交叉验证

当训练数据稀缺时,我们甚至可能无法提供足够的数据来构成一个合适的验证集。

此时便会采用 K K K 折交叉验证,原始训练数据被分成 K K K 个不重叠的子集,然后执行 K K K 次模型训练和验证,每次在 K − 1 K-1 K1 个子集上进行训练, 并在剩余的一个子集(在该轮中没有用于训练的子集)上进行验证。 最后,通过对 K K K 次实验的结果取平均来估计训练和验证误差。

5 欠拟合和过拟合

①欠拟合: 在训练集和测试集上的表现都不好。欠拟合通常是由于模型过于简单,无法捕捉数据的复杂结构。
②过拟合: 在模型在训练数据上表现得过于出色,但在验证集或新数据上表现较差。

注意:过拟合不一定是坏事:众所周知, 最好的预测模型在训练数据上的表现往往比在验证数据上好得多。 最终,我们通常更关心验证误差,而不是训练误差和验证误差之间的差距。

是否过拟合或欠拟合可能取决于模型复杂性和可用训练数据集的大小, 这两个点将在下面进行讨论。

5.1 模型复杂度

为了说明一些关于过拟合和模型复杂性的经典直觉, 我们给出一个多项式的例子。

假设有单个特征 x x x 和对应实数标签 y y y 组成的训练数据集,我们试图通过 d d d阶多项式来估计标签 y y y
在这里插入图片描述
这是一个线性回归问题,可以使用平方差来作为损失函数。我们已知高阶多项式比低阶多项式复杂得多,所以有以下关系:
在这里插入图片描述
随着模型复杂度增加,训练损失在不断减小,但是泛化损失却反而从最低点开始不断增大

5.2 数据集大小

训练数据集中的样本越少,我们就越有可能(且更严重地)过拟合。 随着训练数据量的增加,泛化误差通常会减小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/451814.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gee引擎配置微端后登录游戏黑屏怎么办?

GEE引擎配置微端后登录游戏黑屏怎么办?今天飞飞和你们分享GEE引擎配置微端后游戏黑屏的解决办法,希望可以帮助到你~ 1、端口不对 微端没有更新,玩家进入游戏是地图跟装备都看不见,是漆黑的,微端显示连接失败&#xff…

c语言字符串函数strstr,strtok,strerror

1,strtok函数的使用和模拟实现 char * strtok(char * str,const char * sep) 会有static修饰变量,有记忆功能,会保存字符串的位置,下次找再继续找。 1)sep参数指向一个字符串,它包含了0个或者多个由sep字符中一个或…

极客wordpress模板

这是一个展示WordPress主题的网页设计。页面顶部有一个导航栏,包含多个选项,如“关于我们”、“产品中心”、“案例展示”、“新闻动态”、“联系我们”和“技术支持”。页面中间部分展示了多个产品,每个产品都有一个图片和简短的描述。页面下…

JUC并发编程进阶2:CompletableFuture

1 Future接口理论知识复习 Future接口(FutureTask实现类)定义了操作异步任务执行一些方法,如获取异步任务的执行结果、取消异步任务的执行、判断任务是否被取消、判断任务执行是否完毕等 举例:比如主线程让一个子线程去执行任务…

TCP(三次握手)和UDP(面向无连接)的原理以及区别

TCP(三次握手)和UDP(面向无连接)的原理以及区别 网络协议是每个前端工程师都必须要掌握的知识,TCP/IP 中有两个具有代表性的传输层协议。 概述 📡TCP(Transmission Control Protocol)是一种网络协议&#…

【opengles】笔记1:屏幕坐标与归一化坐标(NDC)的转换

参考资料 OpenGL希望在所有顶点着色器运行后,所有我们可见的顶点都变为标准化设备坐标(Normalized Device Coordinate, NDC)。也就是说,每个顶点的x,y,z坐标都应该在-1.0到1.0之间,超出这个坐标范围的顶点都将不可见。…

【Python】NumPy(二):数组运算、数据统计及切片索引、广播机制

目录 Numpy数组 数组的基本运算 乘法 加法 数组的数据统计 平均值 中位数 最大值和最小值 求和 累积和 标准差 方差 切片和索引 索引 一维数组的索引 二维数组的索引 获取多个元素 布尔索引 切片 一维数组切片 二维数组切片 多维数组切片 广播机制 规则 …

Seata序列化优化

Apache Seata(incubating) 是一款开源的分布式事务解决方案,致力于在微服务架构下提供高性能和简单易用的分布式事务服务。 本篇文章主要介绍Seata序列化实现优化。Seata对于网络传输数据,提供了多种序列化实现,包含Seata自身的序列化实现、…

一元n次多项式加法【数据结构-链表】

一元n次多项式定义如下: 其中Ai​为实数,i为不小于0的整数。在完成“一元n次多项式输入输出”题目的基础上实现一元n次多项式的加法。要求用链表实现上述一元n次多项式的操作。 输入格式: 有两个一元n次多项式,例如分别为: f(X)…

80.【C语言】数据结构之时间复杂度

目录 1.数据结构的定义 2.算法的定义 3.算法的效率 1.衡量一个算法的好坏的方法 例题:计算以下代码的循环次数 2.大O的渐进表示法 练习1:求下列代码的时间复杂度 练习2:求下列代码的时间复杂度 练习3:求下列代码的时间复杂度 练习4:求下列代码的时间复杂度 4.总结:计…

Leetcode—1115. 交替打印 FooBar【中等】(多线程)

2024每日刷题(180) Leetcode—1115. 交替打印 FooBar C实现代码 class FooBar { private:int n;sem_t fooSem;sem_t barSem;public:FooBar(int n) {this->n n;sem_init(&fooSem, 0, 1);sem_init(&barSem, 0, 0);}~FooBar() {sem_destroy(&…

mac安装brew时踩坑解决方案

安装包 mac上如果按照git等工具可能会使用brew,例如使用:$ brew install git命令,如果电脑没有按照brew,则会提示:zsh: command not found: brew 解决方案 需要我们打开brew的官网https://brew.sh/,复制…

机器学习|Pytorch实现天气预测

机器学习|Pytorch实现天气预测 🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 电脑系统:Windows11 显卡型号:NVIDIA Quadro P620 语言环境:python 3.9.7 编译器&#x…

得物App3D创新应用引关注,世界设计之都大会启幕

近日,2024世界设计之都大会(WDCC)在上海盛大启幕。此次大会以“设计无界 新质生长”为主题,汇聚了全球设计领域的精英与前沿成果,展现了设计作为新质生产力的巨大潜力。主场展览占据了整整3个楼面,总面积达…

进程间关系与守护进程

一、进程组 1.1、什么是进程组 提到进程的概念, 其实每一个进程除了有一个进程 ID(PID)之外 还属于一 个进程组。进程组是一个或者多个进程的集合, 一个进程组可以包含多个进程。 每一 个进程组也有一个唯一的进程组 ID(PGID), 并且这个 PG…

SCI英文文献阅读工具【全文翻译】【逐句翻译】

关注B站可以观看更多实战教学视频:hallo128的个人空间 SCI英文文献阅读工具【全文翻译】【逐句翻译】 1. 全文翻译【DeepL】 适用于泛读网址:https://www.deepl.com/zh/translator/files 1.1 前提 文档大小:pdf文档不超过5M(可先…

设计模式05-创建型模式(建造者/原型/单例模式/Java)

3.4 建造者模式 3.4.1 建造者模式的定义 动机:方便创建复杂对象(一个对象中包含多个成员变量) 定义:将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。建造者模式是一步一步创建一个复杂…

计算机视觉中的最小二乘法:寻找完美交点和直线拟合

Hello,小伙伴们!今天我们要聊的是计算机视觉中的一个小技巧——使用最小二乘法来进行交点计算和直线拟合。你有没有想过,如何从一堆杂乱无章的数据点中找到那条最佳拟合直线?或者,如何确定几条直线相交的确切位置&…

OpenCV物体跟踪:使用CSRT算法实现实时跟踪

目录 简介 CSRT算法简介 实现步骤 1. 初始化摄像头和跟踪器 2. 读取视频帧和初始化跟踪 3. 实时跟踪和显示结果 4. 显示和退出 5、结果展示 总结 简介 在计算机视觉和视频处理领域,物体跟踪是一项核心技术,它在监控、人机交互、运动分析等方面…

CSS布局/简单应用

思考下面四个图片如何布局 test1 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</titl…