【深度学习】第二门课 改善深层神经网络 Week 2 3 优化算法、超参数调试和BN及其框架

🚀Write In Front🚀
📝个人主页:令夏二十三
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏:深度学习
💬总结:希望你看完之后,能对你有所帮助,不足请指正!共同学习交流 🖊

文章目录

目录

文章目录

2.1 优化算法分类

2.2 超参数调试和BN及框架


2.1 优化算法分类

深度学习中的优化算法主要包括以下几种:

  1. 批量梯度下降(Batch Gradient Descent):这种方法涉及对整个训练数据集进行一次完整的遍历来计算梯度。然而,随着数据集的增大,这种方法的计算量也会增加。

  2. 小批量梯度下降(Mini-batch Gradient Descent):为了解决批量梯度下降的计算量问题,可以将数据集划分为多个较小的批次(mini-batches),并使用每个批次来计算梯度。这种方法既减少了计算量,又避免了随机梯度下降的噪声。

  3. 动量梯度下降(Momentum Gradient Descent):这种方法通过引入动量概念来加速学习过程。它考虑了之前的梯度信息,从而减少了学习过程中的震荡。

  4. RMSprop:这种方法在动量梯度下降的基础上,还考虑了梯度的平方,这有助于确定学习率,特别是在数据分布不均匀的情况下。

  5. Adam优化算法:这是一种自适应学习率的方法,结合了动量梯度下降和RMSprop的特点,能够更有效地处理非平稳目标函数。

这些优化算法在深度学习中起着关键作用,它们帮助模型更快地收敛并提高其性能。选择合适的优化算法取决于具体问题的性质和数据的特点。

除了这些梯度下降算法层面的优化,还有一些其他的优化手段,比如随着 epoch 的增大逐渐衰减学习率:(这里用t代表当前训练的迭代次数下标)

 它们主要可以改善 mini-batch 带来的训练末期参数反复震荡的问题,不过就是会导致超参数的增加。

2.2 超参数调试和BN及框架

在深度学习中,超参数调试是指调整模型中的超参数以优化模型性能的过程。这些超参数包括学习率、批量大小、隐藏层神经元数量、网络层数等。通过实验和观察,研究人员可以找到最佳的超参数设置,以提高模型的准确性和泛化能力。

下面按照重要程度对神经网络中的一些超参数进行排序:

  1. 学习率α
  2. mini-batch大小
  3. 隐藏层神经元数量
  4. 动量梯度下降法滤波系数β
  5. 隐藏层个数
  6. 学习率衰减系数
  7. Adam优化方法参数

批量归一化(Batch Normalization, BN)是一种深度学习技术,用于加速训练过程并减少过拟合的风险。BN通过对每个小批量数据在激活函数之前进行归一化处理,使得每层输入的分布更加稳定,从而有助于解决内部协变量偏移问题,提高模型的泛化能力。

批量归一化(Batch Normalization,简称BN)是深度学习中一种用于提高训练速度和稳定性的技术。它的主要作用是对神经网络的每一层的输入数据进行归一化处理,即使得这些数据的分布保持一致。这样做有几个好处:

  1. 加速学习过程:通过归一化,可以允许使用更高的学习率,而不担心数值问题,从而加速模型的收敛速度。

  2. 减少过拟合:BN通过减少内部协变量偏移(Internal Covariate Shift)现象,即每层输入分布的变化,有助于模型更好地泛化。

  3. 减少对初始化的依赖:在没有BN的情况下,网络中每一层的输入分布会随着前面层参数的更新而变化,这要求对网络进行细致的初始化。BN减轻了这一需求。

批量归一化的具体步骤如下:

  1. 计算批均值和批方差:对每个特征在小批量数据上进行平均和方差的计算。

  2. 归一化:对每个特征进行归一化处理,使其具有均值为0和方差为1的分布。这通常通过减去均值并除以方差的平方根来实现。

  3. 缩放和平移:引入两个可学习的参数——缩放因子(γ)和平移因子(β),对归一化后的数据进行缩放和平移,以恢复网络的表示能力。

  4. 应用激活函数:在归一化、缩放和平移之后,对数据进行非线性激活。

批量归一化的关键在于它是在每个小批量(mini-batch)上进行的,而不是在整个数据集上。这使得归一化过程可以随数据的流动而动态调整,而不是固定不变。

BN在深度学习模型中广泛应用,尤其是在卷积神经网络(CNN)和前馈神经网络中,它有助于模型的训练效率和性能提升。然而,值得注意的是,BN在某些情况下可能不是最佳选择,例如在循环神经网络(RNN)中,或者在数据批量非常小的情况下,BN的效果可能不佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/320547.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt5 框架学习及应用 — 对象树

Qt 对象树 对象树概念Qt为什么使用对象树 ?将对象挂到对象树上 对象树概念 对象树:对于树的概念,相信许多学过数据结构的同学应该都不会陌生。在学习数据结构的时候我们所接触的什么二叉树、多叉树、哈夫曼树、AVL树、再到红黑树、B/B树………

【LeetCode刷题】739. 每日温度(单调栈)

1. 题目链接2. 题目描述3. 解题方法4. 代码 1. 题目链接 739. 每日温度 2. 题目描述 3. 解题方法 用一个栈st保存每个数的下标,同时创建一个数组res保存结果,初始值都为0。循环遍历题目中的数组temperature。如果temperature[i] > st.top()&#x…

Vue入门到关门之Vue3项目创建

一、vue3介绍 1、为什么要学习vue3? vue3的变化: 首先vue3完全兼容vue2,但是vue3不建议用vue2的写法;其次,vue3拥抱TypeScript,之前vue2使用的JavaScript,ts完全兼容js 最后之前学的vue2 是…

pytest教程-36-钩子函数-pytest_collection_start

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了pytest_unconfigure钩子函数的使用方法,本小节我们讲解一下pytest_collection_start钩子函数的使用方法。 pytest_collection_start(session) 是一个 pytest 钩子函数,…

深度学习之DCGAN

目录 须知 转置卷积 DCGAN 什么是DCGAN 生成器代码 判别器代码 补充知识 LeakyReLU(x) torch.nn.Dropout torch.nn.Dropout2d DCGAN完整代码 运行结果 图形显示 须知 在讲解DCGAN之前我们首先要了解转置卷积和GAN 关于GAN在这片博客中已经很…

LLVM的ThinLTO编译优化技术在Postgresql中的应用

部分内容引用:https://blog.llvm.org/2016/06/thinlto-scalable-and-incremental-lto.html LTO是什么? 链接时优化(Link-time optimization,简称LTO)是编译器在链接时对程序进行的一种优化。它适用于以文件为单位编译…

怎么ai自动答题?方法揭晓!

怎么ai自动答题?在数字化和信息化的浪潮中,人工智能(AI)技术日新月异,逐渐渗透到我们生活的方方面面。其中,AI自动答题软件作为辅助学习的工具,受到了越来越多学生和考生的青睐。它们不仅能够帮…

欢乐钓鱼大师脚本,游戏托管一键操作!

欢迎来到《钓鱼大师乐趣无穷》!这里是一片充满了乐趣和挑战的钓鱼天地。不论你是刚刚入门的小白,还是已经成为老手的大神,本攻略将为你揭示如何在游戏中获得成功,并针对稀有鱼类的钓鱼技巧进行详细介绍。 一、初探钓鱼的乐趣 在《…

Bookends for Mac:文献管理工具

Bookends for Mac,一款专为学术、研究和写作领域设计的文献管理工具,以其强大而高效的功能深受用户喜爱。这款软件支持多种文件格式,如PDF、DOC、RTF等,能够自动提取文献的关键信息,如作者、标题、出版社等&#xff0c…

0506_IO1

思维导图: 练习: 有如下结构体 struct Student{ char name[16]; int age; double math_score; double chinese_score; double english_score; double physics_score; double chemistry_score; double bio_score; }; 申请该结构体数组,容量为…

【简单介绍下7-Zip】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

【春招特供】Unity面试题总结 | Unity基础篇

物体发生碰撞的必要条件? 两个物体都必须带有碰撞器(Collider),其中一个物体还必须带有Rigidbody刚体,而且必须是运动的物体带有Rigidbody脚本才能检测到碰撞。 2. Unity3d中的碰撞器和触发器的区别? 碰…

Spring Security + JWT 实现登录认证和权限控制

Spring Security JWT 实现登录认证和权限控制 准备步骤 准备好一些常用的工具类,比如jwtUtil,redisUtil等。引入数据库,mybatis等,配置好controller,service,mapper,保证能够正常的数据请求。…

Debian是什么?有哪些常用命令

目录 一、Debian是什么? 二、Debian常用命令 三、Debian和CentOS的区别 四、Debian和CentOS的优缺点 五、Debian和CentOS的运用场景 一、Debian是什么? Debian是一种流行的开源Linux操作系统。 Debian是一个以Linux内核为基础的操…

数据结构十一:数组相关经典面试题

本篇博客详细介绍分析数组/顺序表常见的面试题,对于前面所学知识进行一个巩固,同时介绍一些力扣刷题中的一些概念:如:输出型参数等,在刷题中培养自己的编程思维,掌握常见的编程套路,形成题感&am…

php基础知识快速入门

一、PHP基本知识 1、php介绍: php是一种创建动态交互性的强有力的服务器脚本语言,PHP是开源免费的,并且使用广泛。PHP是解释性语言,按顺序从上往下执行,无需编译,直接运行。PHP脚本在服务器上运行。 2、ph…

瑞_23种设计模式_解释器模式

文章目录 1 解释器模式(Interpreter Pattern)1.1 介绍1.2 概述1.2.1 文法(语法)规则1.2.2 抽象语法树 1.3 解释器模式的结构1.4 解释器模式的优缺点1.5 解释器模式的使用场景 2 案例一2.1 需求2.2 代码实现 3 案例二3.1 需求3.2 代…

基于JSP的酒店客房管理系统(三)

目录 第四章 系统各模块的实现 4.1客房管理系统首页的实现 4.1.1 客房管理系统首页概述 4.2客房管理系统前台的实现 4.2.1 客房管理系统前台概述 4.2.2 客房管理系统前台实现过程 4.2.3 预定客房信息及客房信息的查询 4.3客房管理系统后台的实现 4.3.1 客房管理系统后…

基于springboot+vue+Mysql的在线动漫信息平台

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

[蓝桥杯2024]-PWN:ezheap解析(堆glibc2.31,glibc2.31下的double free)

查看保护 查看ida 大致就是只能创建0x60大小的堆块,并且uaf只能利用一次 完整exp: from pwn import* #context(log_leveldebug) pprocess(./ezheap2.31)def alloc(content):p.sendlineafter(b4.exit,b1)p.send(content) def free(index):p.sendlineaft…