[动手学习深度学习]28. 批量归一化

[动手学习深度学习]28. 批量归一化

news/2025/3/25 23:18:31/文章来源:https://blog.csdn.net/yuri5151/article/details/146378453

当前所有的深度学习网络，或多或少都用了批归一化操作
批归一化的思想不新，但是这个特定的层是16年左右出现的，在这之后，发现他对深度学习算法性能的提升非常有效

概念理解

这是一个网络的结构：
在这里插入图片描述
当数据很深的时候，可以发现数据在下面，损失在上面
在正向传播时，是数据从下面往上走；而反向传播时，是数据从上面往下传
这就存在问题，往下传的时候，梯度在上面比较大，越到下面越容易变小（一般是多个很小的数相乘，一直称道最后就变成很小的了）
上面梯度比较大，那么就会不断的更新，而下面的层因为权重比较小，对梯度的更新就比较小，那么上面层很快就会收敛，而下面的就会比较慢
这就导致，每次更新下面靠近数据的层的时候（会抽取底层的特征），上面的权重就需要重新训练，这就导致收敛会比较慢

对深层神经网络来说，训练中模型参数的更新很容易造成输出层输出的剧烈变化
解决：能不能再学习底部层的时候避免变化顶部层？

公式描述

核心思想：不稳定是因为方差和分布会在不同层变化，那么如果将方差和分布进行固定（每一层的输出，符合特定的分布），相对而言就会比较稳定
在这里插入图片描述
对每一个元素进行上面的标准化计算

批量归一化层

在这里插入图片描述

对全连接层做批量归一化：通常将批量归一化层置于全连接层中的仿射变换和激活函数之间
对卷积层做批量归一化：发生在卷积计算之后、应用激活函数之前
在每个批量里，1个像素时1个样本。与像素（样本）对应的通道维，就是特征维
所以不是对单个通道的特征图做均值方差，而是对单个像素的不同通道做均值方差
输入9个像素（3*3），输出3通道，以通道作为列向量，每个像素都对应3列（输出通道=3），可以列出表格，按列求均值和方差，其实和全连接层一样的（即像素为样本，通道为特征）

这个小批量数据是随机的，算出来的统计量也可以说是随机的
因为每个batch的均值和方差都不太一样
因为每次取的batch中的数据都是不同的，所以在batch中计算的均值和方差也是不同的，所以引入了随机性

作用
- 最初论文提出时想用它来减少内部协变量转移
- 后续有论文提出它可能是通过在每个小批量里加入噪音来控制模型复杂度
  
  所以这个角度，没必要跟丢弃法混合使用

总结

当每一层的均值和方差都固定后，学习率太大的话，靠近loss上面的梯度太大，就会梯度爆炸；学习率太小的话，靠近数据的梯度太小了，就会算不动（梯度消失）
批量归一化固定小批量中的均值和方差，然后学习出合适的偏移和缩放
将每一层的输入放在一个差不多的分布里，就可以用一个比较大的精度了，就可以加速收敛
归一化不会影响数据分布（一点也不影响精度，变好变坏都不会）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/38732.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

AI比人脑更强，因为被植入思维模型【17】万物联系思维模型

AI比人脑更强，因为被植入思维模型【17】万物联系思维模型

万物联系，万物，并不孤立。定义万物联系思维模型是一种强调世界上所有事物都相互关联、相互影响的思维方式。它认为任何事物都不是孤立存在的，而是与周围的环境、其他事物以及整个宇宙构成一个有机的整体。这种联系不仅包括直接的因果关系，还涵盖了间接的、潜在的、动态的…

阅读更多...

昆仑技术重构AI大模型落地范式，长期作“加法”迎来国产生态化“拐点”

昆仑技术重构AI大模型落地范式，长期作“加法”迎来国产生态化“拐点”

作者 | 曾响铃文 | 响铃说 DeepSeek的爆火，在业内迅速掀起了一场国产化的变革。“国产大模型国产算力”软硬协同的范式正在被重构，AI产业国产化的含金量持续提升，越来越多的企业在这一趋势下加速走上数智化转型路径。其中，以…

阅读更多...

【C++初阶】---类和对象（上）

【C++初阶】---类和对象（上）

1.类的定义 1.1类的定义格式 • class为定义类的关键字，Data为类的名字，{}中为类的主体，注意类定义结束时后⾯分号不能省略。类体中内容称为类的成员：类中的变量称为类的属性或成员变量;类中的函数称为类的⽅法或者成员函数。 •…

阅读更多...

常见中间件漏洞（tomcat）

常见中间件漏洞（tomcat）

CVE-2017-12615 当在Tomcat的conf（配置目录下）/web.xml配置文件中添加readonly设置为false时，将导致该漏洞产生，（需要允许put请求） , 攻击者可以利用PUT方法通过精心构造的数据包向存在漏洞的服务器里面上传…

阅读更多...

NSSCTF(MISC)——[NSSRound#4 SWPU]Type Message

NSSCTF(MISC)——[NSSRound#4 SWPU]Type Message

相应的做题地址：https://www.nssctf.cn/problem/2478 得到4个wav文件使用DTMF Decoder工具，对D.wav进行识别随波逐流，发现九宫格键盘解码能够得到flag 对其他3个文件依次进行识别解码最终得到fNSSCTF{DTMFISREALLYEASY}

阅读更多...

C++核心语法快速整理

C++核心语法快速整理

前言欢迎来到我的博客个人主页:北岭敲键盘的荒漠猫-CSDN博客本文主要为学过多门语言玩家快速入门C 没有基础的就放弃吧。全部都是精华，看完能直接上手改别人的项目。输出内容 std::代表了这里的cout使用的标准库，避免不同库中的相同命名导致混乱 …

阅读更多...

Matplotlib完全指南：数据可视化从入门到实战

Matplotlib完全指南：数据可视化从入门到实战

目录引言一、环境配置与基础概念 1.1 安装Matplotlib 1.2 导入惯例 1.3 两种绘图模式二、基础图形绘制 2.1 折线图（Line Plot） 2.2 柱状图（Bar Chart） 三、高级图表类型 3.1 散点图（Scatter Plot&#xff…

阅读更多...

C++：IO库

C++：IO库

一、C IO库的架构 C标准库中的IO系统基于流（Stream）的概念，分为三层结构： 流对象（如cin, cout, fstream）流缓冲区（streambuf，负责底层数据处理）数据源/目的…

阅读更多...

【STM32】SPI通信外设硬件SPI读写W25Q64

【STM32】SPI通信外设硬件SPI读写W25Q64

【STM32】SPI通信协议&W25Q64Flash存储器芯片（学习笔记）-CSDN博客 SPI通信外设 SPI外设简介 STM32内部集成了硬件SPI收发电路，可以由硬件自动执行时钟生成、数据收发等功能，减轻CPU的负担可配置8位/16位数据帧、高位先行/…

阅读更多...

二叉树之树的高以及遍历

二叉树之树的高以及遍历

二叉树的高其实很简单就一句话： 从根节点到叶节点的最长路径中的边数就是二叉树的高 int FindHeight(Btree root){int leftheight;int rightheight;if(rootNULL){return -1;}else{leftheightFindHeight(root->left );rightheightFindHeight(root->right );}r…

阅读更多...

DeepSeek技术架构解析：MoE混合专家模型

DeepSeek技术架构解析：MoE混合专家模型

一、前言 2025年初，DeepSeek V3以557万美元的研发成本（仅为GPT-4的1/14）和开源模型第一的排名，在全球AI领域掀起波澜。其核心创新之一——混合专家模型（Mixture of Experts, MoE）的优化设计，不…

阅读更多...

VMware主机换到高配电脑，高版本系统的问题

VMware主机换到高配电脑，高版本系统的问题

原来主机是i3 ,windows7系统，vmware 14.0,虚机系统是ubuntu 14.04。目标新机是i7 14700KF,windows11系统。原以为安装虚拟机，将磁盘文件，虚拟机配置文件拷贝过去可以直接用。新目标主机先安装了vmware 15，运行原理虚机&#xff0…

阅读更多...

数字化转型驱动卫生用品安全革新

数字化转型驱动卫生用品安全革新

当315晚会上晃动的暗访镜头揭露卫生巾生产车间里漂浮的异物、纸尿裤原料仓中霉变的碎屑时，这一触目惊心的场景无情地撕开了“贴身安全”的遮羞布，暴露的不仅是部分企业的道德缺失，更凸显了当前检测与监管体系的漏洞，为整个行业敲响…

阅读更多...

VideoHelper 油猴脚本，重塑你的视频观看体验

VideoHelper 油猴脚本，重塑你的视频观看体验

VideoHelper 油猴脚本，重塑你的视频观看体验在日常上网看视频时，你是否也被这些问题困扰：视频网站开头的广告又臭又长，找个合适的播放倍速要在一堆选项里翻半天，每次手动调音量、点全屏按钮繁琐又影响沉浸感&#xf…

阅读更多...

（C语言）习题练习 sizeof 和 strlen

（C语言）习题练习 sizeof 和 strlen

sizeof 上习题，不知道大家发现与上一张的习题在哪里不一样嘛？ int main() {char arr[] "abcdef";printf("%zd\n", sizeof(arr));printf("%zd\n", sizeof(arr 0));printf("%zd\n", sizeof(*arr));printf(&…

阅读更多...

Java多线程与高并发专题——使用 Future 有哪些注意点？Future 产生新的线程了吗？

Java多线程与高并发专题——使用 Future 有哪些注意点？Future 产生新的线程了吗？

Future 的注意点 1. 当 for 循环批量获取 Future 的结果时容易 block，get 方法调用时应使用 timeout 限制对于 Future 而言，第一个注意点就是，当 for 循环批量获取 Future 的结果时容易 block，在调用 get方法时，应该…

阅读更多...

STM32基础教程——PWM驱动LED呼吸灯

STM32基础教程——PWM驱动LED呼吸灯

目录前言技术实现原理图接线图代码实现内容要点 PWM基本结构开启外设时钟配置GPIO端口配置时基单元初始化输出比较单元输出PWM波形输出比较通道重映射前言 PWM(Pulse Width Modulation):一种通过调节脉冲信号的占空比（高电平持续时间与整…

阅读更多...

算法基础——栈

算法基础——栈

一、栈的概念栈是⼀种只允许在⼀端进⾏数据插⼊和删除操作的线性表。进⾏数据插⼊或删除的⼀端称为栈顶，另⼀端称为栈底。不含元素的栈称为空栈。进栈就是往栈中放⼊元素，出栈就是将元素弹出栈顶。二、栈的模拟实现 1. 创建本质还是线性表&#…

阅读更多...

JVM类文件结构详解

JVM类文件结构详解

文章目录前言代码示例1.魔数2.版本3.常量池4.访问标识与继承信息访问标识继承信息 5.Field 信息6 Method 信息构造方法分析(method-main)main方法分析(method-main) 7.附加属性前言在 Java 中，JVM 可以理解的代码就叫做字节码（即扩展名为 .class 的文…

阅读更多...

5.安全相关（双手启动、安全触边传感器）

5.安全相关（双手启动、安全触边传感器）

一、关于双手启动按钮的使用规范本文介绍双手启动按钮的使用。概括来讲： 双手按下之间的时间差间隔应该在0.5-2秒之间。一旦释放任何一个按钮，启动信号输出结束。只有两个按钮都被释放之后，才能再次触发双手启动信号。如果某按钮被按下超过…

阅读更多...

最新文章

推荐文章