BatchNorm推理阶段和Conv合并
本文全文来自: https://www.cnblogs.com/xiaxuexiaoab/p/16422640.html。
只只作为自己的复习使用,不作他用。
- BN层作用
批量归一化(Batch Normalization,BN)在深度学习中常放在卷积层之后,BN层有以下优点:
- 减少了人为选择参数。在某些情况下可以取消 dropout 和 L2 正则项参数,或者采取更小的 L2 正则项约束参数;
- 减少了对学习率的要求。现在我们可以使用初始很大的学习率或者选择了较小的学习率,算法也能够快速训练收敛;
- 可以不再使用局部响应归一化。BN 本身就是归一化网络(局部响应归一化在 AlexNet 网络中存在);
- 破坏原来的数据分布,一定程度上缓解过拟合(防止每批训练中某一个样本经常被挑选到,文献说这个可以提高 1% 的精度);
- 减少梯度消失,加快收敛速度,提高训练精度。
- BN层算法流程
- 推理阶段合并BN和conv的原理