Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

        在深度学习中,批量归一化(Batch Normalization,BN)技术是一种重要的优化方法,它可以有效地改善模型的训练效果。本文将详细讨论批量归一化的原理、实现方式、在神经网络中的应用,以及如何选择合适的损失函数来提高模型的训练效果,同时对均方误差和交叉熵两种常见的损失函数进行比较。

一、批量归一化的原理

        在深度学习中,误差表面的崎岖不平会使训练变得困难。批量归一化的想法就是通过改变误差表面的地貌,“把山铲平”,让训练变得更容易。

        具体来说,当输入特征在不同维度上的数值范围差距很大时,可能会导致误差表面在不同方向上的斜率差异很大,从而使训练变得困难。为了解决这个问题,可以对特征进行归一化,使不同维度的数值具有相同的数值范围。

        例如,可以使用 Z 值归一化(标准化)的方法,对每个维度的数值计算平均值和标准差,然后将该维度的数值减去平均值并除以标准差,得到归一化后的数值。这样可以使归一化后的数值分布在 0 上下,方差为 1,从而制造一个更好的误差表面,使训练更顺利。

二、批量归一化的实现方式

        在深度学习中,批量归一化的实现方式如下:

  1. 对输入的特征进行归一化,得到归一化后的特征˜x。
  2. 将˜x 输入到深度网络中,经过第一层得到 z^1,然后通过激活函数得到 a^1,接着再通过下一层,以此类推。
  3. 对中间层的特征 z 进行归一化,具体步骤如下:
    • 计算 z^1, z^2, z^3 的平均值 μ 和标准差 σ。
    • 根据计算出的 μ 和 σ 进行归一化:。
    • 最后,加上 β 和 γ 进行调整:,其中代表逐元素的相乘,β 和 γ 是需要学习的参数。

在实际实现中,批量归一化只对一个批量内的数据进行归一化,以近似整个数据集的特征归一化。同时,在测试时,PyTorch 会对训练时每个批量计算出的 μ 和 σ 进行移动平均,测试时直接用训练时的移动平均来取代 μ 和 σ。

三、批量归一化在神经网络中的应用

        批量归一化可以应用于神经网络的各个层,它可以使误差表面变得更加平滑,从而提高训练的稳定性和收敛速度。

        通过对特征进行归一化,可以减少不同维度之间的差异,使得网络更容易学习到有用的特征。此外,批量归一化还可以缓解梯度消失和梯度爆炸的问题,使训练更加稳定。

四、如何选择合适的损失函数来提高模型的训练效果        

        选择合适的损失函数对于提高模型的训练效果至关重要。不同的损失函数适用于不同的问题和模型。

        在分类问题中,常用的损失函数有均方误差和交叉熵。均方误差是将输出与标签之间的差异平方后求和,而交叉熵则是根据输出与标签之间的概率分布来计算损失。

        交叉熵损失函数通常比均方误差更常用在分类上,因为它能够更好地引导模型的训练。当输出与标签相同时,交叉熵可以最小化交叉熵的值,此时均方误差也是最小的。此外,交叉熵还能够使大的值跟小的值的差距更大,从而更好地优化模型。

五、均方误差和交叉熵两种常见的损失函数的比较

        通过一个三类分类的例子,可以比较均方误差和交叉熵在优化中的表现。

        假设网络先输出和,通过 softmax 以后,产生和。假设正确答案是,要计算跟和之间的距离 e,e 可以是均方误差或交叉熵。

        当很大,很小时,代表会很接近 1,会很接近 0,此时不管 e 取均方误差或交叉熵,损失都是小的;当小,大时,是 0,是 1,这个时候损失会比较大。

        在优化过程中,如果选择交叉熵,左上角圆圈所在的点有斜率,可以通过梯度一路往右下的地方 “走”;如果选均方误差,左上角圆圈就卡住了,均方误差在这种损失很大的地方非常平坦,梯度非常小趋近于 0,无法用梯度下降顺利地 “走” 到右下角。因此,在做分类时,选均方误差的时候,如果没有好的优化器,有非常大的可能性会训练不起来。如果用 Adam,虽然图中圆圈的梯度很小,但 Adam 会自动调大学习率,还有机会走到右下角,不过训练的过程比较困难。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/417700.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python-面向对象编程(超详细易懂)

面向对象编程(oop) 面向对象是Python最重要的特性,在Python中一切数据类型都是面向对象的。 面向对象的编程思想:按照真实世界客观事物的自然规律进行分析,客观世界中存在什么样的实体,构建的软件系统就存在…

视频监控管理平台LntonAIServer视频智能分析噪声检测应用场景

在视频监控系统中,噪声问题常常影响到视频画面的清晰度和可用性。噪声可能由多种因素引起,包括但不限于低光环境、摄像机传感器灵敏度过高、编码压缩失真等。LntonAIServer通过引入噪声检测功能,旨在帮助用户及时发现并解决视频流中的噪声问题…

linux 内核代码学习(八)

总体目标:由于fedora10 linux发行版中自带的linux2.6.xx内核源码规模太庞大了,对于想通读内核源码的爱好者来说太困难了,因此选择了linux2.4.20内核来进行测试(最终是希望能够实现linux1.0内核的源码完全编译和测试)。…

了解一下HTTP 与 HTTPS 的区别

介绍: HTTP是超文本传输协议。规定了客户端(通常是浏览器)和服务器之间如何传输超文本,也就是包含链接的文本。通常使用TCP【1】/IP协议来传输数据,默认端口为80。 HTTPS是超文本传输安全协议,具有CA证书。…

【RLHF】浅谈ChatGPT 等大模型中的RLHF算法

本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!​个人主页:有梦想的程序星空​个人介绍:小编是人工智能领域硕士,全栈工程…

TCP的流量控制深入理解

在理解流量控制之前我们先需要理解TCP的发送缓冲区和接收缓冲区,也称为套接字缓冲区。首先我们先知道缓冲区存在于哪个位置? 其中缓冲区存在于Socket Library层。 而我们的发送窗口和接收窗口就存在于缓冲区当中。在实现滑动窗口时则将两个指针指向缓冲区…

STM32F103调试DMA+PWM 实现占空比逐渐增加的软启效果

实现效果:DMAPWM 实现PWM输出时,从低电平到输出占空比逐渐增加再到保持高电平的效果,达到控制 MOS 功率开关软启的效果。 1.配置时钟 2.TIM 的 PWM 功能配置 选择、配置 TIM 注意:选择 TIM 支持 DMA 控制输出 PWM 功能的通道&a…

使用Unity的准备

下载Unity 下载Unity Hub Unity - 实时内容开发平台 | 3D、2D、VR & AR可视化https://unity.cn/ 创建账号或者登入账号 Unity安装 路径尽量为英文路径 登入账号 点击头像登入账号 这里已经登入 打开偏好 设置中文 添加许可证 获取免费版的即可 安装编辑器 新建项目…

mysql-PXC实现高可用

mysql8.0使用PXC实现高可用 什么是 PXC PXC 是一套 MySQL 高可用集群解决方案,与传统的基于主从复制模式的集群架构相比 PXC 最突出特点就是解决了诟病已久的数据复制延迟问题,基本上可以达到实时同步。而且节点与节点之间,他们相互的关系是…

PHP一站式解决方案高级房产系统小程序源码

一站式解决方案,高级房产系统让房产管理更轻松 🏠【开篇:告别繁琐,迎接高效房产管理新时代】🏠 你是否还在为房产管理的繁琐流程而头疼?从房源录入、客户咨询到合同签订、售后服务,每一个环节…

【CSS】如何写渐变色文字并且有打光效果

效果如上,其实核心除了渐变色文字的设置 background: linear-gradient(270deg, #d2a742 94%, #f6e2a7 25%, #d5ab4a 48%, #f6e2a7 82%, #d1a641 4%);color: #e8bb2c;background-clip: text;color: transparent;还有就是打光效果,原理其实就是两块遮罩&am…

7、关于LoFTR

7、关于LoFTR LoFTR论文链接:LoFTR LoFTR的提出,是将Transformer模型的注意力机制在特征匹配方向的应用,Transformer的提取特征的机制,在自身进行,本文提出可以的两张图像之间进行特征计算,非常适合进行特…

“弹性盒子”一维布局系统(补充)——WEB开发系列31

弹性盒子是一种一维布局方法,用于根据行或列排列元素。元素可以扩展以填补多余的空间,或者缩小以适应较小的空间,为容器中的子元素提供灵活的且一致的布局方式。 一、什么是弹性盒子? CSS 弹性盒子(Flexible Box Layo…

提高开发效率的实用工具库VueUse

VueUse中文网:https://vueuse.nodejs.cn/ 使用方法 安装依赖包 npm i vueuse/core单页面使用(useThrottleFn举例) import { useThrottleFn } from "vueuse/core"; // 表单提交 const handleSubmit useThrottleFn(() > {// 具…

策略模式的小记

策略模式 策略模式支付系统【场景再现】硬编码完成不同的支付策略使用策略模式,对比不同(1)支付策略接口(2)具体的支付策略类(3)上下文(4)客户端(5&#xff0…

python 交互模式怎么切换目录

假如要用交互界面调用一个.py文件: (1)用cmd界面定位到文件位置,如cd Desktop/data/ #进入desktop下data目录。 (2)接着打开python(输入python) 调用os (1&#xff0…

Linux df命令详解,Linux查看磁盘使用情况

《网络安全自学教程》 df 一、字段解释二、显示单位三、汇总显示四、指定目录五、指定显示字段六、du和df结果不一样 df(disk free)命令用来查看系统磁盘空间使用情况。 参数: -h:(可读性)显示单位&#…

Mobile-Agent赛题分析和代码解读笔记(DataWhale AI夏令营)

前言 你好,我是GISer Liu,一名热爱AI技术的GIS开发者,本文是DataWhale 2024 AI夏令营的最后一期——Mobile-Agent赛道,关于赛题分析和代码解读的学习文档总结;这边作者也会分享自己的思路; 本文是对原视频的…

万象奥科参展“2024 STM32全国巡回研讨会”—深圳站、广州站

9月3日-9月5日,万象奥科参展“2024 STM32全国巡回研讨会”— 深圳站、广州站。此次STM32研讨会将会走进全国11个城市,展示STM32在智能工业、无线连接、边缘人工智能、安全、图形用户界面等领域的产品解决方案及多样化应用实例,深入解读最新的…

指针之旅(3)—— 指针 与 数组

目录 1. 数组名的两种意义 2. 指针访问数组(指针也能下标引用) 3. 一维数组传参的本质 和 sizeof在函数中失效的原因 4. 指针数组 4.1 指针数组的概念 4.2 一级指针数组 4.3 一级指针数组模拟实现二维数组 5. 数组、指针 与 字符串 6. 数组指针…