卷积神经网络各层介绍

目录

1 卷积层

2 BN层

3 激活层

3.1 ReLU(Rectified Linear Unit)

3.2 sigmoid

3.3 tanh(双曲正切)

3.4 Softmax

4 池化层

5 全连接层

6 模型例子


1 卷积层

        卷积是使用一个卷积核(滤波器)对矩阵进行内积(相乘后求和)的操作,通过该操作可以获得输入矩阵(图片)的重要信息,在此基础上,更深层次的卷积操作会获得更重要的特征信息。

一个 padding = 1, stride = 2,kernel size = 3 的单通道卷积过程示意图如下:

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros')

参数:

  • in_channels (int): 输入通道数,即输入图像的深度。例如,对于 RGB 图像,这个值通常为 3。
  • out_channels (int): 输出通道数,即卷积核的数量。每个卷积核会提取一个特征图。
  • kernel_size (int 或 tuple): 卷积核的大小。如果是正方形,可以只用一个整数表示,例如 3 表示 3x3 的卷积核。
  • stride (int 或 tuple, 可选): 卷积操作的步长,默认为 1。
  • padding (int 或 tuple, 可选): 输入的每一边要填充的像素数量,默认为 0。
  • dilation (空洞卷积,int 或 tuple, 可选): 卷积核元素之间的间距,默认为 1。
  • groups (分组卷积,int, 可选): 控制输入和输出之间的连接方式,默认为 1。groups 值大于 1 时,相当于对输入进行组卷积。
  • bias (bool, 可选): 如果 True,添加一个学习偏置,默认为 True。
  • padding_mode (str, 可选): 填充模式,可以是 'zeros'(默认,零填充)、'reflect'(反射填充,矩阵边缘为对称轴)、'replicate'(复制矩阵边缘的值) 或 'circular'。

卷积操作输出图片大小的计算公式:

多通道输入

输入图片是多通道的,则卷积核对应也是多通道(多维)的,之后对卷积结果进行求和得到一个二维矩阵

参考文档

卷积操作原理解析与nn.Conv2d用法详解icon-default.png?t=O83Ahttps://blog.csdn.net/sazass/article/details/116790155

PyTorch Conv2d中的四种填充模式解析icon-default.png?t=O83Ahttps://www.jianshu.com/p/a6da4ad8e8e7

2 BN层

BN层的作用

  • 加快网络的训练和收敛的速度
  • 控制梯度爆炸防止梯度消失
  • 防止过拟合(存在争议)

注:BN层一般接在线性层和卷积层后面

torch.nn.BatchNorm2d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  • num_features: 整数,表示输入特征的数量,即输入通道数。例如,对于一个三通道的RGB图像,num_features 应该设置为3。对于卷积层的输出,这个值通常是卷积核的数量。
  • eps: 浮点数,一个非常小的值,用于数值稳定性。默认值为1e-5。在计算方差时,会加上这个值以避免除以零的情况。
  • momentum: 浮点数,动量因子,用于更新运行均值和方差。默认值为0.1。动量可以帮助稳定均值和方差的估计,特别是在小批量数据的情况下。
  • affine: 布尔值,是否使用可学习的仿射变换参数。如果设置为 True(默认值),则会学习缩放和平移参数。如果设置为 False,则不使用这些参数,仅进行标准化处理。

参考文档

神经网络中BN层的原理与作用icon-default.png?t=O83Ahttps://blog.csdn.net/weixin_42080490/article/details/108849715

BN(Batch Normalization)层原理与作用icon-default.png?t=O83Ahttps://blog.csdn.net/chaipp0607/article/details/112853861

3 激活层

        为什么要用激活函数?激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。

下图是使用sigmoid激活函数去逼近一个非线性函数

下图中不同的参数c、b、w构成的sigmoid函数(这里就这样表述吧)也不同

如下图所示,不同的sigmoid函数(蓝色显示)可以构成一个新的sigmoid函数(红色显示)

下图x是输入,y是输出,函数是我们训练的模型,其它的是训练得到的参数

3.1 ReLU(Rectified Linear Unit)

  • 公式:
  • 优点:
    • 计算简单,梯度下降时计算效率高。
    • 在正域内不会产生梯度消失问题。
  • 缺点:
    • 负域内的梯度为0,可能导致“神经元死亡”现象。
    • 不是以0为中心的输出。

3.2 sigmoid

  • 公式
  • 优点:
    • 求导容易,输出范围在0到1之间,可以作为概率解释。
  • 缺点:
    • 容易产生梯度消失问题。
    • 计算复杂度较高。

3.3 tanh(双曲正切)

  • 公式
  • 优点:
    • 输出范围在-1到1之间,适合作为初始化权重。
  • 缺点:
    • 同样容易产生梯度消失问题。
    • 计算复杂度比sigmoid高。

3.4 Softmax

公式:

  • 优点:
    • 概率解释性:Softmax函数将输入向量转换为一个概率分布,其中每个元素的值都在0到1之间,且所有元素的总和为1。这种特性使得Softmax函数在多分类问题中特别有用,因为可以直接将输出解释为属于各个类别的概率。
    • 非负性:Softmax函数的输出值介于0和1之间,确保了概率的非负性。
  • 缺点:
    • 易造成梯度消失:当输入值非常大或非常小时,Softmax函数的梯度可能会变得非常小,导致梯度消失问题。这会影响神经网络的训练效果,使得网络难以学习到有效的特征。
    • 幂运算复杂:Softmax函数涉及指数运算,这会增加训练时间。
    • 输出非零均值:Softmax函数的输出是非零均值的,这可能会导致后续层的神经元接收到的输入也是非零均值的,从而影响神经网络的收敛速度。

参考文档

激活函数 - 维基百科,自由的百科全书icon-default.png?t=O83Ahttps://zh.wikipedia.org/wiki/%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0盘点当前最流行的激活函数及选择经验icon-default.png?t=O83Ahttp://giantpandacv.com/academic/%E7%AE%97%E6%B3%95%E7%A7%91%E6%99%AE/%E7%BB%BC%E8%BF%B0%E7%B1%BB/%E7%9B%98%E7%82%B9%E5%BD%93%E5%89%8D%E6%9C%80%E6%B5%81%E8%A1%8C%E7%9A%84%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0%E5%8F%8A%E9%80%89%E6%8B%A9%E7%BB%8F%E9%AA%8C/

4 池化层

        人类用眼睛识别物体时不是把眼睛所看到的所有信息全部传递入大脑进行处理,而是有重点的选择部分信息进行处理。池化操作也是类似。池化可以缩减模型的大小,减少冗余的信息,提高神经网络运算效率并防止过拟合,常用的池化有最大池化、平均池化。

        池化层的具体操作与卷积层类似,都是利用一个窗口在图像上滑动,它的参数包括 filter size (n) ,stride (s) 和跳跃步长 (s)。一般情况下设置 n=s,即每( n×n )个像素提取一个像素,这样图像尺寸为原先的 1/n。

最大池化,选择某个矩阵中的最大值;平均池化,取矩阵中所有值的平均值

参考文档

卷积神经网络中的池化(Pooling)层icon-default.png?t=O83Ahttps://0809zheng.github.io/2021/07/02/pool.html

5 全连接层

        全连接层(fully connected layers,FC)是神经网络的一种基本层类型,通常位于网络的最后几层,用于分类任务的输出层。在全连接层中,输入向量通过一个权重矩阵进行线性变换,然后加上一个偏置项,最后通过激活函数(如ReLU、Sigmoid、Tanh等)进行非线性变换。通常会将全连接层的维度设为类别数量或通过Softmax函数输出每个类别的概率分布(有时全连接层不需要加入激活函数,如使用CrossEntropyLoss损失函数计算损失时会用到Softmax激活函数),从而实现对输入数据的分类。另一种说法是,全连接可以是卷积核大小为输入特征大小的卷积运算,卷积的结果为一个节点,对应全连接层的一个点。如输入特征是3x3x5,那么需要一个3x3x5的卷积核进行运算,得到一个数值,对应全连接的一个神经元。

我们现在的任务是区别下面的这张图片是不是猫

假设猫有以下几个特征

红色的神经元表示这些被找到了(激活了),然后通过全连接将这些特征拼接起来,即卷积获取的是局部特征,全连接就是把这些局部特征连接起来。

参考文档

CNN 入门讲解:什么是全连接层(Fully Connected Layer)?icon-default.png?t=O83Ahttps://zhuanlan.zhihu.com/p/33841176

6 模型例子

import torch.nnclass Net(torch.nn.Module):def __init__(self):super(Net, self).__init__()self.conv1 = torch.nn.Sequential(# 5x5卷积核torch.nn.Conv2d(1, 10, kernel_size=5),# 激活函数torch.nn.ReLU(),# 最大池化torch.nn.MaxPool2d(kernel_size=2),)self.conv2 = torch.nn.Sequential(torch.nn.Conv2d(10, 20, kernel_size=5),torch.nn.ReLU(),torch.nn.MaxPool2d(kernel_size=2),)self.fc = torch.nn.Sequential(#输入320,输出50的线性层torch.nn.Linear(320, 50),torch.nn.Linear(50, 10)# 未加入激活函数,计算损失时,CrossEntropyLoss损失函数会用到Softmax激活函数)def forward(self, x):batch_size = x.size(0)x = self.conv1(x)  # 一层卷积层,一层池化层,一层激活层(图是先卷积后激活再池化,差别不大)x = self.conv2(x)  # 再来一次x = x.view(batch_size, -1)  # flatten 变成全连接网络需要的输入 (batch, 20,4,4) ==> (batch,320), -1 此处自动算出的是320x = self.fc(x)return x  # 最后输出的是维度为10的,也就是(对应数学符号的0~9)

比如输入一个手写数字“5”的图像,它的维度为(batch,1,28,28)即单通道高宽分别为28像素。

  • 首先通过一个卷积核为5×5的卷积层,其通道数从1变为10,高宽分别为24像素;
  • 然后通过一个卷积核为2×2的最大池化层,通道数不变,高宽变为一半,即维度变成(batch,10,12,12);
  • 然后再通过一个卷积核为5×5的卷积层,其通道数从10变为20,高宽分别为8像素;
  • 再通过一个卷积核为2×2的最大池化层,通道数不变,高宽变为一半,即维度变成(batch,20,4,4);
  • 之后将其view展平,使其维度变为320(20*4*4)之后进入全连接层,用线性函数将其输出为10类,即“0-9”10个数字。

参考文档

用PyTorch实现MNIST手写数字识别(最新,非常详细)icon-default.png?t=O83Ahttps://blog.csdn.net/qq_45588019/article/details/120935828

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/476137.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elastic 和 Red Hat:加速公共部门 AI 和机器学习计划

作者:来自 Elastic Michael Smith 随着公共部门组织适应数据的指数级增长,迫切需要强大、适应性强的解决方案来管理和处理大型复杂数据集。人工智能 (Artificial intelligence - AI) 和机器学习 (machine learning - ML) 已成为政府机构将数据转化为可操…

SAP B1 登陆报错解决方案 - 系统架构目录服务器选择

背景 登录时出现如下报错,报错显示为【系统架构目录服务器选择】 强行登录会发现过往账套都不见了 出现原因 出于各种原因在开机时没有把 SAP 所有的服务成功启动(上一次启动科学上网后全局代理没关干净之类的)。 解决方案 关机几分钟重启…

基于深度卷积神经网络(CNN)模型的图像着色研究与应用系统实现

1.摘要 许多历史照片都是黑白的,通过颜色化可以恢复这些照片的历史感和真实感,使人们更好地理解和感受历史事件。随着深度学习技术的发展,特别是卷积神经网络和自监督学习的兴起,研究人员提出了新的方法来解决这些问题。通过将颜色…

【CVE-2024-9413】SCP-Firmware漏洞:安全通告

安全之安全(security)博客目录导读 目录 一、概述 二、修订历史 三、CVE根因分析 四、问题修复解决 一、概述 在SCP固件中发现了一个漏洞,如果利用该漏洞,可能会允许应用处理器(AP)在系统控制处理器(SCP&#xf…

Oracle 19C 安装RAC磁盘投票失败

ORACLE 19C 安装RAC第二个节点报错,没有找到足够的 voting 文件(投票磁盘) 1、磁盘投票失败分析 1.1、02节点报错日志 CRS-4123: Starting Oracle High Availability Services-managed resources CRS-2672: Attempting to start ora.mdnsd…

【Maven】IDEA创建Maven项目 Maven配置

文章目录 简介配置环境变量配置仓库测试安装 IDEA创建项目pom.xml 简介 Maven 是一个非常流行的项目管理和构建自动化工具,主要应用于 Java 项目的构建、依赖管理和项目信息管理。它是由 Apache 软件基金会维护的开源项目。Maven 的设计理念是通过一个项目对象模型…

vue3:使用插件递归组件

vue3:使用插件递归组件 首先安装插件 npm i unplugin-vue-define-optionsvite.config.ts 配置插件 // vite.config.ts// 引入 unplugin-vue-define-options import DefineOptions from "unplugin-vue-define-options"; export default defineConfig({// 注册插件 De…

开源TTS语音克隆神器GPT-SoVITS_V2版本地整合包部署与远程使用生成音频

文章目录 前言1.GPT-SoVITS V2下载2.本地运行GPT-SoVITS V23.简单使用演示4.安装内网穿透工具4.1 创建远程连接公网地址 5. 固定远程访问公网地址 前言 本文主要介绍如何在Windows系统电脑使用整合包一键部署开源TTS语音克隆神器GPT-SoVITS,并结合cpolar内网穿透工…

Keil+VSCode优化开发体验

目录 一、引言 二、详细步骤 1、编译器准备 2、安装相应插件 2.1 安装C/C插件 2.2 安装Keil相关插件 3、添加keil环境变量 4、加载keil工程文件 5、VSCode中成功添加工程文件后可能出现的问题 5.1 编码不一致问题 6、在VSCode中进行编译工程以及烧录程序 7、效果展示…

Llama模型文件介绍

文章目录 概要文件组成 概要 在使用 LLaMA(Large Language Model Meta AI)权重时,通常会涉及到与模型权重存储和加载相关的文件。这些文件通常是以二进制格式存储的,具有特定的结构来支持高效的模型操作。以下以Llama-7B为例&…

Spring Web入门练习

加法计算器 约定前后端交互接⼝ 约定 "前后端交互接⼝" 是进⾏ Web 开发中的关键环节. 接⼝⼜叫 API(Application Programming Interface), 我们⼀般讲到接⼝或者 API,指的都是同⼀个东西. 是指应⽤程序对外提供的服务的描述, ⽤于交换信息…

Easyexcel(5-自定义列宽)

相关文章链接 Easyexcel(1-注解使用)Easyexcel(2-文件读取)Easyexcel(3-文件导出)Easyexcel(4-模板文件)Easyexcel(5-自定义列宽) 注解 ColumnWidth Data…

FIFO和LRU算法实现操作系统中主存管理

FIFO&#xff0c;用数组实现 1和2都是使用nextReplace实现新页面位置的更新 1、不精确时间&#xff1a;用ctime输出运行时间都是0.00秒 #include <iostream> #include <iomanip> #include<ctime>//用于计算时间 using namespace std;// 页访问顺序 int pa…

Unity3d场景童话梦幻卡通Q版城镇建筑植物山石3D模型游戏美术素材

注明&#xff1a;网络素材&#xff0c;仅供学习使用&#xff01; https://download.csdn.net/download/elineSea/90017291

batchnorm与layernorn的区别

1 原理 简单总结&#xff1a; batchnorn 和layernorm是在不同维度上对特征进行归一化处理。 batchnorm在batch这一维度上&#xff0c; 对一个batch内部所有样本&#xff0c; 在同一个特征通道上进行归一化。 举个例子&#xff0c; 假设输入的特征图尺寸为16x224x224x256&…

SpringAOP模拟实现

文章目录 1_底层切点、通知、切面2_切点匹配3_从 Aspect 到 Advisor1_代理创建器2_代理创建时机3_Before 对应的低级通知 4_静态通知调用1_通知调用过程2_模拟 MethodInvocation 5_动态通知调用 1_底层切点、通知、切面 注意点&#xff1a; 底层的切点实现底层的通知实现底层的…

标准驱动开发(Linux2.6(cdev) 的开发)

Linux2.6&#xff08;cdev&#xff09; 的开发 目录 Linux2.6&#xff08;cdev&#xff09; 的开发 回顾 Linux2.6&#xff08;cdev&#xff09; 的开发 了解一下 Linux2.6 开发框架 学习 Linux2.6 的相关接口 1、申请设备号&#xff08;alloc_chrdev_region&#xff09…

硬件知识 cadence16.6 原理图输出为pdf 网络名下划线偏移 (ORCAD)

1. cadence原理图输出为PDF网络名下划线偏移 生这种情况的原因 1. 设计的原理图图纸大小比正常的 A4图纸大。 2. 打印为PDF 的时候&#xff0c;打印机的设置有问题。 2.cadence原理图输出为 PDF网络名下划线偏移的情况 可以看到上图&#xff0c;网络名往上漂移。 3. 解决办法 …

HarmonyOs DevEco Studio小技巧31--卡片的生命周期与卡片的开发

Form Kit简介 Form Kit&#xff08;卡片开发服务&#xff09;提供一种界面展示形式&#xff0c;可以将应用的重要信息或操作前置到服务卡片&#xff08;以下简称“卡片”&#xff09;&#xff0c;以达到服务直达、减少跳转层级的体验效果。卡片常用于嵌入到其他应用&#xff0…

SSRF漏洞利用

2.漏洞利用 2.1 SSRF中URL的伪协议 file:// 从⽂件系统中获取⽂件内容&#xff0c;如&#xff0c;file:///etc/passwd dict:// 字典服务器协议&#xff0c;访问字典资源&#xff0c;如dict://ip:6379/info sftp:// ssh⽂件传输协议或安全⽂件传输协议 ldap:// 轻量级⽬录访问…