CNN卷积神经网络

一、概述

卷积神经网络(CNN)是深度学习领域的重要算法,特别适用于处理具有网格结构的数据,比如说图像和音频。它起源于二十世纪80至90年代,但真正得到快速发展和应用是在二十一世纪,随着深度学习理论的兴起和计算能力的提升。CNN通过模拟生物的视知觉机制,利用卷积核的参数共享和层间连接的稀疏性,实现了对图像等数据的平移不变分类和特征学习,而无需进行繁琐的特征工程。这些特性使得CNN在计算机视觉、自然语言处理等领域取得了显著成果,成为现代人工智能应用的关键技术之一。

什么是卷积?

在泛函分析中,卷积是一种重要的数学运算,用于通过两个函数f和g生成第三个函数。它的本质是一种特殊的积分变换(两个变量在某个范围内相乘后求和的结果),具体地,它表示函数f与g经过翻转和平移后的重叠部分函数值的乘积对重叠长度的积分。这种运算提供了一种方式来研究函数之间的相互作用和重叠情况。

进一步地,如果将参与卷积的一个函数视为区间的指示函数,卷积运算可以视为“滑动平均”的推广。在滑动平均中,我们考虑一个函数在某一区间内的平均值,而在卷积运算中,我们则通过积分来计算函数在重叠区间上的加权平均值,其中权重由另一个函数给出。因此,卷积运算提供了一种更为灵活和强大的工具来分析函数之间的相互作用和关系。

简单定义:设:f(x),g(x)是R1上的两个可积函数,作积分:

                                                        

什么是神经网络?

人工神经网络(ANN)自20世纪80年代起已成为人工智能领域的研究热点。它基于对人脑神经元网络的抽象,通过构建由大量节点(神经元)和它们之间的连接(代表加权值或权重)组成的网络模型来模拟人脑的信息处理方式。每个节点通过一个特定的输出函数(激励函数)来处理信息,而网络的输出则取决于节点间的连接方式、权重值和激励函数。

近年来,人工神经网络的研究取得了显著进展,已成功应用于模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等多个领域,解决了许多现代计算机难以处理的复杂问题,展示了其卓越的智能特性。这一技术不仅模拟了人脑的基本结构和功能,还在多个领域实现了对复杂问题的有效处理,展现了广阔的应用前景。

 

二、卷积神经网络(CNN) 

在使用全连接神经网络处理大尺寸图像具有几个明显的缺点:
(1)首先将图像展开为向量会丢失空间信息
(2)其次参数过多效率低下,训练困难
(3)同时大量的参数也很快会导致网络过拟合
(4)忽略了图像中的空间结构信息,因此不能充分利
用图像中的相关特征,导致模型效果不佳。

使用卷积神经网络能够很好地解决这些问题,尤其是大尺寸图像的处理。

  一个完整的CNN(卷积神经网络)结构通常包括输入层卷积层激活层池化层全连接层输出层。

输入层

数据格式

  • 对于彩色图像,常见的输入数据格式为三维矩阵,通常表示为高度(H)×宽度(W)×颜色通道(C)。例如,对于一张32×32像素的RGB彩色图像,其输入数据将是一个32×32×3的三维矩阵。(32x32是高度x宽度,而后面的三代表的是三种不同的颜色,也就是三原色红(R)、绿(G)、蓝(B)。)
  • 对于灰度图像,输入数据为二维矩阵,即高度(H)×宽度(W)。

输入范围:

  • 输入图像的像素值通常需要被归一化到一个特定的数值范围内,以便于模型进行训练和推理。常见的归一化方式是将像素值缩放到[0, 1]或[-1, 1]的范围内。

假设我们有一张32×32像素的RGB彩色图像作为输入。首先,我们将这张图像转换为一个32×32×3的三维矩阵。然后,我们将每个像素值归一化到[0, 1]的范围内(即将像素值除以255,因为RGB图像的像素值范围是0-255)。最后,我们将这张归一化后的图像作为输入数据传递给CNN的输入层。

卷积层

卷积是CNN的核心操作,它通过模拟人眼对图像的局部感知特性,使用一定大小的卷积核在输入图像上滑动,并计算卷积核与对应位置图像像素的乘积之和,从而得到新的特征图。不同的卷积核可以提取不同的特征,如边缘、纹理等。通过堆叠多个卷积层,可以逐渐提取出更高层次的抽象特征。在实际应用中,通常会对输入图像进行填充(Padding)操作,以保证卷积后特征图的大小与输入图像相同或按一定比例缩小。

卷积核的初始化

卷积核是用来特征提取的关键参数。在初始化阶段,卷积核通常是随机设定的,并且在训练中根据学习到的数据进行自适应。

卷积运算

卷积运算是卷积层的核心操作。卷积运算将卷积核与输入数据局部区域进行逐点相乘并求和,来提取数据中的局部特征。卷积核会在输入数据的区域上滑动(步长通常为1),每次滑动都与当前位置与卷积核相同维度数量的区域进行卷积运算。卷积运算的结果是一个新的二维矩阵,其大小取决于卷积核的大小、步长和输入数据的填充方式。

激活层

激活层通过将前一层的线性输出通过非线性激活函数处理,从而模拟任意函数,进而增强网络的表征能力。激活层可选的激活函数有很多,不同的激活函数在不同的场景下可能表现出不同的性能。

下面举例几个常用的激活函数:

Sigmoid函数

  • 激活方式:对每个输入数据,利用sigmoid函数执行操作。函数形式为 f(x) = 1 / (1 + e^-x)
  • 特点:输出值在0到1之间,常用于二分类问题的输出层。但sigmoid函数在深度神经网络中可能导致梯度消失问题。

ReLU(Rectified Linear Unit)函数

  • 激活方式:标准的ReLU函数为 f(x) = max(0, x)。当输入x大于0时,输出x;当x小于或等于0时,输出0。
  • 特点:ReLU是目前使用最多的激活函数,因为它收敛更快,并且在一定程度上缓解了梯度消失问题。

Tanh(Hyperbolic Tangent)函数

  • 激活方式:利用双曲正切函数对数据进行变换,函数形式为 f(x) = (e^x - e^-x) / (e^x + e^-x)
  • 特点:输出值在-1到1之间,可以看作sigmoid函数的缩放版本。

池化层

池化层主要用于降低特征图的维度和参数数量,同时保留关键信息。它通过对特征图进行下采样来实现这一目的。常见的池化操作包括最大池化和平均池化。池化层有助于模型对输入数据的微小变化(如平移、旋转等)具有鲁棒性。

最大池化(Max Pooling)

假设有一个4x4特征图,将其进行2x2最大池化操作。

定义池化窗口

定义一个池化窗口,这里选择一个2x2的池化窗口(也称为滤波器或核),这个窗口将在特征图上滑动,每次滑动都会覆盖一个2x2的区域。

滑动窗口并选取最大值

 池化窗口在滑动的过程中,它会选取当前窗口所有值中的最大值作为输出。假设一个窗口覆盖了特征图左上角4个值[1,2,3,4],那么最大池操作将选择4作为其输出。

重复上述过程,直到将整个特征图遍历完成。(每次的滑动都会得到一个输出的值)   

生成池化后的特征图

将所有输出值按照它们在特征图上的相对位置排列,假设从左上方开始滑动窗口,向右下方移动,那么最后会获得一个2x2的矩阵,这个矩阵中的每个值都是由原始特征图中2x2区域中的最大值。

全连接层

  • 全连接层位于CNN的尾部,用于对前面提取的特征进行分类或回归。
  • 在这一层中,每个神经元都与前一层的所有神经元相连,通过计算加权和并应用激活函数来产生输出。
  • 对于分类任务,全连接层的输出通常会通过softmax函数进行归一化,得到每个类别的概率分布。

为什么全连接层也需要使用到激活函数?

  • 神经网络主要依赖于非线性激活函数来学习和表示复杂的非线性模式。没有激活函数,神经网络将只能学习线性函数,这极大地限制了其建模能力。通过在每一层(包括全连接层)之后应用激活函数,神经网络可以学习并逼近任何复杂的非线性函数。
  • 激活函数将神经元的加权输入映射到新的特征空间,这有助于网络学习更高层次的抽象特征。对于全连接层来说,这种特征空间转换特别重要,因为它需要基于前面层提取的特征来做出最终的分类或回归决策。
  • 某些激活函数(如ReLU)具有稀疏性,这意味着它们可以将一些神经元的输出设置为零,从而保留重要的特征信息并过滤掉不相关的特征。这种稀疏性有助于提高神经网络的泛化能力。(过滤信息和保留信息)

输出层

输出层是模型的最后一层,负责产生最终的预测结果。对于分类任务,输出层可能包含多个神经元,每个神经元对应一个类别;对于回归任务,输出层可能只有一个神经元。



三、总结:

传统的神经网络在处理高维数据的时候容易出现过拟合的现象,而卷积神经网络可以通过扩充数据集以及一定规则的变换来增加模型的泛化能力,从而减少过拟合的风险。此外,卷积神经网络层次分明,较低层次处理基础数据,较高层次的层则组合这些基础特征以表示更抽象的概念。这种层次化也使得卷积神经网络在处理复杂问题时表现出色。

(学习笔记,侵删。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/342710.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apple开发者证书创建完整过程

1.创建CSR文件: 打开钥匙串访问程序 选择从证书颁发机构请求 创建证书 保存CSR文件到桌面 成功如下: 开始创建证书: 选择

分布式ID生成方式

1.UUID uuid方式存在问题:占用字节数比较大;ID比较随机,作为MySQL主键写入库时,为了保证顺序性将导致BTree节点分裂比较频繁,影响IO性能。 2.数据库方式 步长step 3,即为机器的数量。 第一台机器&#x…

web刷题记录(4)

[GKCTF 2020]cve版签到 进来应该是给了个提示了,就是要以.ctfhub.com结尾 还有一个超链接,这题的ssrf还是挺明显的,抓包看看 发现回显里面有提示 说是和本地有关,那么也就是说,要访问127.0.0.1,大概意思就…

项目实战系列——WebSocket——websock简介

最近项目中需要用到mes和本地客户端进行实时通讯,本来想用webapi进行交互的,但是考虑到高效和实时性,就采用这一项技术。 以往采用的方式——长轮询 客户端主动向服务器发送一个请求,如果服务器没有更新的数据,客户端…

大语言模型 (LLM) 窥探未来

随着2023年的岁月渐渐走向尾声,我们站在人工智能的前沿,回望大语言模型(Large Language Models, LLM)所走过的道路,同时也不禁展望未来。从初步尝试到成为人工智能领域的万千宠爱,一种又一种的技术突破&…

处理一对多的映射关系

一对多关系&#xff0c;比如说根据id查询一个部门的部门信息及部门下的员工信息 在Dept类中先添加List emps属性 1、collection DeptMapper.xml文件中 <resultMap id"deptAndEmpResultMap" type"Dept"><id property"did" column&qu…

[Redis]List类型

列表类型来存储多个有序的字符串&#xff0c;a、b、c、d、e 五个元素从左到右组成了一个有序的列表&#xff0c;列表中的每个字符串称为元素&#xff0c;一个列表最多可以存储个元素。在 Redis 中&#xff0c;可以对列表两端插入&#xff08;push&#xff09;和弹出&#xff08…

Postgresql中json和jsonb类型区别

在我们的业务开发中&#xff0c;可能会因为特殊【历史&#xff0c;偷懒&#xff0c;防止表连接】经常会有JSON或者JSONArray类的数据存储到某列中&#xff0c;这个时候再PG数据库中有两种数据格式可以直接一对多或者一对一的映射对象。所以我们也可能会经常用到这类格式数据&am…

【Linux】进程切换环境变量

目录 一.进程切换 1.进程特性 2.进程切换 1.进程切换的现象 2.如何实现 3.现实例子 2.环境变量 一.基本概念 二.常见环境变量 三.查询常见环境变量的方法 四.和环境变量相关的命令 五.环境变量表的组织方式 六.使用系统调用接口方式查询环境变量 1.getenv 2.反思 …

如何学习使用淘宝API?淘宝API运营场景

学习使用淘宝API涉及对其功能、分类、调用方法及实际应用的综合理解。下面按部分详细解释如何系统地学习和掌握淘宝API的使用&#xff1a; 淘宝API接口入门 了解淘宝开放平台&#xff1a;淘宝开放平台为开发者提供了一个可以与淘宝数据进行交互的平台&#xff0c;涵盖了丰富的A…

神经网络 torch.nn---优化器的使用

torch.optim - PyTorch中文文档 (pytorch-cn.readthedocs.io) torch.optim — PyTorch 2.3 documentation 反向传播可以求出神经网路中每个需要调节参数的梯度(grad)&#xff0c;优化器可以根据梯度进行调整&#xff0c;达到降低整体误差的作用。下面我们对优化器进行介绍。 …

uniapp内置的button组件的问题

问题描述 由于想要使用uniapp内置button组件的开放能力&#xff0c;所以就直接使用了button&#xff0c;但是他本身带着边框&#xff0c;而且使用 border&#xff1a;none&#xff1b;是没有效果的。 问题图片 解决方案 button::after {border: none;} 正确样式 此时的分享…

6.更复杂的光照

一、Unity的渲染路径 渲染路径决定了光照是如何应用到Unity Shader中的。我们需要为每个Pass指定它使用的渲染路径 如何设置渲染路径&#xff1f; Edit>Project Settings>Player>Other Settinigs>Rendering 如何使用多个渲染路径&#xff1f;如&#xff1a;摄像…

kafka-集群搭建(在docker中搭建)

文章目录 1、kafka集群搭建1.1、下载镜像文件1.2、创建zookeeper容器并运行1.3、创建3个kafka容器并运行1.3.1、9095端口1.3.2、9096端口1.3.3、9097端口 1.4、重启kafka-eagle1.5、查看 efak1.5.1、查看 brokers1.5.2、查看 zookeeper 1、kafka集群搭建 1.1、下载镜像文件 d…

makefile2

makefile的条件判断 运行make。 替换 make -c make-f …… 还可以 man make来查看其他的make命令。

【ARM Cache 及 MMU 系列文章 6.2 -- ARMv8/v9 Cache 内部数据读取方法详细介绍】

请阅读【ARM Cache 及 MMU/MPU 系列文章专栏导读】 及【嵌入式开发学习必备专栏】 文章目录 Direct access to internal memoryL1 cache encodingsL1 Cache Data 寄存器Cache 数据读取代码实现Direct access to internal memory 在ARMv8架构中,缓存(Cache)是用来加速数据访…

01_初识微服务

文章目录 一、微服务概述1.1 什么是微服务1.2 对比微服务架构与单体架构1.3 微服务设计原则1.4 微服务开发框架1.5 简单理解分布式部署与集群部署 二、微服务的核心概念2.1 服务注册与发现2.2 微服调用&#xff08;通信&#xff09;2.3 服务网关2.4 服务容错2.5 链路追踪参考链…

C语言小例程6/100

题目&#xff1a;输入三个整数x,y,z&#xff0c;请把这三个数由小到大输出。 程序分析&#xff1a;我们想办法把最小的数放到x上&#xff0c;先将x与y进行比较&#xff0c;如果x>y则将x与y的值进行交换&#xff0c;然后再用x与z进行比较&#xff0c;如果x>z则将x与z的值…

电商平台的消费增值策略

电商平台通过创新的消费增值策略&#xff0c;为用户提供了全新的激励体验。这种策略通过积分奖励和价值提升机制&#xff0c;鼓励用户持续参与并增强用户对平台的忠诚度。 消费积分的奖励机制 在电商平台&#xff0c;每一笔交易都会根据预设的比例回馈给消费者一部分资金&…