卷积神经网络

目录

注意:有参数计算的才叫层

1.应用

1.1分类和检索

1.2超分辨率重构

1.3医学任务

1.4无人驾驶

1.5人脸识别

2.卷积

2.1卷积神经网络和传统网络的区别

2.2整体框架

2.3理解卷积(重点)

2.4为何要进行多层卷积

2.5卷积核的参数

2.6参数共享

2.7池化层

2.8整体结构

2.9VGG

2.10残差网络resnet

2.11感受野

参考文献


注意:有参数计算的才叫层

1.应用

1.1分类和检索

分类:简单理解为识别一张图片是狗还是猫。

检索:已经识别出一张图片是个狗,同时把是像狗(是狗)的图片都找出来。

1.2超分辨率重构

定义:就是把一张不清晰的图片变成一张清晰的图片

1.3医学任务

 细胞检测等

1.4无人驾驶

1.5人脸识别

2.卷积

2.1卷积神经网络和传统网络的区别

用下图简述:下图左侧为全连接层的神经网络,也是多层感知机的概念,下图右侧是卷积神经网络。当输入一个28×28×1的图片时,传统神经网络会将像素拉成一列,作为输入,而卷积神经网络,则是按照28×28×1的三维特征作为输入。

2.2整体框架

以下图为例简述

         输入层:28×28×1像素的图片

         卷积层:提取特征

         池化层:压缩特征

         全连接层:得到10种分类的概率

2.3理解卷积(重点)

以下图为例简述:首先我们看下图中间的红色框,假设他是一张图片,框中红色的圆圈是猫脸,蓝色框圈起来的是眼和嘴,假设这种图片32×32×3,我们希望能有效提取特征,不同的特征在不同的区域,比方说眼和嘴巴在不同的区域,猫和猫周围的环境也在不同的区域,所以为了提高效率,我们希望能按照区域提取特征,或者说得到嘴和眼睛等的有效特征,所以我们直接按照区域提取特征,比方说用一个5×5×3的卷积在图片中去提取嘴和眼睛的特征,区域的可以简单理解为下图左侧标记的1,2,3...等。

进一步我们用下图理解利用卷积时权重用在什么地方:假设输入是5×5×1的图片(蓝色区域),卷积是3×3×1的核,那么在第一个区域输入为x1,权重为w1(蓝色区域右下角的小标),输出为12,而12就代表该区域的特征,如果该区域是猫的嘴巴,那么12就属于嘴巴的特征。 

用下图进一步理解卷积的过程:首先我们要理解一个彩色图像在计算机中由RGB三张图组合在一起,才显示为彩色,假设输入为7×7×3,卷积为3×3×3(卷积核的值就是权重),三层卷积核分别和RGB第一个区域相乘,得到结果为R=0,G=2,B=0,也就是wx=2,再加上b输出为3,对应下图右侧绿框第一个值。

注意:这个输出为3×3×2,这个2不是RGB通道数,是彩图的个数。

 用下图去理解上图:从下图左侧看,就是说分别对三层RGB进行计算,最后输出归为一层。从下图由侧理解,就是RGB合一重新变成彩图。

 

2.4为何要进行多层卷积

从下图简述:卷积的本质是特征提取,比方说,如下图左所示,我们进行三次特征提取,第一次Low-Level得到的特征,变成第二次Mid-Level的输入,同理第三层High-Level的输入是第二层的输出。我们从下图右理解这个过程,加上一张图32×32×3作为输入,用6个大小为5×5×3的卷积核得到6个28×28×1的特征图,其中每一个像素都是输入的RGB三个通道叠加而来,所以这6个特征图理解为彩图,表示为28×28×6,将该新数据作为输入,再用10个5×5×10的卷积核得到10个24×24×1的输出,表示为24×24×10。

2.5卷积核的参数

滑动窗口的步长:看下图不同的步长对应的结果不同,从结果讲,步长为1时我们得到的特征较多,比较细腻,但比较慢,步长为2时我们得到的特征较少,比较粗糙,但比较快。

卷积核大小:类似于滑动步长的效果。

边缘填充:从下图右去理解,我们可以看到红色框内是补充前的信息,框中的边界点,如第一个数1,在计算时只能计算1次,那么他只能对对应的结果3产生影响,而红框中间的数,因为参与多次相乘会对多个结果值产生影响,这样就带来一个问题,边界特征提取不充分,有缺失,所以在周围加一层数值0,可以保证边界特征,更有效的被提取。而且添加的数为0,该值不会对结果产生影响。

卷积核个数:取决于想得到多少特征图,注意每一个卷积核的值都不同。

 计算公式如下

2.6参数共享

用下图简述:假设下图左为7×7×3的输入,第一个区域我们会用一组卷积核去得到输出特征图,第二个区域我们依然需要一组卷积核去得到输出特征,如果每一个区域对应的卷积核不同,计算量会非常大,为了便于计算,如下图右所示,对输入input Volum区域,用Filter W0 的3×3×3的卷积核进行卷积,用相同的卷积核和输入的每一个区域想乘,就是权值贡献。

从下图左我们看一下卷积参数和全连接参数的数量区别:对于一个32×32×3的图像,想得到10个特征,全连接层需要32×32×3×10=30720个参数,而卷积只需要5×5×3×10=750再加上10个偏置项,也只需要760个,这计算量差距太大了。

2.7池化层

从下图简述:下图左可以看出经过多层卷积后得到的输出为224×224×64,意思是得到64张特征图,每张特征图上有224×224个特征,可以发现数量太多,不利于计算,所以我们希望在不影响精度的前提下对它瘦身,这就是池化层,下图右就对每张特征图的长和宽进行了一半的瘦身。

最大池化层:如下图右所示,就是从64张特征图,每张大小224×224,按照2×2的方格区域,选一个最大值出来,结果上讲长宽各自除以2,就是瘦身一半。

注意:该池化层只做了选择,没做计算。

2.8整体结构

从下图简述:每一个卷积层由一个卷积核和非线性函数构成,每一大层网络由两个 卷积层和一个池化层构成,注意一下池化层之间的卷积层的输出结果,经过池化层后变化不大。对于FC(全连接层)之前的操作都是进行特征提取,但我们最终需要的是得到分类的概率结果,我们假FC(设全连接层)之前的池化层,这时得到的输出是32×32×10,但全连接层无法与之相乘,所以需要将32×32×10拉长成1×10240,FC(全连接层)为10240×5,5代表5个类别的概率。

2.9VGG

从下图理解VGG:下图A,B,C,D,E等为VGG的不同版本,我们看D版本,总共16层,它的特点是,每经过一个池化层,长宽瘦一半,但失去的特征,会增加特征图的数量弥补回来,如conv3-64(64代表特征图数量)经过池化层之后,再过过一层卷积,变成conv3-128,特征图数量翻倍。其识别精确率远高于现代初代神经网络架构Alexnet。

问题:按理说,神经网络层数越多,效果越好,为什么VGG不往20层以上叠加,因为实验发现16层的效果好于32层。

解决:resnet

2.10残差网络resnet

从下图左简述resnet:在VGG中我们发现,当层数超过一定数量后,越多反而效果越差,分析原因发现,是因为有些层得到的效果不好,导致之后的效果越来越差。那么根据如何解决差的层提出了resnet.

resnet:可以这样简单理解。比方说有A,B,C三层网络,我们发现B层网络不好,希望剔除,但如果直接剔除,C层就没了输出,也就无法进行,所以提出一个概念,拉一条线,直接绕过B层,将好的结果传递给C层,而B层则用权重为0的系数,令其归零。 

从从下图右进一步理解resnet:看解决方案对应的图,假设其是20层以后的网络,这时我们进行了conv1,和conv2两层卷积得到F(x),但我们担心这个结果不好,所以再次引入一条线,将x直接传到最后面的网络,最终结果为F(x)+x,当进行梯度下降时发现F(x)的梯度上升,则往上层反馈将上层卷积参数归零,直接使用x作为输入。

2.11感受野

用下图左简述:inpu为5×5×1,First Conv为3×3×1,Second Conv为1×1×1,First Conv(绿区)的感受野就是对应的input的3×3的绿区,而Second Conv(红区)对应的是上层红区3×3的感受野,上上层全部区域5×5的感受野。 一般来说我们希望感受野越大越好,因为越大看到的东西越多,分辨的就越好。那么问题来了既然越大越好,为什么长用3×3卷积核代替7×7卷积核

理由:从下图右的计算看,3个3×3的卷积核感受野和一个7×7卷积核的感受野相同,但参数却少了很多,所以用3×3的卷积核代替7×7的卷积核。而且非线性函数也会减少很多,特征提取也会更细致。因为核比较小。

参考文献

1.2-卷积的作用_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/74706.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【2023 华数杯全国大学生数学建模竞赛】 B题 不透明制品最优配色方案设计 详细建模方案解析及参考文献

【2023 华数杯全国大学生数学建模竞赛】 B题 不透明制品最优配色方案设计 详细建模方案解析及参考文献 1 题目 B 题 不透明制品最优配色方案设计 日常生活中五彩缤纷的不透明有色制品是由着色剂染色而成。因此,不透明制品的配色对其外观美观度和市场竞争力起着重要…

时间复杂度和空间复杂度

目录 一. 时间复杂度 有循环的时间复杂度例子: 1. 求冒泡排序的时间复杂度?O(n^2) 2. 求二分查找的时间复杂度?O(logn) 3. 求斐波那契数的时间复杂度?O(n) ​编辑 递归的时间复杂度例子: 1. 递归求阶乘&#…

Vue2(初识vue)

目录 一,Vue2简介1.1,什么是vue1.2,初始vue1.3,搭建vue环境1.4,第一个hello world 二,基础知识2.1 指令2.2-1 指令v-text2.2-2 指令v-html2.2-3 指令v-if2.2-4 指令v-else2.2-5 指令v-show2.2-6 v-if指令与…

华为数通HCIA-网络参考模型(TCP/IP)

网络通信模式 作用:指导网络设备的通信; OSI七层模型: 7.应用层:由应用层协议(http、FTP、Telnet.)为应用程序产生对应的数据; 6.表示层:将应用层产生的数据转换成网络设备看得懂…

react ant add/change created_at

1.引入ant的 Table import { Table, Space, Button, message } from antd; 2.获得接口的数据的时候增加上创建时间 const response await axios.get(${Config.BASE_URL}/api/v1/calculation_plans?token${getToken()});if (response.data.message ok) {const data respon…

从感知到理解-融合语言模型的多模态大模型研究

©PaperWeekly 原创 作者 | 张燚钧 单位 | 中国移动云能力中心 研究方向 | 预训练大模型 引言 近年来,大语言模型(Large language model, LLM)取得了显著进展。以 ChatGPT 为代表的 LLM 在自然语言任务上展现出惊人的智能涌现能力。尽管…

JVM面试题--实践

目录 JVM 调优的参数可以在哪里设置参数值 war包部署在tomcat中设置 jar包部署在启动参数设置 JVM 调优的参数都有哪些? 设置堆空间大小 虚拟机栈的设置 年轻代中Eden区和两个Survivor区的大小比例 年轻代晋升老年代阈值 设置垃圾回收收集器 JVM 调优的工…

微服务实战项目-学成在线-选课学习(支付与学习中心)模块

微服务实战项目-学成在线-选课学习(支付与学习中心)模块 1 模块需求分析 1.1 模块介绍 本模块实现了学生选课、下单支付、学习的整体流程。 网站的课程有免费和收费两种,对于免费课程学生选课后可直接学习,对于收费课程学生需要下单且支付成功方可选…

实验笔记之——Android项目的适配

android有一个很烦人的点就是版本之间差距较大,且不兼容,导致不同版本之间代码兼容很容易出问题,一个常见的例子就是几年前自己开发的app,几年后再用竟然配置不了。。。为此,写下本博客记录一下配置旧项目的过程。 …

【微信小程序】van-uploader实现文件上传

使用van-uploader和wx.uploadFile实现文件上传,后端使用ThinkPHP。 1、前端代码 json:引入van-uploader {"usingComponents": {"van-uploader": "vant/weapp/uploader/index"} }wxml:deletedFile是删除文件函…

SpringBoot项目修改中静态资源,只需刷新页面无需重启项目(附赠—热加载)

初衷 💢初衷💢 因为一遍遍修改并重启项目觉得很麻烦,所以刚开始就自己给项目配置了热加载,但奈何代码更新还是慢,还不如我重启一遍项目的速度,所以放弃了自己上网找到的热加载配置。直到我debugger前端代码…

云原生全栈体系(二)

Kubernetes实战入门 第一章 Kubernetes基础概念 一、是什么 我们急需一个大规模容器编排系统kubernetes具有以下特性: 服务发现和负载均衡 Kubernetes 可以使用 DNS 名称或自己的 IP 地址公开容器,如果进入容器的流量很大,Kubernetes 可以负…

load、unload和pagehide、pageshow

一、load、unload和pagehide、pageshow的主要应用 1)load 和 unload 事件监听web页面的进入和离开,一般用于页面的首次加载、刷新和关闭等操作的监听; 2)pageshow 和 pagehide 事件多用于监听浏览器的前进和后退等。 二、pagesh…

【雕爷学编程】 MicroPython动手做(38)——控制触摸屏2

MixPY——让爱(AI)触手可及 MixPY布局 主控芯片:K210(64位双核带硬件FPU和卷积加速器的 RISC-V CPU) 显示屏:LCD_2.8寸 320*240分辨率,支持电阻触摸 摄像头:OV2640,200W像素 扬声器&#…

SQL 语句中 left join 后用 on 还是 where,区别大了!

目录 情况 小结 举例 情况 前天写SQL时本想通过 A left B join on and 后面的条件来使查出的两条记录变成一条,奈何发现还是有两条。 后来发现 join on and 不会过滤结果记录条数,只会根据and后的条件是否显示 B表的记录,A表的记录一定会显…

RT1052的定时器

文章目录 1 通用定时器1.1 定时器框图1.2 实现周期性中断 2 相关寄存器3 定时器配置3.1 时钟使能3.2 初始化GPT1定时器3.2.1 base3.2.2 initConfig3.2.2.1 clockSorce3.2.2.2 divider3.2.2.3 enablexxxxx 3.3 设置 GPT1 比较值3.3.1 base3.3.2 channel3.3.3 value 3.4 设置 GPT…

数据库的分库分表

#!/bin/bash ######################### #File name:db_fen.sh #Version:v1.0 #Email:admintest.com #Created time:2023-07-29 09:18:52 #Description: ########################## MySQL连接信息 db_user"root" db_password"RedHat123" db_cmd"-u${…

LNMP及论坛搭建(第一个访问,单节点)

LNMP:目前成熟的一个企业网站的应用模式之一,指的是一套协同工作的系统和相关软件 能够提供静态页面服务,也可以提供动态web服务,LNMP是缩写 L:指的是Linux操作系统。 N:指的是nginx,nginx提…

操作系统 - 小记 230803

文章目录 计算机的硬件组成程序的存储和执行程序语言的设计和进化存储设备的层次结构操作系统 https://www.bilibili.com/video/BV1Q5411w7z5?p2 计算机的硬件组成 CPU CU,控制单元ALU,算数逻辑单元寄存器 IO Bridge 处理器和外部交互的桥梁Main Memory…

Java并发编程之顺序一致性

如果程序是正确同步的,程序的执行将具有顺序一致性(Sequentially Consistent)——即程序的执行结果与该程序在顺序一致性内存模型中的执行结果相同。 同步,即排队。 同一时刻,只能有一个线程和内存交互!&a…