CNN 网络结构简介

本文通过整理李宏毅老师的机器学习教程的内容,介绍 CNN(卷积神经网络)的网络结构。

CNN 网络结构, 李宏毅


CNN 主要应用在图像识别(image classification, 图像分类)领域。

通常,输入的图片大小相同,如 100 × 100 100 \times 100 100×100,输出的分类为 one-hot 形式:
输入输出

输入数据的格式为 tensor(张量),维数为:宽度 × \times × 高度 × \times × channel(频道)数:
输入数据

理解方式一:神经元视角(neuron version story)


如果使用全连接(fully connected network)的网络结构,参数量会非常大:
全连接网络

考虑到图片识别问题的特性,其实并不需要全连接的网络,下面基于此进行简化。

感受野


图像识别本质上是对图像中的各个部位进行识别,如一只鸟的喙、眼和爪等,因此每个神经元(neuron)只需输入图片的一部分即可,即感受野(receptive field):

感受野

值得注意的是:

  • 不同神经元的感受野可以重叠;
  • 同一个感受野也可以有多个神经元用以侦测不同的特征:
    感受野可重叠

此外,感受野还可以有一些其他的操作:

  • 可以有大有小;
  • 可以只考虑部分 channel,在通常的 CNN 中不常见,但在 network corporation 时会遇到;
  • 可以是长方形;
  • 理论上甚至可以不相连,但是要想清楚这样做的理由。

总之,感受野可以任意设计。

最经典的感受野的设计如下:

  • 考虑所有 channel,因此只需要输入宽度和高度即可,宽度和高度合称为 kernel size;
  • kernal size 往往不会很大,如 3 × 3 3 \times 3 3×3,后面会解释如何对更大范围的模式(pattern)进行识别;
  • 同一个感受野会有多个神经元;
  • 感受野的移动步长(stride)不要太大,通常为 1 或 2,希望感受野之间有重叠,防止感受野交界上的模式被遗漏;
  • 对于位于边界上、超出范围的感受野,需要对超出的位置进行补值(padding),通常补 0,也有其他补值方法,如补全图的平均值,或补边界值等;
  • 感受野整体要覆盖全图。

参数共享


由于同样的模式可能出现在图片的不同位置:
不同位置的相同模式

于是侦测不同位置的相同模式的神经元,其对应的参数相同,即参数共享:
参数共享

侦测相同位置的神经元不能共享参数。

共享的参数叫做滤波器(filter):
filter

综上所述,以上两种 CNN 对全连接网络的简化方式:
两种简化方式


理解方式二:滤波器视角(filter version story)


将每个卷积层(convolutional layer)视为若干滤波器扫过整张图片,去识别对应的模式:
卷积层的 filter

filter 模式识别

同一卷积层的所有滤波器输出的所有数据叫做 feature map,它可以看成是另一张图片,只不过 channel 数量由 3 个(RGB)变成了滤波器的数量,因此下一层的滤波器的高度需要设为上一层的滤波器数量:
feature map

当网络更深时,同样大小的感受野所看到的范围会越来越大,例如,同样是 3 × 3 3 \times 3 3×3 的感受野,在第二层就可以看到原图片中 5 × 5 5 \times 5 5×5 的范围:
更大的范围

此外,第一种理解方式中的参数共享,即是把滤波器扫过整张图片的过程。

两种理解方式总结如下:
两种理解方式的总结

有关 pooling


pooling 即 subsampling,是把一张大的图片缩小,以减少运算量的过程。
常见的 pooling 方式为 max pooling,即保留最大值:
max pooling 1

max pooling 2

通常是做一层或几层卷积后,做一次 pooling,整体网络结构如下:
含 pooling 的整体网络结构

但近年来,pooling 用得越来越少,甚至可有可无,因为其操作会影响性能,而运算资源又越来越强。


AlphaGo 的网络结构


AlphaGo 的网络结构

其中,rectifier nonlinearity 即为 ReLU。

此外,AlphaGo 没有使用 pooling。


局限性


CNN 无法处理图片放大缩小或旋转的情形,解决方案有:

  • 数据增强(data augmentation),即把训练资料的每张图片都截成小块再放大,并把每张图片都旋转,使网络看到放大和旋转后的图片;
  • 使用 spatial transformer layer。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/173152.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【开源】基于SpringBoot的计算机机房作业管理系统的设计和实现

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 登录注册模块2.2 课程管理模块2.3 课时管理模块2.4 学生作业模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 课程表3.2.2 课时表3.2.3 学生作业表 四、系统展示五、核心代码5.1 查询课程数据5.2 新增课时5.3 提交作…

Jupyter Notebook还有魔术命令?太好使了

在Jupyter Notebooks中,Magic commands(以下简称魔术命令)是一组便捷的功能,旨在解决数据分析中的一些常见问题,可以使用%lsmagic 命令查看所有可用的魔术命令 插播,更多文字总结指南实用工具科技前沿动态…

视频上的水印文字如何去掉?

嘿,大家好!作为一个自媒体从业者,我相信大家都想知道如何去掉视频上的水印文字,想必大家和我一样每天都会在互联网寻找素材,而大部分图片或者视频都带有各种各样的水印,这给我的创作带来了不小的麻烦&#…

Vue 3.3.6 ,得益于WeakMap,比之前更快了

追忆往昔,穿越前朝,CSS也是当年前端三剑客之一,风光的很,随着前端跳跃式的变革,CSS在现代前端开发中似乎有点默默无闻起来。 不得不说当看到UnoCss之前,我甚至都还没听过原子化CSS[1]这个概念(…

[开源]一个低代码引擎,支持在线实时构建低码平台,支持二次开发

一、开源项目简介 TinyEngine低代码引擎使能开发者定制低代码平台,支持在线实时构建低码平台,支持二次开发或集成低码平台能力。 二、开源协议 使用MIT开源协议 三、界面展示 四、功能概述 TinyEngine是一个低代码引擎,基于这个引擎可以构…

【Java每日一题】——第四十三题:USB接口程序设计。(2023.10.29)

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

中颖单片机SH367309全套量产PCM,专用动力电池保护板开发资料

方案总体介绍 整套方案硬件部分共2块板子,包括MCU主板,采用SH79F6441-32作为主处理器。MCU主板包括2个版本。PCM动力电池保护板采用SH367309。 软件方案采用Keil51建立的工程,带蓝牙的版本,支持5~16S电池。 硬件方案--MCU主板 MC…

【Matlab2016】Matlab中文版的下载、安装、激活(不建议安装过高版本!!)

这里写目录标题 首先双击R2016_win64.iso加载镜像文件双击setup.exe开始安装选择使用文件密钥安装填入密钥修改安装路径并记住此路径建议全部勾选等待安装完成 激活复制补丁到matlab路径下 创建快捷方式进入bin目录,找到matlab.exe 安装包 首先双击R2016_win64.iso加…

java基础巩固

JDK11和JDK8是oracle重点维护的 常用的包 单例 多例 枚举 jar包打包 测试

STM32:TTL串口调试

一.TTL串口概要 TTL只需要两个线就可以完成两个设备之间的双向通信,一个发送电平的I/O称之为TX,与另一个设备的接收I/O口RX相互连接。两设备之间还需要连接地线(GND),这样两设备就有相同的0V参考电势。 二.TTL串口调试 实现电脑通过STM32发送…

Latex报错 “Paragraph ended before \Gin@iii was complete“

大家看看自己的模版的前面 加载的包 里面是不是有个 \usepackage{graphics} 问题就在这里,我们需要把它改成\usepackage{graphicx}

Windows客户端下pycharm配置跳板机连接内网服务器

问题:实验室服务器仅限内网访问,无法在宿舍(外网)访问实验室的所有内部服务器,但同时实验室又提供了一个外网可以访问的跳板机,虽然可以先ssh到跳板机再从跳板机ssh到内网服务器,但这种方式不方…

类EMD的“信号分解方法”及MATLAB实现(第八篇)——离散小波变换DWT(小波分解)

在之前的系列文章里,我们介绍了EEMD、CEEMD、CEEMDAN、VMD、ICEEMDAN、LMD、EWT,我们继续补完该系列。 今天要讲到的是小波分解,通常也就是指离散小波变换(Discrete Wavelet Transform, DWT)。在网上有一些介绍该方法…

C#学习相关系列之多线程(七)---Task的相关属性用法

一、Task和Thread的区别 任务是架构在线程之上的,任务最终的执行还是要给到线程去执行的。任务和线程之间不是一对一的关系,任务更像线程池,任务相比线程池有很小的开销和精确的控制。(总的来说Task的用法更为先进,在多线程的时候…

06 MIT线性代数-列空间和零空间 Column space Nullspace

1. Vector space Vector space requirements vw and c v are in the space, all combs c v d w are in the space 但是“子空间”和“子集”的概念有区别,所有元素都在原空间之内就可称之为子集,但是要满足对线性运算封闭的子集才能成为子空间 中 2 …

为什么数组的下标是从0开始呢?

我们在许多的编程语言中,大部分的数组下标都是从零开始的,那为什么不是从一开始的呢? 首先我们,先要了解数组相关的定义。 数组(Array)是一种线性表数据结构。它用一组连续的内存空间,来存储一…

Android 3D Launcher锁定IMU界面

故事背景: 最近工厂反馈由于VR设备老化测试完成之后,变绿界面不明显,只占3D系统一部分,每次需要戴头盔,才能确定老化完成。导致工厂效率变低,如果后期产能变大,效率更低。 1、针对以上需求我们需要拆分 1、…

【SPSS】基于RFM+Kmeans聚类的客户分群分析(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

R-FCN: Object Detection via Region-based Fully Convolutional Networks(2016.6)

文章目录 AbstractIntroduction当前最先进目标检测存在的问题针对上述问题,我们提出... Our approachOverviewBackbone architecturePosition-sensitive score maps & Position-sensitive RoI pooling Related WorkExperimentsConclusion 原文链接 源代码 Abstr…

14. 机器学习 - KNN 贝叶斯

Hi,你好。我是茶桁。 咱们之前几节课的内容,从线性回归开始到最后讲到了数据集的处理。还有最后补充了SOFTMAX。 这些东西,都挺零碎的,但是又有着相互之间的关系,并且也都蛮重要的。并且是在学习机器学习过程当中比较…