Inception_V2_V3

Inception_V2_V3

CNN卷积网络的发展史

1. LetNet5(1998)
2. AlexNet(2012)
3. ZFNet(2013)
4. VGGNet(2014)
5. GoogLeNet(2014)
6. ResNet(2015)
7. DenseNet(2017)
8. EfficientNet(2019)
9. Vision Transformers(2020)
10. 自适应卷积网络(2021)

上面列出了发展到现在CNN的一些经典的网络模型,我将持续不断更新学习上述神经网络的笔记。共勉!

原论文地址Rethinking the Inception Architecture for Computer Vision

目录

文章目录

  • Inception_V2_V3
    • CNN卷积网络的发展史
    • 目录
    • 主要知识点
      • 1. [通用设计原则:](#2-general-design-principles通用设计原则)
      • 2. [分解卷积和非对称分解卷积:](#3-factorizing-convolutions-with-large-filter-size分解大卷积核的卷积)
      • 3. [高效下采样](#5-efficient-grid-size-reduction高效下采样)
      • 4. [Label Smooth(标签平滑)](#7-model-regularization-via-label-smoothing使用标签平滑进行模型正则化)
    • Abstract(摘要)
    • 1. 介绍
    • 2. General Design Principles(通用设计原则)
      • 1. `避免过度降维或收缩特征而导致表示瓶颈特别是在网络浅层`
      • 2. `特征越多收敛越快,相互独立的特征越多输入的信息分解的越彻底`
      • 3. `3 * 3和5 * 5大卷积核卷积之前可以用1 * 1 卷积核进行降维,信息不会损失`
      • 4. `均衡网络的宽度和深度,两者同时提升既能提高性能又能提高计算效率`
    • 3 Factorizing Convolutions with Large Filter Size(分解大卷积核的卷积)
      • 3.1 Factorization into smaller convolutions(分解成更小的卷积)
        • 灵魂二问:
      • 3.2 Spatial Factorization into Asymmetric Convolutions(非对称分解卷积)
    • 4. Utillity of Auxiliary Classifiers(辅助分类器的作用)
    • 5. Efficient Grid Size Reduction(高效下采样)
      • `目的: `
      • `传统降维方法`
    • 7. Model Regularization via Label Smoothing(使用标签平滑进行模型正则化)
      • one-hot独热编码:
      • 极大似然估计:
      • 对数似然估计:
      • 交叉熵损失函数:
      • Label Smooth:
    • 8. Training Methodology(训练方法)
    • 10. Experimental Results and Comparisons(实验结果比较)
    • 11. Conclusions(总结)
  • 时人不识凌云木,直待凌云始道高!

主要知识点

1. 通用设计原则:

  • (1) 避免过度降维或收缩特征而导致表示瓶颈
  • (2) 特征越多收敛越快,相互独立的特征越多输入的信息分解的越彻底
  • (3) 3 * 3和5 * 5 卷积之前可以使用1 * 1卷积进行降维,不会损失太多信息
  • (4) 均衡网络的深度和宽度,两者同时提升可以即提高计算效率又提高模型性能

2. 分解卷积和非对称分解卷积:

  • 分解卷积:将5 * 5分解为2个 3 * 3卷积核,7 * 7卷积核分解为3个3 * 3卷积核
  • 非对称分解卷积:将5 * 5分解为1 * 5卷积核和5 * 1卷积核

3. 高效下采样

为了解决池化后出现模型表示瓶颈的问题,需要扩展特征维度。

4. Label Smooth(标签平滑)

目的: 减少过拟合,提高模型泛化能力!

在这里插入图片描述

Abstract(摘要)

卷积神经网络在计算机领域大放异彩,但是在加深加宽网络的同时也要考虑计算效率。

  • 引出下文通过可分离卷积正则化去提升计算效率

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

1. 介绍

  • 好的分类模型可以迁移应用到其他计算机视觉任务上,共同特点:都需要CNN提取到的高质量视觉特征(visual features)
  • GoogLeNet在参数量上取得了很好的优势(AlexNet:6000w, GoogLeNet:500w, VGG16:1.3e)
  • 一味的叠加Inception模块会导致参数量过大换来的精度提升,得不偿失。

在这里插入图片描述

在这里插入图片描述

2. General Design Principles(通用设计原则)

这一章主要是介绍了作者想到的四种设计原则,论文中说道,这几种设计原则虽然没有严格的证明或者实验加持,但你要大致上遵守,如果你背离这几个原则太多,则必然会造成较差的实验结果。

  • 1. 避免过度降维或收缩特征而导致表示瓶颈特别是在网络浅层

做法:feature map长宽大小随网络的深度慢慢减小
原因:过度的降维或者收缩特征将造成一定程度的信息丢失(信息相关性丢失)

为何特别是网络的浅层?

因为在网络的浅层丢失的原图信息还不是很多,仍然保留信息的稀疏性。如果在浅层就进行过度地压缩和降维,会对后面提取特征等工作是有负面影响的。

  • 2. 特征越多收敛越快,相互独立的特征越多输入的信息分解的越彻底

赫布原理:fire together,wire together

人脸特征分解成人脸、人左眼、人右眼、鼻子、嘴巴、眉毛等等独立特征会比单纯的一张大脸特征收敛的快。(赫布原理)

  • 3. 3 * 3和5 * 5大卷积核卷积之前可以用1 * 1 卷积核进行降维,信息不会损失

原因: 我们知道feature map上每一个像素的感受野是仅隔一个步长的是具有相关性的,而1 * 1卷积将这些跨通道的信息进行交融、汇总、降维、嵌入,它们任然能保持相关性的。

  • 4. 均衡网络的宽度和深度,两者同时提升既能提高性能又能提高计算效率

深度: 网络层数。
宽度: 网络每层卷积核个数。

在这里插入图片描述

3 Factorizing Convolutions with Large Filter Size(分解大卷积核的卷积)

GoogLeNet成功的原因就是大量使用了1 * 1卷积进行降维。1 ×1 卷积核可以看作一个特殊的大卷积核分解过程,它损失少,大大降低计算量,增加非线性,跨通道交流。

原因:相邻感受野的卷积结果是高度相关的,在传入大卷积核聚合感受野之前可以先进行降维。

在这里插入图片描述

在这里插入图片描述

3.1 Factorization into smaller convolutions(分解成更小的卷积)

我们可以将5 * 5卷积核分解为2个3 * 3卷积核,7 * 7卷积核分解为3个3 * 3卷积核。这样可以有效的减少计算量。

原因:相邻感受野的权值共享。

在这里插入图片描述

在这里插入图片描述

灵魂二问:
  • 分解卷积是否会影响模型表达能力?

直观的看是可行的,从结果看也是可行的。但是要问严谨的数学原理,确实难以解释。

  • 是否需保留第一层的非线性激活函数?

对于分解后的激活函数,作者通过实验证明,保留对于原图的第一次3 ×3卷积的激活函数有较好效果(一层卷积变成两层了,增加了非线性变换,增强模型非线性表达能力),用BN后效果更好。

在这里插入图片描述

在这里插入图片描述

3.2 Spatial Factorization into Asymmetric Convolutions(非对称分解卷积)

将3 * 3卷积分解为1 * 3和3 * 1两个不对称卷积(空间可分离卷积)

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

结果

在输入和输出等同的情况下,参数降低33%(将3x3卷积核分解为两个2x2卷积核,只是降低了11%)

结论

  • 不对称卷积分解 (n ×n 分解成了 n×1 和1 ×n) ,n 越大节省的运算量越大。
  • 不对称卷积分解在靠前的层效果不好feature map尺寸在12-20之间

在这里插入图片描述

可以理解成上图中左边这个是在深度上分解,而右边这个扩展滤波器组(增大特征个数)是在宽度上分解。 应用在最后的输出分类层之前,用该模块扩展特征维度生成高维稀疏特征(增加特征个数,符合原则二)。

在这里插入图片描述

在这里插入图片描述

4. Utillity of Auxiliary Classifiers(辅助分类器的作用)

在GoogLeNet里面用了两个辅助分类器(4a和4b两个模块后面),但是事后实验证明,辅助分类器并未在训练初期改善收敛性,第一个没什么用,在v2,v3里面去掉了

提问:

  • 为什么在训练快结束时带有辅助分类器的模型精度更高?

因为辅助分类器也起到了正则化的作用。

在这里插入图片描述

这里解释一下:步长为2就已经达到了下采样的目的

在这里插入图片描述

5. Efficient Grid Size Reduction(高效下采样)

目的:

传统上,卷积网络使用一些池化操作来缩减特征图的网格大小。为了避免表示瓶颈,在应用最大池化或平均池化之前,需要扩展网络滤波器的激活维度。

传统降维方法

  • 方法一:先对feature map进行池化,再卷积会导致表征瓶颈,丢失很顶信息(先池化 -> 再卷积)

  • 方法二:信息保留了但是计算量过大(先卷积 -> 再池化)

在这里插入图片描述

这里我们进行:

并行执行(卷积C+池化P),再进行feature map的堆叠。

在这里插入图片描述

可以在不丢失信息的情况下减少参数量!

在这里插入图片描述

作者将上述信息进行汇总提出了Inception_V2架构。
在这里插入图片描述

如上图所示:
相比于Inception_V1的区别,Inception_V2将:

  • 5 * 5卷积分解为两个3 * 3卷积(figure 5)
  • 第二部分分解为不对称卷积(figure 6)
  • 使用滤波器组(增大特征个数figure 7)

结果:
计算量是GoogLeNet的2.5倍但仍比VGGNet高效!

在这里插入图片描述

7. Model Regularization via Label Smoothing(使用标签平滑进行模型正则化)

  • one-hot独热编码:

独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。(简单地说,就是对于多分类向量,计算机中往往用[0, 1, 3]等此类离散的、随机的而非有序(连续)的向量表示,而one-hot vector 对应的向量便可表示为[0, 1, 0],即对于长度为n 的数组,只有一个元素是1,其余都为0。因此表征我们已知样本属于某一类别的概率是为1的确定事件,属于其他类别的概率则均为0。

弊端:

  • 模型泛化能力变差
  • 过拟合(正确类别对应的分数logit会一味增大直达正无穷)
  • 极大似然估计:

极大似然估计(Maximum Likelihood Estimation,MLE)是一种统计方法,用于估计模型参数。它通过寻找使得数据出现概率最大的模型参数来估计真实参数。

  • 对数似然估计:

对数似然估计(Log-Likelihood)是统计学中一种常用的方法,用于评估模型与数据的拟合程度。对数似然估计通过对似然函数取对数来简化计算,并衡量模型对数据的拟合程度。

  • 交叉熵损失函数:

最小化交叉熵损失函数等效于最大化正确类别的对数似然函数

在这里插入图片描述

在这里插入图片描述

  • Label Smooth:

标签平滑的实质就是促使神经网络中进行softmax激活函数激活之后的分类概率结果向正确分类靠近,即正确的分类概率输出大(对应的one-hot标签为1位置的softmax概率大),并且同样尽可能的远离错误分类(对应的one-hot标签为0位置的softmax概率小),即错误的分类概率输出小。

采用Label Smooth可以使网络精度提高0.2%

在这里插入图片描述

8. Training Methodology(训练方法)

最优模型的优化方法:RMSProp + learning rate decay(0.9) , 同时使用了阈值为2的梯度截断使得训练更加稳定。

在这里插入图片描述

目标检测难点:
图像中低分辨率的目标难以检测,如何处理低分辨率输入?如何保证计算量不变的情况下增加感受野从而增加对低分辨率目标的检测。

实验如下图所示:
在这里插入图片描述

结论:实验表明虽然感受野增大,但是在保持计算量不变的情况下模型性能相差不大

10. Experimental Results and Comparisons(实验结果比较)

在这里插入图片描述

对Inception_V2进行改进:

  • InceptionV2 加入RMSProp(一种计算梯度的方法)
  • 在上面的基础上加入Label Smoothing(LSR,标签平滑正则化)
  • 在上面的基础上再加入7×7的卷积核分解(分解成3×3)
  • 在上面的基础上再加入含有BN的辅助分类器

所以本文最终提出的InceptionV3=inceptionV2+RMSProp优化+LSR+BN-auxilary

在这里插入图片描述

进一步进行模型集成加多裁剪

在这里插入图片描述

通过上图可以看到InceptionV3在分类上取得了很好的效果!

在这里插入图片描述

11. Conclusions(总结)

我们提供了几个设计原则来扩展卷积网络,并在Inception体系结构的背景下进行研究。这个指导可以导致高性能的视觉网络,与更简单、更单一的体系结构相比,它具有相对适中的计算成本。Inception-v3的最高质量版本在ILSVR 2012分类上的单裁剪图像评估中达到了21.2%的top-1错误率和5.6%的top-5错误率,达到了新的水平。与Ioffe等[7]中描述的网络相比,这是通过增加相对适中(2.5/times)的计算成本来实​​现的。尽管如此,我们的解决方案所使用的计算量比基于更密集网络公布的最佳结果要少得多:我们的模型比He等[6]的结果更好——将top-5(top-1)的错误率相对分别减少了25%(14%),然而在计算代价上便宜了六倍,并且使用了至少减少了五倍的参数(估计值)。我们的四个Inception-v3模型的组合效果达到了3.5%,多裁剪图像评估达到了3.5%的top-5的错误率,这相当于比最佳发布的结果减少了25%以上,几乎是ILSVRC 2014的冠军GoogLeNet组合错误率的一半。

我们还表明,可以通过感受野分辨率为79×79的感受野取得高质量的结果。这可能证明在检测相对较小物体的系统中是有用的。我们已经研究了在神经网络中如何分解卷积和积极降维可以导致计算成本相对较低的网络,同时保持高质量。较低的参数数量、额外的正则化、标准化的辅助分类器和标签平滑的组合允许在相对适中大小的训练集上训练高质量的网络

参考文章路人贾’ω’
参考视频【精读AI论文】Inception V3深度学习图像分类算法

时人不识凌云木,直待凌云始道高!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/357917.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flume基础教程

Apache Flume教程 资料来源:Apache Flume - Introduction (tutorialspoint.com) Flume是一个标准的、简单的、健壮的、灵活的、可扩展的工具,用于将从各种数据生产者(web服务器)中所产生的数据抽取到Hadoop中。在本教程中,我们将使用简单的…

NeRF从入门到放弃4: NeuRAD-针对自动驾驶场景的优化

NeuRAD: Neural Rendering for Autonomous Driving 非常值得学习的一篇文章,几乎把自动驾驶场景下所有的优化都加上了,并且也开源了。 和Unisim做了对比,指出Unisim使用lidar指导采样的问题是lidar的垂直FOV有限,高处的东西打不…

Python18 数据结构与数据类型转换

1.python中的数据结构 在Python中,数据结构是用来存储、组织和管理数据的方式,以便有效地执行各种数据操作。Python提供了几种内置的数据结构,每种都有其特定的用途和操作方法。以下是Python中一些主要的数据结构: 1.列表&#…

Mac数据如何恢复?3 款最佳 Mac 恢复软件

如果您认为 Mac 上已删除的文件永远丢失了,那您就大错特错了!实际上,即使您清空了 Mac 上的垃圾箱,也有许多解决方案可以帮助您恢复已删除的文件。最好的解决方案之一是 Mac 恢复删除软件。最好的Mac 恢复删除应用程序可以轻松准确…

【STM32c8t6】AHT20温湿度采集

【STM32c8t6】AHT20温湿度采集 一、探究目的二、探究原理2.1 I2C2.1. 硬件I2C2.1. 软件I2C 2.2 AHT20数据手册 三、实验过程3.1 CubeMX配置3.2 实物接线图3.3 完整代码3.4 效果展示 四、探究总结 一、探究目的 学习I2C总线通信协议,使用STM32F103完成基于I2C协议的A…

国产AI算力训练大模型技术实践

ChatGPT引领AI大模型热潮,国内外模型如雨后春笋,掀起新一轮科技浪潮。然而,国内大模型研发推广亦面临不小挑战。面对机遇与挑战,我们需保持清醒,持续推进技术创新与应用落地。 为应对挑战,我们需从战略高度…

android关于源码编译简单的apk处理

文章目录 简述文件的添加 简述 创建AOSP源码可编译一个简单apk的过程,代码子目录结构图如下所示 文件的添加 1.com.custom.test目录下创建TestActivity.java文件 用于简单的界面显示类 package com.custom.test;import android.app.Activity; import android.o…

Leetcode 2713. 矩阵中严格递增的单元格数(DFS DP)

Leetcode 2713. 矩阵中严格递增的单元格数 DFS 容易想到,枚举每个点作为起点,向同行同列的可跳跃点dfs,维护全局变量记录可达的最远距离 超时,通过样例193 / 566 class Solution {int res 0;public void dfs(int[][] mat, in…

超越YOLOv8,飞桨推出精度最高的实时检测器RT-DETR!

众所周知,实时目标检测( Real-Time Object Detection )一直由 YOLO 系列模型主导。 飞桨在去年 3 月份推出了高精度通用目标检测模型 PP-YOLOE ,同年在 PP-YOLOE 的基础上提出了 PP-YOLOE 。后者在训练收敛速度、下游任务泛化能力以及高性能部署能力方面…

IDEA各种实体类运行爆红,不运行就没事

1.问题描述 如图所示,后端项目的import的各种entity爆红,点击也有导入包的提示,且这种报红几乎遍布了整个工程项目 2.我的解决方案 清空缓存,然后把target文件删掉,重新跑 3.小结 idea项目有时候就是一个核弹&…

Go 三色标记法:一种高效的垃圾回收策略

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

Linux_软硬链接

目录 1、软链接 2、软链接的使用方式 3、软链接的删除 4、硬链接 5、硬链接的使用方式 6、软硬链接的使用场景 7、软硬链接的区别 结语 前言: 在Linux操作系统中,有软链接和硬链接,他们是一种特殊的文件引用,主要用于与…

Phi-3 模型手机部署教程(微软发布的可与GPT-3.5媲美的小模型)

前面几篇博文,老牛同学和大家一起在个人电脑部署了Qwen2、GLM4、Llama3、ChatTTS和Stable Diffusion等 LLM 大模型,也通过 API 和 WebUI 的方式完成了体验。 但是这些大模型因为部署在个人电脑本地,不能够随时携带。如果能在手机上部署大模型…

众爱宠物开源项目介绍

众爱宠物管理系统是一个集会员管理、宠物管理、商品管理、库存管理、数据管理、收银管理、多门店管理等功能于一体的综合管理系统,具有操作方便、简单、安全等优点。 开源项目地址

LabVIEW 控制 Tucsen 相机

LabVIEW 控制 Tucsen 相机 ucsen 是一家知名的显微镜相机制造商,其相机产品广泛应用于科研、工业和医疗等领域。本文将介绍如何使用 LabVIEW 软件来控制 Tucsen 相机,涵盖相机的基本情况、硬件和软件要求、具体的控制步骤和编程示例。通过使用 LabVIEW&…

环信beta版鸿蒙IM SDK发布!深度适配HarmonyOS NEXT系统

环信beta版鸿蒙IM SDK已正式发布!欢迎有需求开发者体验集成! 版本亮点 提供原生鸿蒙 SDK,支持原生 ArkTS 语言,全面拥抱鸿蒙生态提供鸿蒙系统上单聊、群聊、会话等能力和服务覆盖消息管理、用户属性、群租管理、离线推送.多设备…

2-14 基于matlab的GA优化算法优化车间调度问题

基于matlab的GA优化算法优化车间调度问题。n个工作在m个台机器上加工。已知每个工作中工序加工顺序、各工序的加工时间以及每个工件所包含的工序,在满足约束条件的前提下,目的是确定机器上各工件顺序,以保证某项性能指标最优。程序功能说明&a…

SFF1006A-ASEMI无人机专用SFF1006A

编辑:ll SFF1006A-ASEMI无人机专用SFF1006A 型号:SFF1006A 品牌:ASEMI 封装:TO-220F 最大平均正向电流(IF):10A 最大循环峰值反向电压(VRRM):600V 最大…

力扣SQL50 超过5名学生的课

Problem: 596. 超过5名学生的课 Code select class from courses group by class having count(distinct student) > 5;

哔哩哔哩视频URL解析原理

哔哩哔哩视频URL解析原理 视频网址解析视频的原理通常涉及以下几个步骤: 1、获取视频页面源代码:通过HTTP请求获取视频所在网页的HTML源代码。这一步通常需要处理反爬虫机制,如验证码或用户登录。 2、解析页面源代码:分析HTML源代…