【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解

【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解

文章目录

  • 【图像分类】【深度学习】【轻量级网络】【Pytorch版本】MobileNets_V2模型算法详解
  • 前言
  • MobleNet_V2讲解
    • 反向残差结构(Inverted Residuals)
    • 兴趣流形(Manifold of interest)
    • 线性瓶颈层(Linear Bottlenecks)
    • MobleNet_V2模型结构
  • MobleNet_V2 Pytorch代码
  • 完整代码
  • 总结


前言

MobileNets_V2是由谷歌公司的Sandler, Mark等人在《MobileNetV2: Inverted Residuals and Linear Bottlenecks【CVPR-2017】》【论文地址】一文中提出的带线性瓶颈的反向残差设计的改进模型,相比于普通残差模块,反向残差模块则是中间维度大,两边维度小,保证精度的同时显著减少所需的操作数量和内存,适用于嵌入式移动设备。


MobleNet_V2讲解

MobleNet_V1网络【参考】结构虽然轻盈,但是只是单纯地使用卷积层进行堆叠,没有引入类似于ResNet【参考】的shortcut连接,因此没有充分利用图像的信息,所以其准确率表现不佳;并且论文中提到,在实际使用中,发现深度可分离卷积的某些卷积核参数为0,部分卷积核在训练过程中失效了。
深度可分离卷积(Depthwise Separable Convolution) 结构中的深度卷积层(Depthwise Convolutional) 的卷积核数量取决于上一层的通道数,MobleNet_V1训练得到的很多无效的卷积核,因此,MobleNet_V2在深度卷积层前添加了一层 点卷积(Pointwise Convolution) 进行升维,再通过深度卷积进行卷积,最后通过点卷积进行降维,变成了一个两端细,中间粗的结构,弥补了MobleNet_V1中训练不足导致卷积核失效的情况。

反向残差结构(Inverted Residuals)

ResNet中证明残差结构(Residuals) 有助于构建更深的网络从而提高精度,MobileNetV2中以ResNet的残差结构为基础进行优化,提出了反向残差(Inverted Residuals) 的概念。

深度卷积层提取特征限制于输入特征维度,若采用普通残差块会将输入特征图压缩,深度卷积提取的特征会更少,MobileNets_V2将输入特征图扩张,丰富特征数量,进而提高精度。

普通残差结构的过程:高维输入->1x1卷积(降维)–>relu激活–>3x3卷积(低维)–>relu激活–>1x1卷积(升维)->残差相加->relu激活。

反向残差结构的过程: 低维输入->1x1点卷积(升维)-> relu激活->3x3深度卷积(低维)->relu激活->1x1点卷积(降维)->与残差相加。

论文中MobileNets_V2的反向残差结构如下图所示:

t代表膨胀比(通道扩展系数),K代表输入维度,K’输出维度,s代表步长。

MobileNets_V2的反向残差结构分为俩种,当stride=2时,反向残差结构取消了shortcut连接。

兴趣流形(Manifold of interest)

这个部分还是有点意思的,理解后也不难,博主根据论文和其他资料尽量简单的给出了个人见解

兴趣流形是指在特征空间(特征图)中,与特定任务或概念相关的数据样本的聚集区域。它是数据样本在特征空间中的分布结构,其中包含了与任务相关的有用信息,兴趣流形可以理解为数据在特征空间中形成的低维嵌入结构。具体来说,卷积层的所有独立的通道输出的特征图的像素值,这些像素值中编码的信息实际上位于某个流形中,而流形又可嵌入到低维子空间(部分特征图)中,这是因为并不是每一个像素对于表征输入图像而言都是不可或缺的,可能只有一部分像素,就足够表征这些输入图像在该层的某种感兴趣信息。

简单来说就是兴趣流形就是指输出特征图中与任务相关的部分特征图的部分特征像素值的总和。

这就会有产生一种直觉,可以通过减小卷积层的维数来减小特征空间的维数,因为兴趣流形只占特征空间的一部分,希望尽可能的减少其余无关的特征空间。根据这种直觉,MobileNets_V1通过不断降低特征空间的维度直到流形充满整个空间,来达到压缩模型的目的。
但是卷积神经网络中特征空间是需要经过非线性激活层(relu),也就是降低的是激活特征空间的维度,因此兴趣流形并没有不断聚合而充满整个特征空间,而是丢失了一部分兴趣流形,从而导致模型的检测准确率降低。

特征空间经过非线性变换ReLU激活会导致为负的输入全部变为零,导致失去保存的信息,当ReLU使得某一个输入通道崩塌时(这个通道中有很多特征像素值都变成了负值),就会使当前通道丢失很多信息,但是如果有很多卷积核,也就是生成了很多通道,那么在当前通道丢失的信息就会有可能在其他通道找回来,如下图展示了嵌入在高维空间中的低维兴趣流形经过ReLU激活的情况。

线性瓶颈层(Linear Bottlenecks)

线性瓶颈层的主要作用是通过降低维度来提取数据的主要特征,从而减少计算量和模型复杂度,同时保持输入数据的重要信息,通常由一个线性变换操作组成,例如全连接层或卷积层,其输出维度远小于输入维度,并且不引入非线性变换。假设兴趣流形是低维的,插入线性瓶颈层可以防止非线性破坏太多信息,因为线性瓶颈层使用线性层而非ReLU激活层。因此在反向残差结构的1×1点卷积降维后并没有ReLU激活层。

很多论文证明在残差块相加之前不做非线性激活会使得检测的准确率提高,读者可以去看resnet的残差结构其实最后一层也是线性瓶颈层,是在残差块相加之后才做的非线性激活。

MobleNet_V2模型结构

下图是原论文给出的关于MobleNet_V2模型结构的详细示意图:

t是通道扩展系数;c是通道数; n是组成员数;s是步长。

MobileNets_V2在图像分类中分为两部分:backbone部分: 主要由普通卷积层、反残差结构和池化层(汇聚层)组成,分类器部分:由1×1卷积层(全连接)层组成 。

在分类任务中,分类器的1×1卷积层作用等价于全连接层,因此很多demo就用全连接代替1×1卷积层的作用了


MobleNet_V2 Pytorch代码

普通卷积块: 3×3卷积层+BN层+ReLU6激活函数

# 普通卷积块
class ConvBNReLU(nn.Sequential):def __init__(self, in_channel, out_channel, kernel_size=3, stride=1, groups=1):# 保持输入输出特征图尺寸一致的paddingpadding = (kernel_size - 1) // 2super(ConvBNReLU, self).__init__(nn.Conv2d(in_channel, out_channel, kernel_size, stride, padding, groups=groups, bias=False),nn.BatchNorm2d(out_channel),nn.ReLU6(inplace=True))

反向残差结构: 1×1点卷积层+BN层+ReLU6激活函数+3×3深度卷积层+BN层+ReLU6激活函数+1×1点卷积层+BN层

# 反向残差结构
class InvertedResidual(nn.Module):# expand_ratio是膨胀率def __init__(self, in_channel, out_channel, stride, expand_ratio):super(InvertedResidual, self).__init__()# 升维后的维度hidden_channel = in_channel * expand_ratio# 特征图形状保持一致才能shortcutself.use_shortcut = stride == 1 and in_channel == out_channellayers = []if expand_ratio != 1:# 1x1 pointwise convlayers.append(ConvBNReLU(in_channel, hidden_channel, kernel_size=1))layers.extend([# 3x3 depthwise conv 维度数==组数ConvBNReLU(hidden_channel, hidden_channel, stride=stride, groups=hidden_channel),# 1x1 pointwise conv(linear)nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False),nn.BatchNorm2d(out_channel),])self.conv = nn.Sequential(*layers)def forward(self, x):# 特征图形状保持一致if self.use_shortcut:return x + self.conv(x)else:return self.conv(x)

完整代码

from torch import nn
import torch
from torchsummary import summarydef _make_divisible(ch, divisor=8, min_ch=None):if min_ch is None:min_ch = divisor'''int(ch + divisor / 2) // divisor * divisor)目的是为了让new_ch是divisor的整数倍类似于四舍五入:ch超过divisor的一半则加1保留;不满一半则归零舍弃'''new_ch = max(min_ch, int(ch + divisor / 2) // divisor * divisor)# 假设new_ch小于ch的0.9倍,则再加divisorif new_ch < 0.9 * ch:new_ch += divisorreturn new_ch# 卷积组: Conv2d+BV+ReLU6
class ConvBNReLU(nn.Sequential):def __init__(self, in_channel, out_channel, kernel_size=3, stride=1, groups=1):# 保持输入输出特征图尺寸一致的paddingpadding = (kernel_size - 1) // 2super(ConvBNReLU, self).__init__(nn.Conv2d(in_channel, out_channel, kernel_size, stride, padding, groups=groups, bias=False),nn.BatchNorm2d(out_channel),nn.ReLU6(inplace=True))# 反向残差结构
class InvertedResidual(nn.Module):# expand_ratio是膨胀率def __init__(self, in_channel, out_channel, stride, expand_ratio):super(InvertedResidual, self).__init__()# 升维后的维度hidden_channel = in_channel * expand_ratio# 特征图形状保持一致才能shortcutself.use_shortcut = stride == 1 and in_channel == out_channellayers = []if expand_ratio != 1:# 1x1 pointwise convlayers.append(ConvBNReLU(in_channel, hidden_channel, kernel_size=1))layers.extend([# 3x3 depthwise conv 维度数==组数ConvBNReLU(hidden_channel, hidden_channel, stride=stride, groups=hidden_channel),# 1x1 pointwise conv(linear)nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False),nn.BatchNorm2d(out_channel),])self.conv = nn.Sequential(*layers)def forward(self, x):# 特征图形状保持一致if self.use_shortcut:return x + self.conv(x)else:return self.conv(x)class MobileNetV2(nn.Module):def __init__(self, num_classes=1000, alpha=1.0, round_nearest=8):super(MobileNetV2, self).__init__()# 反残差结构block = InvertedResidual# alpha控制网络通道数input_channel = _make_divisible(32 * alpha, round_nearest)last_channel = _make_divisible(1280 * alpha, round_nearest)'''网络配置参数:t是通道扩展系数 c是通道数n是组成员数s是步长'''inverted_residual_setting = [# t, c, n, s[1, 16, 1, 1],[6, 24, 2, 2],[6, 32, 3, 2],[6, 64, 4, 2],[6, 96, 3, 1],[6, 160, 3, 2],[6, 320, 1, 1],]features = []# conv1 layerfeatures.append(ConvBNReLU(3, input_channel, stride=2))# 用反残差结构搭建网络for t, c, n, s in inverted_residual_setting:output_channel = _make_divisible(c * alpha, round_nearest)for i in range(n):# 每个反残差模块组的第一个反残差块的stride根据指定要求s设置,其余的默认都是1stride = s if i == 0 else 1features.append(block(input_channel, output_channel, stride, expand_ratio=t))input_channel = output_channelfeatures.append(ConvBNReLU(input_channel, last_channel, 1))self.features = nn.Sequential(*features)# 构建分类器self.avgpool = nn.AdaptiveAvgPool2d((1, 1))self.classifier = nn.Sequential(nn.Dropout(0.2),nn.Linear(last_channel, num_classes))# 权重初始化for m in self.modules():if isinstance(m, nn.Conv2d):nn.init.kaiming_normal_(m.weight, mode='fan_out')if m.bias is not None:nn.init.zeros_(m.bias)elif isinstance(m, nn.BatchNorm2d):nn.init.ones_(m.weight)nn.init.zeros_(m.bias)elif isinstance(m, nn.Linear):nn.init.normal_(m.weight, 0, 0.01)nn.init.zeros_(m.bias)def forward(self, x):# mobilenetV2 1.0为例# N x 3 x 224 x 224x = self.features(x)# N x 1280 x 7 x 7x = self.avgpool(x)# N x 1280 x 1 x 1x = torch.flatten(x, 1)# N x 1280x = self.classifier(x)# N x 100return x# mobilenetV2 0.25
def MobileNetV2x25():return MobileNetV2(alpha=0.25, round_nearest=8)# mobilenetV2 0.50
def MobileNetV2x50():return MobileNetV2(alpha=0.5, round_nearest=8)# mobilenetV2 0.75
def MobileNetV2x75():return MobileNetV2(alpha=0.75, round_nearest=8)# mobilenetV2 1.00
def MobileNetV2x100():return MobileNetV2(alpha=1.0, round_nearest=8)if __name__ == '__main__':device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")model = MobileNetV2x100().to(device)summary(model, input_size=(3, 224, 224))

summary可以打印网络结构和参数,方便查看搭建好的网络结构。


总结

尽可能简单、详细的介绍了反残差结构的原理和卷积过程,讲解了MobileNets_V2模型的结构和pytorch代码。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/200113.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序记住密码,让登录解放双手

密码是用户最重要的数据&#xff0c;也是系统最需要保护的数据&#xff0c;我们在登录的时候需要用账号密码请求登录接口&#xff0c;如果用户勾选记住密码&#xff0c;那么下一次登录时&#xff0c;我们需要将账号密码回填到输入框&#xff0c;用户可以直接登录系统。我们分别…

力扣贪心——跳跃游戏I和II

1 跳跃游戏 利用边界进行判断&#xff0c;核心就是判定边界&#xff0c;边界内所有步数一定是最小的&#xff0c;然后在这个边界里找能到达的最远地方。 1.1 跳跃游戏I class Solution {public boolean canJump(int[] nums) {int len nums.length;int maxDistance 0;int te…

卷积、卷积图像操作和卷积神经网络

好多内容直接看书确实很难坚持&#xff0c;就比如这个卷积&#xff0c;书上的一大堆公式和图表直接把人劝退&#xff0c;我觉得一般的学习流程应该是自顶向下&#xff0c;先整体后局部&#xff0c;先把握大概再推敲细节的&#xff0c;上来就事无巨细地展示对初学者来说很痛苦。…

2021年03月 Scratch(二级)真题解析#中国电子学会#全国青少年软件编程等级考试

Scratch等级考试(1~4级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 小猫在沙漠中旅行好不容易找到了一杯水,初始位置如下图所示,下面哪个程序可以帮助它成功喝到水? A: B: C: D:

OpenLayers实战,WebGL图层根据Feature要素的变量动态渲染多种颜色的三角形,适用于大量三角形渲染不同颜色

专栏目录: OpenLayers实战进阶专栏目录 前言 本章使用OpenLayers根据Feature要素的变量动态渲染不同颜色的三角形。 通过一个WebGL图层生成四种不同颜色的图形要素,适用于WebGL图层需要根据大量点要素区分颜色显示的需求。 更多的WebGL图层使用运算符动态生成样式的内容将会…

手机弱网测试工具:Charles

我们在测试app的时候&#xff0c;需要测试弱网情况下的一些场景&#xff0c;那么使用Charles如何设置弱网呢&#xff0c;请看以下步骤&#xff1a; 前提条件&#xff1a; 手机和电脑要在同一局域网内 Charles连接手机抓包 一、打开Charles&#xff0c;点击代理&#xff0c;…

黑马React18: 基础Part II

黑马React: 基础2 Date: November 16, 2023 Sum: 受控表单绑定、获取DOM、组件通信、useEffect、Hook、优化B站评论 受控表单绑定 受控表单绑定 概念&#xff1a;使用React组件的状态&#xff08;useState&#xff09;控制表单的状态 准备一个React状态值 const [value, se…

万界星空科技QMS质量管理系统功能

QMS质量管理系统结合质量决策、综合质量管理、过程质量控制三个层次要素&#xff0c;帮助企业实现产品全寿命周期质量数据的及时、灵活、准确和全面采集。 通过质量管理软件能够实现质量数据科学处理和应用&#xff0c;包括数据的系统化组织、结构化存贮、便捷式查询、定制化统…

不夸张地说,这是我见过最通俗易懂的,pytest入门基础教程!

Pytest简介 Pytest is a mature full-featured Python testing tool that helps you write better programs.The pytest framework makes it easy to write small tests, yet scales to support complex functional testing for applications and libraries. 通过官方网站介绍…

京东大数据(京东数据采集):2023年Q3线上投影仪品类销售数据分析报告

11月初&#xff0c;某知名投影仪企业发布了2023年三季度财报。数据显示&#xff0c;今年第三季度&#xff0c;公司营收依然不客观&#xff0c;连续第五个季度业绩持续下滑。 从鲸参谋数据也可以看出&#xff0c;今年Q3&#xff0c;京东平台上该品牌的销量环比下滑约35%&#x…

OpenAI宫斗,尘埃落定,微软成最大赢家

周末被OpenAI董事会闹剧刷屏,ChatGPT之父Sam Altman前一天被踢出董事会,免职CEO,后一天重返OpenAI,目前结局未知。 很多同学想要围观,缺少背景知识,这里老章为大家简单介绍前因后果及涉及的人物,时间线,让大家轻松围观。 备好瓜子,开始。 1、主角 先看一张图,看一…

flink 查看写入starrocks的数据量 总行数

针对该connector: https://github.com/StarRocks/docs.zh-cn/blob/main/loading/Flink-connector-starrocks.md

深入解析Windows操作系统——概念和工具

文章目录 Windows操作系统的版本Windows NT和Windows 95基础概念和术语内核调试用户模式调试 Windows操作系统的版本 Windows NT和Windows 95 Windows NT和Windows 95之间的一些结构性差异&#xff0c;以及Windows NT优于Windows 95及其后续版本的一些方面&#xff1a; Wind…

机器学习:十大算法快速回顾

一、说明 对于机器学习的是个经典算法&#xff0c;本篇将展示一个回顾&#xff0c;注意&#xff0c;本篇不是具体原理信息介绍&#xff0c;没有代码&#xff0c;但是对于初学者是一个有益的导读。 二. 线性回归 2.1 算法描述 有没有想过数据奇才如何预测未来&#xff1f;输入线…

react 手机端 rc-table列隐藏(根据相关条件是否隐藏)、实现图片上传操作

最近公司某一项目的手机端&#xff0c;新增需求&#xff1a;table中的附件要可以编辑&#xff0c;并且是在特定条件下可编辑&#xff0c;其他仅做展示效果。 查阅官方文档&#xff0c;没有发现是否隐藏这一属性&#xff0c;通过css控制样式感觉也比较麻烦&#xff0c;后面发现可…

全球首款容器计算产品重磅发布,激活上云用云新范式

云布道师 10 月 31 日&#xff0c;杭州云栖大会上&#xff0c;阿里云云原生应用平台负责人丁宇宣布&#xff0c;阿里云容器计算服务 ACS 正式发布&#xff01;ACS 将大幅降低企业和开发者用云门槛&#xff0c;真正将 Serverless 理念大规模落地。 容器计算服务 ACS&#xff0c…

hologres 索引与查询优化

hologres 优化部分 1 hologres 建表优化1.1 建表中的配置优化1.1 字典索引 dictionary_encoding_columns1.2 位图索引 bitmap_columns1.2.2 Bitmap和Clustering Key的区别 1.3 聚簇索引Clustering Key 1 hologres 建表优化 1.1 建表中的配置优化 根据 holo的 存储引擎部分的知…

关于在3dsmax中制作的模型导入UE后尺寸大小不对的问题

现象 在3dsmax中的基本单位为毫米 在UE中基本单位是厘米 我在3dsmax中创建一个长宽高均为1000mm的方块 然后导入到UE中的世界坐标原点 方块向X轴正方向移动100个单位100cm1000mm&#xff0c;按理来说&#xff0c;新方块的此时应该和旧方块是贴着的&#xff0c;但是现象确是两者…

深度学习入门:自建数据集完成花鸟二分类任务

自建数据集完成二分类任务&#xff08;参考文章&#xff09; 1 图片预处理 1 .1 统一图片格式 找到的图片需要首先做相同尺寸的裁剪&#xff0c;归一化&#xff0c;否则会因为图片大小不同报错 RuntimeError: stack expects each tensor to be equal size, but got [3, 667…

【VRTK】【VR开发】【Unity】7-配置交互能力和向量追踪

【前情提要】 目前为止,我们虽然设定了手模型和动画,还能够正确根据输入触发动作,不过还未能与任何物体互动。要互动,需要给手部设定相应的Interactor能力。 【配置Interactor的抓取功能】 在Hierarchy中选中[VRTK_CAMERA_RIGS_SETUP] ➤ Camera Rigs, Tracked Alias ➤ …