SSD代码解析

input:(2, 3, 300, 300)

backbone:在VGG16的基础上进行改动。取vgg16的conv5_3,在mmdet的实现中没用BN,只有conv、ReLU、maxpool层,conv5_3是第30层,输出大小为(2, 512, 19, 19)。接着用3×3-s1-p1的maxpool取代原来的2×2-s2的maxpool,用3×3的卷积层conv6和1×1的卷积层conv7分别代替原来的fc6和fc7,并且conv6采用了dilation_rate=6的空洞卷积,增大了感受野。增加的5层具体如下

输出如下

取22和34层(index从0开始)即conv4_3和conv7作为输出用于后续的检测。

接着后面又加了8层卷积层,具体如下

并取出conv8_2,conv9_2,conv10_2,conv11_2加上前面的conv4_3,conv7共6个特征图作为backbone的输出。shape如下

因为conv4_3比较靠前,norm较大,因此作者对conv4_3专门加了L2 Normalization处理(注意这里是对取出的6个特征图中的conv4_3做了L2 Norm,而不是在网络中的conv4_3层后面加了一层L2 Norm)。

 L2 Norm的代码如下所示,其中n_dims=512是conv4_3层的channel,具体而言是对每个像素点在channel维度做归一化。

class L2Norm(nn.Module):def __init__(self, n_dims=512, scale=20., eps=1e-10):"""L2 normalization layer.Args:n_dims (int): Number of dimensions to be normalizedscale (float, optional): Defaults to 20..eps (float, optional): Used to avoid division by zero.Defaults to 1e-10."""super(L2Norm, self).__init__()self.n_dims = n_dimsself.weight = nn.Parameter(torch.Tensor(self.n_dims))self.eps = epsself.scale = scaledef forward(self, x):"""Forward function."""# normalization layer convert to FP32 in FP16 trainingx_float = x.float()norm = x_float.pow(2).sum(1, keepdim=True).sqrt() + self.epsreturn (self.weight[None, :, None, None].float().expand_as(x_float) *x_float / norm).type_as(x)

anchor_generator:backbone的6个输出特征图的尺度分别为(38,38)、(19,19)、(10,10)、(5,5)、(3,3)、(1,1),对于不同尺度的特征图,先验框即anchor的尺度也不一样,其遵循线性递增的规则,特征图尺度越小,anchor的尺度越大,具体如下

\large s_{k}=s_{min}+\frac{s_{max}-s_{min}}{m-1}\times (k-1),k\in [1,m]

其中m是特征图的个数,但这里是5,因为conv4_3层是单独设置的。是anchor大小相对于原图的比例,s_{min}

head:对于backbone阶段6个不同尺度的输出, 每个特征图后分别接两个3×3卷积得到对应该尺度的分类和回归结果,voc数据集共有20类,在mmdet的实现中分类输出额外加了一个bg类别,以conv4_3为例,

参考 目标检测|SSD原理与实现 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/263549.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】类和对象之拷贝构造函数篇

个人主页 : zxctscl 文章封面来自:艺术家–贤海林 如有转载请先通知 文章目录 1. 前言2. 传值传参和传引用传参3. 概念4. 特征 1. 前言 在前面学习了6个默认成员函数中的构造函数和析构函数 【C】构造函数和析构函数详解,接下来继续往后看拷…

什么是MapReduce

1.1 MapReduce到底是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定…

记一次生产jvm oom问题

前言 jvm添加以下参数,发生OOM时自动导出内存溢出文件 -XX:HeapDumpOnOutOfMemoryError -XX:HeapDumpPath/opt 内存分析工具: MAT, 下载地址:Eclipse Memory Analyzer Open Source Project | The Eclipse Foundation, 注意工具地址…

企业如何定制化“可靠的”系统,实现数字化转型?

二十大提出高质量发展是首要任务,为顺应数字经济时代的发展,数字化转型正不断赋能各行各业。越来越多的企业管理者也意识到数字化转型是帮助企业提升内部运营效率,提升业务开展效率,减低企业成本的有效手段。 那么如何推动企业数字…

论文阅读——SimpleClick

SimpleClick: Interactive Image Segmentation with Simple Vision Transformers 模型直接在VIT上增加交互是分割 用VIT MAE方法训练的预训练权重 用交互式分割方法微调,微调流程: 1、在当前分割自动模拟点击,没有人为提供的点击 受到RITM启发…

马斯克称创建OPENAI是希望开源非营利 但现在却闭源和被微软控制

作为 OPENAI 的联合创始人,埃隆马斯克其实是个坚定的 “反” 人工智能的人,原因是马斯克认为人工智能是人类文明最大的风险之一,应该进行严格监管,至少应该由国家级层面的监管。 2015 年马斯克联合 Sam Altman (OPENAI 现任 CEO)…

智慧城市与数字孪生:共创未来城市新篇章

一、引言 随着科技的飞速发展,智慧城市与数字孪生已成为现代城市建设的核心议题。智慧城市注重利用先进的信息通信技术,提升城市治理水平,改善市民生活品质。而数字孪生则通过建立物理城市与数字模型之间的连接,为城市管理、规划…

springmvc+ssm+springboot房屋中介服务平台的设计与实现 i174z

本论文拟采用计算机技术设计并开发的房屋中介服务平台,主要是为用户提供服务。使得用户可以在系统上查看房屋出租、房屋出售、房屋求购、房屋求租,管理员对信息进行统一管理,与此同时可以筛选出符合的信息,给笔者提供更符合实际的…

IOBR2 更新(学习自备)

IOBR查看其收录的相关基因集(自备)_肿瘤 tme特征 iobr-CSDN博客 IOBR2:多维度解析肿瘤微环境 - 知乎 (zhihu.com) 学习手册:https://iobr.github.io/book/ (里面有详细教程) 系统综合的分析工具(Immuno-Oncology Bi…

【Web】CTFSHOW 常用姿势刷题记录(全)

目录 web801 web802 web803 web804 web805 web806 web807 法一:反弹shell 法二:vps外带 web808 web809 web810 web811 web812 web813 web814 web815 web816 web817 web818 web819 web820 web821 web822 web823 web824 web825…

NXP实战笔记(七):S32K3xx基于RTD-SDK在S32DS上配置ICU输入捕获

目录 1、概述 2、输入捕获SDK配置 2.1、SAIC中断方式 2.2、IPWM或者IPM 1、概述 输入捕获,可以抓取高电平时间、低电平时间、占空比、周期、边沿检测与回调函数、边沿计数(ABZ解码)、时间戳、唤醒中断。 记录一下根据Emios模块实现上述部分…

CSS列表学习2

之前学习了列表&#xff1b;继续熟悉&#xff1b; <!DOCTYPE html> <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/><title></title><meta charset"utf-8" /><…

常用显示屏学习——LCD12864(含高级驱动程序)

LCD12864液晶显示屏 屏幕介绍 ① 可显示四行字符&#xff0c;每行可显示8个汉字或者16个数字和字母&#xff1b; ②可串行通信和并行通信&#xff1b; ③ 串口接口管脚信号 通信方法 &#xff08;一&#xff09;八位并行通信方法 &#xff08;二&#xff09;串行通信方法 用…

iMazing3终极iPhone数据设备管理软件

iMazing是一款功能丰富的iOS设备管理软件&#xff0c;具备多种实用功能&#xff0c;以下是它的主要功能的详细介绍&#xff1a; iMazing3Mac-最新绿色安装包下载如下&#xff1a; https://wm.makeding.com/iclk/?zoneid49816 iMazing3Win-最新绿色安装包下载如下&#xff1…

08 Redis之集群的搭建和复制原理+哨兵机制+CAP定理+Raft算法

5 Redis 集群 2.8版本之前, Redis采用主从集群模式. 实现了数据备份和读写分离 2.8版本之后, Redis采用Sentinel哨兵集群模式 , 实现了集群的高可用 5.1 主从集群搭建 首先, 基本所有系统 , “读” 的压力都大于 “写” 的压力 Redis 的主从集群是一个“一主多从”的读写分…

论文阅读:Ground-Fusion: A Low-cost Ground SLAM System Robust to Corner Cases

前言 最近看到一篇ICRA2024上的新文章&#xff0c;是关于多传感器融合SLAM的&#xff0c;好像使用了最近几年文章中较火的轮式里程计。感觉这篇文章成果不错&#xff0c;代码和数据集都是开源的&#xff0c;今天仔细读并且翻译一下&#xff0c;理解创新点、感悟研究方向、指导…

lxml库和Xpath提取网页数据的基础与实战:完整指南与实战【第92篇—提取网页】

使用lxml库和Xpath提取网页数据的基础与实战 在网络爬虫和数据抓取中&#xff0c;从网页中提取所需信息是一项常见的任务。lxml库和Xpath是Python中用于解析和提取HTML/XML数据的强大工具。本文将介绍lxml库的基础知识&#xff0c;以及如何使用Xpath表达式来准确地提取网页数据…

Flutter Slider自定义滑块样式 Slider的label标签框常显示

1、自定义Slider滑块样式 Flutter Slider控件的滑块系统样式是一个圆点&#xff0c;thumbShape默认样式是RoundSliderThumbShape&#xff0c;如果想要使用其它的样式就需要自定义一下thumbShape&#xff1b; 例如需要一个上图样式的&#xff08;圆点半透明圆形边框&#xff09…

游戏同步+游戏中的网络模块

原文链接&#xff1a;游戏开发入门&#xff08;九&#xff09;游戏同步技术_游戏数据同步机制流程怎么开发-CSDN博客 游戏开发入门&#xff08;十&#xff09;游戏中的网络模块_游戏开发组网-CSDN博客 3.同步技术的基本常识&#xff1a; a.同步给谁&#xff1f;某个用户&…

基于ZYNQ的PCIE高速数据采集卡的设计(二)总体设计与上位机

采集卡总体设计及相关技术 2.1 引言 本课题是来源于雷达辐射源识别项目&#xff0c;需要对雷达辐射源中频信号进行采集传输 和存储。本章基于项目需求&#xff0c;介绍采集卡的总体设计方案。采集卡设计包括硬件设计 和软件设计。首先对采集卡的性能和指标进行分析&#x…