FOCUS-AND-DETECT: A SMALL OBJECTDETECTION FRAMEWORK FOR AERIAL IMAGES

摘要

为了解决小对象检测问题,提出了一个叫做 Focus-and Detect 的检测框架,它是一个两阶段的框架。 一阶段包括由高斯混合模型监督的对象检测器网络,生成构成聚焦区域的对象簇 第二阶段 也是一个物体探测器网络,预测聚焦区域内的物体 为了克服区域搜索方法的截断效应,还提出了不完全盒抑制 IBS )方法。

1、介绍

一般来说,检测网络由主干网、颈部和头部组成。在这种情况下,主干网模型是为检测任务提取特征的网络,头部是预测边界框和类的实际检测模型,颈部位于主干网和头部网络之间,并融合来自主干网模型不同阶段的特征图。
航空目标检测是一个新兴领域,近年来取得了很大的进展。早些时候,几项研究提出了将为自然图像建立的方法适应航空图像[8 9] 。然而,由于这种方法,出现了各种困难 [10] 。首先, 在航空图像中,方位 和纵横比可能与自然图像显著不同 。其次, 类内和类间样本的航空图像中的尺度变化非常严重 [11] 。例如,[12] 报告了 MS COCO VisDrone[13] 数据集中 汽车 类的统计数据。结果表明,在 VisDrone 数据集中, 汽车 对象大小的方差几乎是 MS COCO 数据集的五倍。 第三, 航空图像中的物体小而密集 。例如,VisDrone检测数据集中的单个图像中可能存在多达 902 个对象 [14] 。此外,航空图像中存在类不平衡问题[14] ,这使得样本数量较少的类的小目标检测问题更加困难。因此,小物体检测任务需要解决上述问题的专用方法。
为此,我们提出了一个由两个阶段组成的框架,即聚焦阶段和检测阶段。 在第 阶段中,通过 由高斯混 合模型监督的检测器来确定要聚焦的区域 。第 阶段由这些 主要是物体集群的区域提供,预测这些区域 内的物体 。在 合并这些区域的预测时,利用 NMS 和所提出的 IBS 方法来消除重叠和截断的边界框。
贡献
提出了一个基于区域搜索的航空图像小目标检测框架,即 聚焦与检测 。我们提出了一个使用高斯模型生成目标聚类的方法,其中生成的聚类是尺度归一化的。我们还提出了“ 不完全盒抑制 IBS )方法来抑制由重叠焦区引起的不完全盒。
总结
针对航空图像中存在的问题,提出了一个两阶段的检测框架,即聚焦阶段和检测阶段。
第一阶段:由高斯混合模型监督的检测器来确定要聚焦的区域。
第二阶段:主要由物体集群的区域提供,预测这些区域内的物体。在合并区域的预测时,利用 NMA 和所提出的IBS 方法来消除重叠和截断的边界框。

2、相关工作

由于图像上小物体覆盖区域的信息不足、小对象定位的可能性高以及适用于中大型物体等问题,大多数物体检测方法都难以处理小物体。
航空图像检测困难是因为, 它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别 内的高尺度方差。 为了缓解这些困难,以前提出了许多方法。例如, [45] 中针对类不平衡问题提出了一种自适应增强方法,称为AdaResampling 。在 [46] 中,提出了一种硬芯片挖掘方法作为航空图像的数据增强。此外,[11] 提出了对获得多尺度特征的改进,以减少尺度方差对目标检测的影响。由于航空图像大多由小而密集的物体组成,一些方法侧重于改进区域搜索[46 47 48 49 16 50 ,15, 51] 。例如, [48] 提出了基于 平铺的方法来实时检测航空图像中的行人和车辆 。在 [16] 中, 使用均值 偏移算法来确定困难的聚类区域 ,以提供对象检测器。 [50] 为基于裁剪的方法提出了三种增强方法,即 镶嵌增强、自适应裁剪和掩模重采样 。在 [12] 中,提出了一种 基于 FPN[20] 的自适应图像裁剪方法 来解决航空图像中的尺度挑战。[47] 构造密度图以确定要裁剪的区域 。然后由这些作物以及整个图像提供对象检测器。[15] 利用聚类获得图像裁剪。
我们的方法仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域 的尺度归一化 ,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏 移,并产生了边界框的归一化。
与以往的研究不同,我们 提出使用高斯混合模型( GMM )进行区域搜索 。此外,我们 提出了不完全盒抑 制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠区域内的不完全盒 。图 2 展示了所提出的 IBS方法的贡献。
总结
航空图像检测困难是因为,它们大多包括小物体、不同类别的样本数量之间的大差异以及类别间和类别内的高尺度方差。
本文仅使用预测区域,而不使用对整个图像的检测 。另一方面, 高斯混合模型提供了跨预测区域的尺度归一化,而无需额外计算,因为 将预测区域调整为固定大小,产生了每个混合分量的平均值的偏移,并产生了边界框的归一化。提出了不完全盒抑制( IBS ),以抑制由 GMM 监督下的第一检测器生成的重叠 区域内的不完全盒

3 Focus-and-Detect

3.1 Overview

如图 1 所示,对航空图像的检测由两个阶段组成: 检测由物体簇组成的焦点区域的焦点网络 检测焦点区 域中物体的检测网络 。在 合并预测之后应用后处理方法 。具体而言,我们提出了 不完全盒抑制( IBS )机 制来抑制重叠焦区的不完全盒 。我们还 使用标准的非最大值抑制( NMS )来抑制合并预测后的重叠框。

3.2 Focus satge

Focus stage 阶段 由一个物体检测网络组成,经过训练可以检测焦点区域 焦点区域是通过 GT 边界框使 用高斯模糊模型生成的。选择广义聚焦损失( GFL )作为基本检测方法 。该模型的 backbone 是具有可 变形卷积层的 ResNet-50 网络 [52]
模型的 第二部分,是 FPN ,旨在开发和细化从 ResNet-50 的不同阶段获得的特征图, 最后一部分是预测 焦点区域边界框的模型的检测头。可变形卷积用于主干的最后三个阶段
传统的网络架构不能很好地转移焦点区域检测任务。焦点特征的可迁移性不如传统物体特征的可转移性。
为了提高学习特征的可转移性,可变形卷积层 [52] 已在 ResNet-50 中使用,因为可变形卷积可以动态地改变接收场。拟议的改变有助于更好地代表重点区域。
整体框架的性能主要取决于聚焦阶段 。理想情况下,预测的焦点区域必须包括所有对象边界框,而不进行任何截断。但是,这些区域中可能存在重叠的区域和截断的对象。这些问题通过采用 IBS 方法作为后处 理阶段 来解决。
总结
Focus stage 有一个物体检测网络组成。 焦点区域是通过 GT 边界框使用高斯模糊模型生成
backbone 部分由可变形卷积层的 Resnet-50 网络构成,第二部分是 FPN ;最后一部分是 预测聚焦区域 边界框的模型的检测头 。可变形卷积用于主干的最后三个阶段。

3.2.1用高斯混合模型生成聚焦区域的GT

在物体定位问题中,同一类物体的区域可以用高斯分布建模,因为物体的大小变化不大。高斯混合模型不是单个高斯模型,而是更好的选择,而与单个高斯模型相反,当对象位置被用作混合模型的输入时, 混合模型由具有较小偏差的高斯组成
在这种情况下, 焦点区域可以被定义为使用高斯混合模型获得的物体簇 该高斯混合模型将 GT 框的位置 信息作为输入。位置信息由边界框到图像中均匀采样点网络的距离矢量组成 ,如图 3 所示, 与直接使用方 框坐标相比,这种方法产生了更好的结果
物体簇
根据相应图像的 GT 框的数量来选择聚焦区域的数量。聚焦区域的数量( Nf) 可以写成
其中是 N_{gt}是GT框的数量,设 是图像中第i个GT框的1xM大小的距离向量,X是特征向量 N_f \times M的大小矩阵。 高斯混合模型可以定义为:
其中 j 个聚类的均值和方差。
使用期望最大化算法对模型进行拟合。一旦 EM 算法运行完成,拟合的模型就可以用于对 GT 边界框进行聚类。给定模型的参数,GT 边界框属于集群的概率计算为:
在计算聚类之后,焦点区域被选择为最小尺寸的框,该模型包括各个聚类中每侧具有 20 像素间隙的所有边界框。由于间隙的原因,焦点区域可能存在被截断的物体。生成的焦点区域被用作焦点阶段的 ground  truth GT 边界框 ,如图 4 所示。
3.3 Detection stage
在获得焦点区域之后,使用专用检测器对这些区域进行物体检测。所获得的区域被调整大小以获得更高的分辨率。这种方法提高了小物体检测的性能。
在这一阶段,采用广义聚焦损耗( GFL )作为基本探测器。模型的主干被选择为具有可变形卷积层的ResNeXt-101网络。在 neck 中,使用 FPN ,最后是预测对象边界框的模型的检测头。可变形卷积层用于最后三个阶段。
检测阶段,用 GMM 获得的焦点区域被裁剪并调整大小,作为一个新的数据集 。获得 GT 边界框,并将其细化为焦点区域作物。如果至少30% GT 框位于裁剪区域内,则包括裁剪后的 GT 框。
3.4 后处理
为了获得物体边界框的最终预测,必须将检测阶段的预测合并为焦点区域的模型输出预测。用于提高性能的后处理步骤包括不完全盒抑制(IBS )和非最大值抑制( NMS )。
不完全盒抑制( IBS 利用区域搜索的模型存在某些问题 。例如,合并目标区域的检测可能很困难,因为可能存在重叠的区域和截断的对象。这个问题在同一个对象上产生多个边界框预测。由于截断、预测的边界框没有完全重叠。因此,非极大值抑制不能抑制这些类型的错误预测。但是 ,这些预测会降低AP 得分。通常,非极大值抑制用于消除高度重叠的方框。但是,在大多数区域搜索方法中,最后一步是合并目标区域的预测。这就产生了一个新的问题,这些区域中的重叠区域和阻断对象降低了整体性能,因为检测器可能会预测完整版本的边界框,以及相同对象的截断版本的边界盒,如图5 所示。通常,这些边界框并集上的交集很小。因此,他们能够逃离NMS 。截断的对象本身也是一个问题。错误的类预测对于截断的对象很常见。结果,假阳性增加,AP 得分降低。不完全盒抑制( IBS )是为了减少这类问题而提出的。从本质上说,IBS NMS 算法具有相同的原理:找到重叠的边界框,选择具有最高置信度值的框,并抑制其他框。虽然NMS 使用简单的并集交集( IoU) 阈值来寻找重叠,但 IBS 中,重叠的焦点区域和对象
边界框都被用来决定要抑制哪个框
C_i and B_{i,j}是该区域 中的第 i 个焦点区域坐标和第 j 个框坐标
第一步:计算聚焦区域 Ci 和其他聚焦区域之间的 IoU ,以找到 Ci 的重叠。再将阈值应用于所计算的 IoU之后,获得重叠的聚焦区域。
第二步是 将重叠焦点区域中的对象框坐标裁剪到第 i 个焦点区域的坐标,并收集面积大于零的框
最后一步是计算裁剪框和 B_{i,j} 之间的 IoU 。如果任何 IoU分数大于所选阈值,则抑制 B_{i,j}焦点区域 IoU 阈值被实验性地选择为 0.05 ,边界框的 IoU 门限再次被实验性的选择为 0.5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/284758.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Web框架开发-Ajax

一、 Ajax准备知识:json 1、json(Javascript Obiect Notation,JS对象标记)是一种轻量级的数据交换格式 1 2 它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。 简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。…

谧林涓露门禁

原神武器升级材料谧林涓露和门禁好像聂。 difference(){union(){cylinder(2, 10,10, $fn365);hull(){translate([15,0,0])cylinder(1,2,2,$fn365);cylinder(1,10,10,$fn365);}}translate([15,0,-1])cylinder(4,1,1,$fn365); }

swagger3快速使用

目录 &#x1f37f;1.导入依赖 &#x1f32d;2.添加配置文件 &#x1f9c2;3.添加注解 &#x1f96f;4.访问客户端 1.导入依赖 引入swagger3的依赖包 <dependency><groupId>io.springfox</groupId><artifactId>springfox-boot-starter</artif…

智能驾驶域控制器行业介绍

汽车智能驾驶功能持续高速渗透&#xff0c;带来智能驾驶域控制器市场空间快速增 长。智驾域控制器是智能驾驶决策环节的重要零部件&#xff0c;主要功能为处理感知 信息、进行规划决策等。其核心部件主要为计算芯片&#xff0c;英伟达、地平线等芯 片厂商市场地位突出。随着消费…

【c语言】详解操作符(上)

1. 操作符的分类 2. 原码、反码、补码 整数的2进制表示方法有三种&#xff0c;即原码、反码、补码 有符号整数的三种表示方法均有符号位和数值位两部分&#xff0c;2进制序列中&#xff0c;最高位的1位是被当做符号位其余都是数值位。 符号位都是用0表示“正”&#xff0c;用…

二分算法(查找)

问题&#xff1a;在数组中查找某一个数字x4的下标 例&#xff1a;arr:1 3 4 6 10 20 21 22 显然&#xff0c;数字4的下标为3。 1、线性查找&#xff0c;一个个地去遍历&#xff0c;时间复杂度为O(n) 2、二分查找&#xff0…

国务院办公厅发布:政府类网站网页设计规范(试行)

国务院办公厅于2019年12月发布了《政府类网站网页设计规范&#xff08;试行&#xff09;》。该规范的发布旨在统一政府类网站的设计风格和标准&#xff0c;提升政府网站的用户体验和可访问性&#xff0c;推动政府信息公开和服务的提升。 该规范涵盖了政府类网站的各个方面&…

【Esp32-Cam模型训练相关问题解决方案】

Esp32-Cam模型训练相关问题解决方案 一、AttributeError: module everywhereml.data.ImageDataset has no attribute from_nested_folders现象解决方案 二、Connection to 192.168.x.xxx timed out(connect timeoutNone)三、卡在0%| |0/100 [00:00<?, ?it/s] 抛砖引玉&…

Linux之基础IO

1.C语言中的文件操作函数 文件的打开 path为文件路径&#xff0c;mode为打开方式&#xff0c;它们都是字符串。 代码演示&#xff1a; 此时&#xff0c;当前目录中并没有log.txt文件&#xff0c;但是没关系&#xff0c;fopen会在当前路径下创建log.txt文件。 简单来说&#xf…

数据分析-Pandas序列时间移动窗口化操作

数据分析-Pandas序列时间移动窗口化操作 数据分析和处理中&#xff0c;难免会遇到各种数据&#xff0c;那么数据呈现怎样的规律呢&#xff1f;不管金融数据&#xff0c;风控数据&#xff0c;营销数据等等&#xff0c;莫不如此。如何通过图示展示数据的规律&#xff1f; 数据表…

Python3 字典

字典是另一种可变容器模型&#xff0c;且可存储任意类型对象。 字典的每个键值 key>value 对用冒号 : 分割&#xff0c;每个对之间用逗号(,)分割&#xff0c;整个字典包括在花括号 {} 中 ,格式如下所示&#xff1a; d {key1 : value1, key2 : value2, key3 : value3 } 键必…

MTransE翻译

MTransE翻译 阅读时间&#xff1a;2024.03.23 领域&#xff1a;知识图谱&#xff0c;知识对齐 作者&#xff1a;Muhao Chen等人 UCLA 出处&#xff1a;IJCAI Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment 用于交叉知识对齐的多语言知识图…

【Python】基础语法(一)

文章目录 1.注释2.关键字与标识符2.1关键字2.2标识符 3.变量4.数据类型4.1数字类型4.2类型转换函数4.3布尔类型 5.输入(input)与输出(print)5.1输入函数(input)5.2输出函数(print) 6.运算符6.1算术运算符6.2比较运算符6.3赋值运算符6.4逻辑运算符6.5运算符优先级 7.字符串7.1字…

mysql体系结构及主要文件

目录 1.mysql体系结构 2.数据库与数据库实例 3.物理存储结构​编辑 4.mysql主要文件 4.1数据库配置文件 4.2错误日志 4.3表结构定义文件 4.4慢查询日志 4.4.1慢查询相关参数 4.4.2慢查询参数默认值 4.4.3my.cnf中设置慢查询参数 4.4.4slow_query_log参数 4.4.…

官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

摘要&#xff1a;本文整理自阿里云开源大数据平台徐榜江 (雪尽)&#xff0c;关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会&#xff0c;内容主要分为以下四部分&#xff1a; 1、Flink CDC 新仓库&#xff0c;新流程 2、Flink CDC 新定位&#xff0c;新玩法 3、Flin…

中文编程入门(Lua5.4.6中文版)第十一章 Lua 模块与包 参考星争际霸游戏

在遥远的星争际霸世界中&#xff0c;代码模块就如同星际基地中的高科技仓库&#xff0c;储存着各类经过封装优化的战术指令和战略资源。自Lua 5.1版本起&#xff0c;星际编程者们引入了标准化的模块管理系统&#xff0c;使得不同战舰之间能够共享和调用核心战斗算法&#xff0c…

【】(综合练习)博客系统

在之前的学些中&#xff0c;我们掌握了Spring框架和MyBatis的基本使用&#xff0c;接下来 我们就要结合之前我们所学的知识&#xff0c;做出一个项目出来 1.前期准备 当我们接触到一个项目时&#xff0c;我们需要对其作出准备&#xff0c;那么正规的准备是怎么样的呢 1.了解需求…

覃超老师 算法面试通关40讲

教程介绍 无论是阿里巴巴、腾讯、百度这些国内一线互联网企业&#xff0c;还是 Google、Facebook、Airbnb 等硅谷知名互联网公司&#xff0c;在招聘工程师的过程中&#xff0c;对算法和数据结构能力的考察都是重中之重。本课程以帮助求职者在短时间内掌握面试中最常见的算法与…

这个世界会好吗

1918年11月7日&#xff0c;梁漱溟的父亲梁济正准备出门&#xff0c;遇到漱溟&#xff0c;二人谈起关于欧战的一则新闻。“世界会好吗&#xff1f;”父亲最后问道。儿子回答&#xff1a;“我相信世界是一天一天往好里去的。” “能好就好啊&#xff01;”父亲说罢就离开了家。 三…

使用切片技术从点云中测量树木胸径DBH

胸高直径(DbH)是树木库存调查的重要树木指标和元数据,它可以指示树木的相对年龄、大小和林业发展阶段。在MMS(移动测绘系统)LiDAR点云中,集合近年来一直在快速增长。在这项试点研究中,我们将通过对路边的目标树群进行切片,将这些收集到的点云用于城市林业和遥感。 具有…