EfficientDet: Scalable and Efficient Object Detection

CVPR2020 V7 Mon, 27 Jul 2020 引用量：243 机构：Google

贡献：1>提出了多尺度融合网络BiFPN 2>对backbone、feature network、box/class prediction network and resolution进行复合放缩，有着不同的性能表现，以适应不同资源和应用。

views：1> 首先讨论BiFPN，作者只描写了直觉上这样子，整体的结构就是在PANet上进行了修改，或者说图2的c、d其实可以看作是图2(b)的模型剪枝。此外，图2(d)又加入了快捷连接（感觉可类似ResNet），采用了Attention对每个级别的feature map进行加权融合。（这个好像没那么亮眼） 2> 对backbone、feature network、box/class prediction network and resolution进行复合放缩，在介绍这里时，作者反复引用了[39]，通过启发式算法（这个没介绍）将复合放缩融合到一起，提出了一系列模型，在2020初，霸榜各大榜单。

Ideas：能否借鉴多尺度融合方式进行模态数据的融合。

摘要：
研究了用于目标检测的神经网络体系结构设计选择，首先，提出了一种加权双向特征金字塔网络（bi-directional feature pyramid network）（BiFPN），该网络可快速进行多尺度特征融合，其次，提出了
一种复合缩放方法（compound scaling method），可同时对all backbone、feature network and box/class prediction均匀地缩放分辨率、深度、宽度。基于此和更好的backbone，我们提出了efficientdet。EfficientDet-D7在coco上实现55.1AP，77M，410B FLOPs，尺寸缩小了4-9倍，FLOPs减少了13-42倍。

1.Introduction
模型效率对于目标检测越来越重要，很多工作通过采用one-stage、anchor-free、compress model来实现，但会牺牲准确性。
提出问题（问题导向型文章）：是否有可能在广泛的资源约束中构建更高准确性和更高效率的可扩展检测体系结构？基于一阶段检测器，检测backbone，feature fusion，class/box network，提出两点挑战：
挑战1：有效的多尺度特征融合---FPN被广泛用于multi-scale feature fusion（neck部分），PANet和NAS-FPN为cross-scale feature fusion开发了更多的网络结构。不同的输入特征具有不同的分辨率，观测到它们通常不均等影响融合输出特征，故提出了BiFPN。BiFPN引入了可学习权重了解不同输入特征的重要性（起到了一种Attention机制作用），同时反复应用自上而下和自下而上的多尺度融合（作为一个基本层，反复应用，更好的融合多尺度）。
挑战2：模型缩放---先前的工作主要依赖于较大的backbone或较大的input image size，以实现更高的准确性。我们观察到按比例缩放feature network和box/class prediction netwrok对于同时考虑精度和效率至关重要。
EfficientNet+BiFPN+compound scaling = EfficientDet。在COCO和VOC上达到SOTA性能。

2.Related Work
One-Stage Detector: 根据它们是否具有interest proposal step
l Multi-Scale Feature Representations: 目标检测的主要困难是有效地表现和处理多尺度特征。FPN提出一种自上而下的途径来组合多尺度特征。PANet提出一种额外的自下而上的路径聚合网络，STDL提出一个尺度转换模块来利用跨尺度特征。M2det提出了一个U形模块来融合多尺度特征，G-FRNet提出用于跨特征控制信息流门单元。尽管NAS-FPN有很好的性能，但耗费大量时间，生成的要素网络是不规则的，难以解释。本文旨在更直观，更原则的方式优化多尺度特征融合。
Model Scaling：更大的backbone，或增加输入图像尺寸，最近，[39]通过共同扩大网络的宽度，深度和分辨率，证明了图像分类的卓越模型效率。

其中，resize通常表示upsampling or downsampling用于分辨率匹配，Conv表示卷积操作。
3.2 Cross-Scale Connections
自上而下的FPN受到单向信息流的限制。PANet添加了一个额外的自下而上的路径聚合网络，NAS-FPN使用neural architecture search搜索特定的网络拓扑结构，网络不规则，难以解释或修改（NAS感觉有点像大network进行神经元pruning ，没了解过）。
提出BiFPN，根据直觉：1>如果一个节点只有一个输入边且没有特征融合，那么它对融合不同特征的网络有很少的贡献，简化双向网络（这感觉有点牵强） 2>原始输入和输出节点处于同一级别，添加一条额外的边（类shortcut） 3>将每个双向路径视为一个feature network layer，重复多次以获得high-level feature fusion。
3.3 Weighted Feature Fusion
常见融合方法：调整为相同的分辨率，对其求和。
提出添加额外的权重对于每个输入，考虑三种加权融合方法：