一、RCNN:
找到概率最高的目标之后,与其他目标进行IOU交并比计算,若高于一定值,则说明这两张图片预测的是同一个目标,则把概率低的目标删掉
二、Fast RCNN
因为是直接得到特征图之后进行映射,所以不限制输入图像尺寸
Gx,Gy是调整中心点,Dx(P)是回归参数,exp就是e的多少次方
三、Faster RCNN
从提取到的feature map上,每个anchor生成2个概率,一个背景,一个目标。
256-d(一维向量)来历,指的是特征深度,这里使用ZF网络,如果VGG肯定就是512了。
感受野=(输出尺寸-1)*stride+kernel_size
再采用:
四、FPN结构(第四张图)
P2-P5如何分得anchor的计算方式