摘要、图、模型架构
提出什么模块 解决什么问题
摘要
Low-shot counters estimate the number of objects corresponding to a selected category, based on only few or no exemplars annotated in the image. The current state-ofthe-art estimates the total counts as the sum over the object location density map, but does not provide individual object locations and sizes, which are crucial for many applications. This is addressed by detection-based counters, which, however fall behind in the total count accuracy. Furthermore, both approaches tend to overestimate the counts in the presence of other object classes due to many false positives. We propose DAVE, a low-shot counter based on a detect-and-verify paradigm, that avoids the aforementioned issues by first generating a high-recall detection set and then verifying the detections to identify and remove the outliers. This jointly increases the recall and precision, leading to accurate counts. DAVE outperforms the top densitybased counters by ∼20% in the total count MAE, it outperforms the most recent detection-based counter by ∼20% in detection quality and sets a new state-of-the-art in zero-shot as well as text-prompt-based counting.
低样本计数器通过基于图像中仅有的少量或没有标注的范例来估计所选类别的对象数量。当前最先进的方法将对象位置密度图的总和作为总计数,但不提供单个对象的位置和大小,而这些对于许多应用至关重要。检测基计数器解决了这一问题,但在总计数精度上表现不佳。此外,这两种方法在存在其他对象类别时往往会因大量误报而高估计数。我们提出了 DAVE,这是一种基于检测与验证范式的低样本计数器,通过首先生成高召回率的检测集,然后验证检测结果以识别并移除异常值,避免了上述问题。这种方法共同提高了召回率和精度,从而实现了精确的计数。DAVE 在总计数平均绝对误差(MAE)方面比顶级基于密度的计数器表现提高约20%,在检测质量上比最新的检测基计数器提高约20%,并在零样本和基于文本提示的计数中创下新的最先进水平。
图1
图 1. 尽管考虑了范例(黄色框),但最先进的方法(例如 CounTR [16])仍容易在错误对象上产生错误激活,导致计数不准确。DAVE 通过检测所有候选对象(红色和绿色框),验证它们,移除异常值(红色框),并修正最终的密度图,从而共同提高了检测和计数估计的精度。
贡献
The primary contribution of the paper is the detect-andverify paradigm for low-shot counting that simultaneously achieves high recall and precision. The proposed architecture is the first to extend to all low-shot counting scenarios. DAVE uniquely merges the benefits of both density and detection-based counting and is the first zero-shot-capable counter with detection output. DAVE outperforms all stateof-the-art density-based counters on the challenging benchmark [26], including the longstanding winner [6], achieving a relative 20% MAE and 43% RMSE total-count error reductions. It also outperforms all state-of-the-art detectionbased counters on the recent benchmark FSCD147 [22] by ∼20% in detection metrics, as well as in the total count estimation by 38% MAE. Furthermore, it sets a new state-ofthe-art in text-prompt-based counting. The zero-shot DAVE variant outperforms all zero-shot density-based counters and delivers detection accuracy on-par with the most recent few-shot counters. DAVE thus simultaneously outperforms both density-based and detection-based counters in a range of counting setups.
本文的主要贡献是为低样本计数提出了一种检测和验证范式,该范式同时实现了高召回率和精确度。所提出的架构是第一个扩展到所有低样本计数场景的架构。DAVE(Detect-and-Verify)独特地融合了基于密度和基于检测计数的双重优势,并且是第一个具有检测输出能力的零样本计数器。在具有挑战性的基准测试[26]中,DAVE超越了所有现有的基于密度的计数器,包括长期胜出者[6],实现了相对20%的平均绝对误差(MAE)和43%的均方根误差(RMSE)总计数误差降低。它还在最近的基准测试FSCD147[22]上超越了所有基于检测的最新计数器,检测指标提高了约20%,并且在总计数估计上通过38%的MAE提高了。此外,它在基于文本提示的计数方面树立了新的最先进水平。零样本DAVE变体超越了所有零样本基于密度的计数器,并提供了与最近少样本计数器相当的检测精度。因此,DAVE同时在一系列计数设置中超越了基于密度和基于检测的计数器。
图2
图2. 提出的DAVE架构由两个阶段组成,(i) 检测和(ii) 验证,并输出检测到的对象以及改进的位置密度图。NMS表示非极大值抑制,FFM是特征融合模块,Ω是边界框回归头,φ是验证特征提取网络
-
DAVE架构:DAVE是一个用于少样本计数和检测的架构,它包括两个主要的处理阶段。
-
检测阶段:在第一阶段,DAVE的目标是识别图像中的所有对象,可能包括一些误报。
-
验证阶段:在第二阶段,DAVE分析检测到的候选区域,以识别并排除异常值,从而提高检测的准确性。
-
输出:DAVE最终输出检测到的对象和改进的位置密度图。这些输出可以用于进一步的分析或作为计数任务的结果。
-
非极大值抑制(NMS):这是一种常用于目标检测的技术,用于去除重叠的候选区域,只保留最佳的候选框。
-
特征融合模块(FFM):这个模块负责融合不同来源的特征,以增强特征的表达能力。
-
边界框回归头(Ω):这个组件负责调整候选区域的位置和大小,以更准确地匹配实际对象的边界框。
-
验证特征提取网络(φ):这是用于验证阶段的网络,用于从候选区域提取特征,以便进行深入分析和验证。
-
改进的位置密度图:DAVE通过融合检测和验证阶段的信息,生成一个改进的位置密度图,这有助于更准确地估计对象的数量和位置。
DAVE架构通过这两个阶段的协同工作,旨在实现高召回率和高精确度的对象检测和计数,特别是在样本数量有限的情况下。
这张图描述的是一个名为DAVE(Detect-and-Verify)的少样本计数和检测方法的架构,它包含两个主要阶段:检测阶段和验证阶段。以下是对图中各个组件和流程的详细讲解:
-
检测阶段(Detection stage):
- 这一阶段的目标是识别图像中所有可能的对象,包括潜在的误报(即错误分类的对象)。
- 特征池化(Feature pooling):首先,模型通过特征池化来提取图像的特征表示。
- 余弦相似度(Cosine similarity):使用余弦相似度来衡量特征向量之间的相似性,这有助于识别图像中的对象。
- 非极大值抑制(NMS, Non-maximum Suppression):这是一种常用于目标检测的技术,用于去除重叠的候选区域,只保留最佳的候选框。
-
特征融合模块(FFM, Feature Fusion Module):
- 这个模块用于融合不同来源的特征,增强特征的表达能力,为后续的检测和验证提供更丰富的信息。
-
上采样(Upsample):
- 将特征图上采样到更高的分辨率,这有助于在更细粒度上进行对象检测。
-
验证阶段(Verification stage):
- 在检测到候选对象后,验证阶段的目的是进一步分析这些候选区域,以识别和排除异常值,从而提高检测的准确性。
-
输出检测(Output detections):
- 这个阶段输出最终的检测结果,即图像中对象的边界框。
-
输出密度(Output density):
- 除了边界框,模型还输出一个改进的位置密度图,这个密度图表示了对象在图像中的分布密度。
-
DAVE输出(DAVE outputs):
- DAVE最终输出检测到的对象(BP, 表示边界框集合)和通过验证阶段改进的密度图。
-
检测掩码(Detection mask):
- 这是一个辅助的可视化工具,显示了模型检测到的对象区域。
-
亲和矩阵(Affinity matrix):
- 在验证阶段,亲和矩阵用于量化候选区域之间的相似性或关联性,有助于识别和排除异常值。
-
聚类(Clustering):
- 聚类技术用于将相似的候选区域分组,以进一步精细化检测结果。
-
边界框回归头(2, Bounding Box Regression Head):
- 这个组件负责调整候选区域的位置和大小,以更准确地匹配实际对象的边界框。
-
验证特征提取网络(Φ, Verification Feature Extraction Network):
- Φ表示用于验证阶段的特征提取网络,它从候选区域提取特征,以便进行深入分析。
图中的数字“17”和“16.6”分别表示检测阶段的边界框数量和验证阶段后的密度估计计数,显示了DAVE方法在检测和计数方面的性能。
总结来说,DAVE架构通过这两个阶段的协同工作,旨在实现高召回率和高精确度的对象检测和计数,特别是在样本数量有限的情况下。
图3
3. Counting by detection and verification
3.1. Detection stage