[2309.05277] Interactive Class-Agnostic Object Counting (arxiv.org)
code:
cvlab-stonybrook/ICACount: [ICCV23] Official Pytorch Implementation of Interactive Class-Agnostic Object Counting (github.com)
目录
Abstract
Abstract
我们提出了一个新的交互式类别无关目标计数框架,用户可以通过交互提供反馈来提高计数器的准确性。我们的框架由两个主要部分组成:一个用户友好的可视化工具来收集反馈,以及一个有效整合反馈的机制。在每一次迭代中,我们生成一张密度图来展示当前的预测结果,并将该图分割成不重叠的区域,每个区域内的目标数量容易验证。用户可以通过选择一个计数明显错误的区域,并指定该区域内目标数量的估计范围来提供反馈。为了改进计数结果,我们开发了一种新的适应性损失函数,以强制视觉计数器输出用户指定范围内的预测计数。为了有效和高效地适应,我们提出了一个细化模块,它可以与任何基于密度的视觉计数器一起使用,并且只有细化模块中的参数将在适应过程中更新。我们在两个具有挑战性的类别无关目标计数基准测试 FSCD-LVIS 和 FSC-147 上进行的实验表明,我们的方法可以通过最少的用户输入将多个最新视觉计数器的平均绝对误差降低大约 30% 到 40%。我们的项目可以在 Count What You Want 上找到。
- 交互式类别无关目标计数:提出了一种新的框架,允许用户通过交互反馈来提高目标计数的准确性。
- 框架组成:包括用户友好的可视化工具和高效的反馈整合机制。
- 迭代过程:生成密度图,分割成易于验证的非重叠区域,并允许用户提供特定区域的目标数量反馈。
- 适应性损失:开发了一种新的损失函数,用于调整预测计数以符合用户指定的范围。
- 细化模块:提出了一个可以与任何基于密度的视觉计数器配合使用的模块,仅更新该模块的参数以实现快速适应。
- 实验结果:在 FSCD-LVIS 和 FSC-147 基准测试上,通过最少的用户输入显著提高了计数准确性。
1. Introduction
The need for counting objects in images arises in many applications, and significant progress has been made for both class-specific [17, 30, 13, 46, 47, 9, 3, 24, 44, 25, 19, 38, 23, 16, 34, 36, 1] and class-agnostic [49, 35, 33, 41, 51, 26, 31, 32] counting. However, unlike in many other computer vision tasks where the predicted results can be verified for reliability, visual counting results are difficult to validate, as illustrated in Fig. 1. Mistakes can be made, and often there are no mechanisms to correct them. To enhance the practicality of visual counting methods, the results need to be more intuitive and verifiable, and feedback mechanisms should be incorporated to allow errors to be corrected. This necessitates a human-in-the-loop framework that can interactively display the predicted results, collect user feedback, and adapt the visual counter to reduce counting errors.
图像中的目标计数需求在许多应用中都会出现,并且对于特定类别的计数[17, 30, 13, 46, 47, 9, 3, 24, 44, 25, 19, 38, 23, 16, 34, 36, 1]以及类别无关的计数[49, 35, 33, 41, 51, 26, 31, 32]都取得了显著进展。然而,与许多其他计算机视觉任务不同,在这些任务中预测结果可以被验证其可靠性,视觉计数结果难以验证,如图 1 所示。错误可能会发生,而且通常没有机制来纠正它们。为了提高视觉计数方法的实用性,结果需要更加直观和可验证,并且应该纳入反馈机制以允许纠正错误。这就需要一个人机交互框架,它可以交互式地显示预测结果,收集用户反馈,并适应视觉计数器以减少计数错误。
-
目标计数的应用需求:图像中的目标计数在许多领域都有需求,如人群计数、野生动物监测等。
-
类别特定与类别无关的计数:研究在特定类别的计数上取得了进展,即只针对某些特定类别的物体进行计数。同时,类别无关的计数方法也得到了发展,这些方法旨在对任意类别的物体进行计数。
-
结果验证的挑战:与计算机视觉的其他任务相比,视觉计数的结果验证更为困难,因为缺乏直观和可靠的方法来确认计数的准确性。
-
错误与纠正机制:在视觉计数过程中可能会犯错误,而且通常缺少有效的机制来检测和纠正这些错误。
-
提高实用性的需求:为了使视觉计数方法更加实用,需要使结果更易于理解和验证,并引入反馈机制以便在发现错误时进行纠正。
-
人机交互框架:提出了一个包含人机交互环节的框架,该框架可以:
- 交互式地展示预测结果。
- 收集用户的反馈。
- 根据反馈调整视觉计数器,以减少计数误差。
-
用户参与的重要性:通过用户的参与,可以提高计数的准确性,因为用户可以识别并纠正自动计数过程中的错误。
-
适应性:视觉计数器需要能够根据用户的反馈进行适应性调整,以提高其性能和可靠性。
然而,为视觉计数开发一个交互式框架是具有挑战性的。第一个挑战是为用户提供一个直观的计数结果可视化工具。当前最先进的视觉计数方法通常生成一个密度图,然后对密度值求和以获得最终计数。然而,如图 1 所示,验证最终预测的计数可能很困难,验证中间密度图也是如此,这是由于密度图的连续性质与图像中物体的离散性质之间的不匹配。第二个挑战是设计一种适当的用户交互方法,该方法需要最少的用户努力,同时适用于对目标计数提供反馈。第三个挑战是为选定的交互类型开发一个有效的适应方案,该方案可以整合用户反馈并提高视觉计数器的性能。在本文中,我们解决了上述所有三个挑战,以开发一个视觉计数的交互式框架。
-
开发交互式框架的挑战:在视觉计数任务中引入用户交互虽然有其优势,但也带来了一系列挑战。
-
直观可视化:第一个挑战在于如何提供一个让用户能够直观理解计数结果的可视化工具。密度图是一种常用的可视化手段,但由于其连续性,可能难以与图像中离散的物体直接对应。
-
验证预测计数:用户可能难以验证预测的计数是否准确,尤其是在密度图与实际物体分布不完全对应的情况下。
-
用户交互方法:第二个挑战是确定如何设计用户交互,以便用户能够以最少的努力提供有效的反馈。这可能涉及到用户界面设计、交互流程的简化等。
-
反馈机制:需要设计一种机制,让用户能够方便地指出预测中的误差,并提供正确的计数信息。
-
适应方案:第三个挑战是开发一个有效的适应性方案,使系统能够根据用户的反馈进行调整,从而提高计数的准确性。
-
性能提升:通过整合用户反馈,目标是提高视觉计数器的性能,减少计数误差。
-
解决挑战:本文提出了一个框架,旨在解决上述挑战,通过交互式方法增强视觉计数的准确性和可靠性。
-
研究贡献:通过提出交互式框架,本文的研究工作为视觉计数领域提供了一种新的研究方向,强调了用户体验和交互在提高计数准确性中的重要作用。
For the first challenge, we propose a novel segmentation method that segments a density map into non-overlapping regions, where the sum of density values in each region is a near-integer value that can be easily verified. This provides the user with a more natural and understandable interpretation of the predicted density map. Notably, developing such an algorithm that must also be suitably fast for an interactive system is challenging, which constitutes a technical contribution of our paper.
对于第一个挑战,我们提出了一种新颖的分割方法,该方法将密度图分割成不重叠的区域,在这些区域中,每个区域内的密度值之和是一个可以容易验证的近似整数值。这为用户提供了对预测密度图的更自然和易于理解的解释。值得注意的是,开发这样一个算法,既要满足技术要求,又要适合交互式系统的快速需求,是一项挑战,这也是我们论文的一个技术贡献。
-
分割方法的创新性:作者提出了一种新的分割技术,用于处理视觉计数任务中生成的密度图。这种分割技术将密度图划分成多个小区域,每个区域都不与其他区域重叠。
-
分割结果的特点:每个分割区域的密度值总和接近一个整数,这意味着预测的物体数量接近一个整数值,便于用户直观理解和验证。
-
用户验证的便利性:由于分割后的区域密度值总和为近似整数值,用户可以更容易地检查每个区域的物体数量,从而验证计数的准确性。
-
算法性能的重要性:算法需要快速运行,以适应交互式系统的要求。用户在交互式系统中期望得到即时反馈,因此算法的响应速度对于用户体验至关重要。
-
技术挑战:开发一个既快速又准确的分割算法是一个技术挑战。算法需要在保持高精度的同时,还能够快速处理数据,以满足实时或近实时交互的需求。
-
论文的技术贡献:论文的技术贡献在于提出了这样一个创新的分割算法,它不仅能够提供易于验证的分割结果,还能够满足交互式系统对速度的要求。
-
算法的实际应用:这种分割方法可以集成到视觉计数的交互式系统中,提高系统的性能和用户体验。
-
算法的优化和实现:论文中可能还包含了对算法优化和实现细节的讨论,以确保算法能够在实际应用中达到预期的效果。
对于第二个挑战,我们提出了一种新型的交互方式,使用户只需两次鼠标点击就能提供反馈:第一次点击选择区域,第二次点击选择选定区域内物体数量的适当范围。所提出的用户交互方法具有独特性,因为它专门为目标计数量身定制,并且需要的用户努力最小。首先,自动生成的分割图允许用户使用一次鼠标点击选择图像区域,这比绘制多边形或涂鸦更快。其次,通过利用人类的子估计能力,即他们能够在不单独计数的情况下快速估计一组中物体的数量,我们可以用另一次鼠标点击获得近似计数,这比使用点注释逐一计数更快。
-
新型交互方式:为了简化用户反馈过程,提出了一种新的交互方法,它只需要用户进行两次简单的鼠标点击。
-
选择区域:用户通过第一次鼠标点击选择他们认为计数可能存在错误的图像区域。
-
选择数量范围:用户通过第二次鼠标点击选择一个范围,这个范围是他们对选定区域内物体数量的估计。
-
用户努力最小化:这种交互方法旨在最小化用户的操作难度和工作量,使其既快速又容易地提供反馈。
-
自动生成的分割图:系统自动生成的分割图使用户能够通过单次点击选择一个区域,这比手动绘制多边形或涂鸦更高效。
-
人类的子估计能力:子估计是指人们能够快速估计一组物体的数量,而无需逐个计数。利用这种能力,用户可以更快速地提供反馈。
-
近似计数:用户可以通过一次点击提供一个近似的计数范围,这比逐个标记物体的点注释方法更快捷。
-
交互方法的优势:这种方法的优势在于它快速、直观,并且不需要用户进行复杂的操作或精确计数,从而提高了用户体验。
-
适用于目标计数:这种交互方法专门为目标计数任务设计,考虑到了用户在计数任务中的实际需求。
-
技术贡献:通过这种创新的交互方法,论文为视觉计数领域提供了一种新的用户参与方式,这有助于提高计数准确性并降低用户参与的门槛。
对于第三个挑战,我们基于范围约束开发了一种交互式适应损失。为了高效和有效地更新视觉计数器,并减少对视觉计数器中已学习知识的影响,我们提出了一个细化模块,该模块直接细化回归头部中的空间相似性特征。此外,我们提出了一种技术来估计用户的反馈信心,并使用这种信心在适应过程中调整学习率和梯度步骤。
-
交互式适应损失:针对第三个挑战,研究者开发了一种新的损失函数,称为交互式适应损失,它基于用户反馈的范围约束来设计。
-
更新视觉计数器:细化模块的目标是高效和有效地更新视觉计数器的参数,以响应用户的反馈。
-
减少学习知识干扰:在接收用户反馈时,目标是尽量减少对视觉计数器已学习知识的干扰,以保持其原有性能的同时进行必要的调整。
-
细化模块:提出的细化模块专注于直接调整回归头部中的空间相似性特征,这是一种直接针对计数任务的特征细化方法。
-
用户反馈信心估计:研究者提出了一种技术来评估用户反馈的可信度,这有助于系统更智能地处理用户的输入。
-
学习率和梯度调整:利用用户反馈的信心水平,系统能够调整学习率和梯度步骤,这意味着更可信的反馈将对模型参数产生更大的影响。
-
适应过程:在适应过程中,模型根据用户反馈进行调整,以期减少计数误差并提高预测的准确性。
-
技术贡献:这些技术的开发和集成是论文的技术贡献,它们提供了一种新颖的方法来实现用户与视觉计数系统的交互,并根据反馈进行模型的自我改进。
-
人机交互框架:这些技术的结合构成了一个人机交互框架,使用户能够与系统互动,系统也能够根据用户的反馈进行适应性学习。
在这篇论文中,我们主要关注类别无关的计数,并通过对FSC-147 [35]和FSCD-LVIS [31]的实验来展示我们框架的有效性。然而,我们的框架也可以扩展到类别特定的计数,正如我们将在几个人群计数和汽车计数基准测试中的实验所见,包括ShanghaiTech [52]、UCF-QNRF [11]和CARPK [8]。我们还进行了一项用户研究,以调查我们方法在现实世界环境中的实用性。
-
类别无关计数:论文的研究重点是类别无关的计数方法,即不依赖于物体具体类别的通用计数技术。
-
框架有效性验证:通过在FSC-147和FSCD-LVIS数据集上的实验,作者展示了他们提出的框架的有效性。
-
框架扩展性:尽管主要关注类别无关计数,但作者指出,他们的框架也可以扩展到类别特定的计数任务。
-
实验数据集:论文中提到了多个数据集,包括FSC-147、FSCD-LVIS、ShanghaiTech、UCF-QNRF和CARPK,这些数据集被用来测试和验证框架的性能。
-
人群计数和汽车计数:作者提到了特定领域的计数任务,如人群计数和汽车计数,这表明框架具有广泛的适用性。
-
用户研究:为了评估方法在现实世界中的实用性,作者进行了用户研究,这可能涉及到真实用户对系统易用性、准确性和交互性的反馈。
-
现实世界应用:用户研究的目的是为了探索该方法在现实世界设置中的实用性,这可能包括日常环境或特定应用场景中的使用情况。
-
实验结果:通过在不同数据集上的实验,作者证明了他们的方法不仅在理论上有效,而且在实际应用中也具有较高的实用价值。
-
论文贡献:论文的贡献在于提出了一个既适用于类别无关计数也能扩展到类别特定计数的通用框架,并通过实验验证了其有效性。
简而言之,我们论文的主要贡献是一个提高了视觉计数准确性和实用性的框架。我们的技术贡献包括:(1) 一种新颖的分割方法,能够快速将密度图分割成具有近似整数值的不重叠区域,这增强了用户对预测密度图的可解释性;(2) 一种创新的用户反馈方案,通过利用子估计能力和自动生成的分割图,以最小的用户努力实现目标计数;(3) 一种有效的适应方法,通过细化模块和信心估计方法,将用户的反馈整合到视觉计数器中。
-
框架的主要贡献:论文提出了一个框架,旨在提升视觉计数的准确性和实际应用的便捷性。
-
技术贡献:论文提出了三个关键的技术贡献,每个贡献都针对提高视觉计数系统的性能和用户体验。
-
新颖的分割方法:第一个贡献是一种新的分割技术,它可以快速地将密度图分割成不重叠的区域,并且每个区域的密度值总和接近一个整数,这有助于用户更容易地理解和解释预测结果。
-
增强的可解释性:通过这种分割方法,预测的密度图对用户来说更加直观和易于解释。
-
创新的用户反馈方案:第二个贡献是一种创新的用户反馈机制,它利用人类的子估计能力(能够快速估计一组物体数量的能力)和自动生成的分割图,使用户能够以最小的努力提供反馈。
-
最小化用户努力:用户只需进行简单的操作,如点击鼠标,就可以选择区域和提供反馈,这大大减少了用户参与计数任务所需的工作量。
-
有效的适应方法:第三个贡献是一种有效的适应性方法,它通过细化模块和用户反馈信心估计技术,将用户反馈整合到视觉计数器中。
-
细化模块:细化模块直接作用于视觉计数器的回归头部,调整空间相似性特征,以响应用户的反馈。
-
信心估计方法:通过估计用户反馈的可信度,系统可以智能地调整学习率和梯度步骤,以适应用户的反馈。
-
提高计数性能:这些技术贡献共同提高了视觉计数系统的性能,使其更加准确和用户友好。
2. Related Works
Visual counting. Various visual counting methods have been proposed, e.g., [17, 30, 13, 46, 47, 9, 3, 24, 44, 25,19, 38, 23, 16], but most of them are class-specific counters, requiring large amounts of training data with hundreds of thousands of annotated objects. To address this limitation and enable counting of objects across multiple categories, several class-agnostic counters have been proposed [49, 35, 33, 41, 51, 26, 31]. These methods work by regressing the object density map based on the spatial correlation between the input image and the provided exemplars. However, in many cases, a limited number of exemplars are insufficient to generalize over object instances with varying shapes, sizes, and appearances.
视觉计数。已经提出了各种视觉计数方法,例如[17, 30, 13, 46, 47, 9, 3, 24, 44, 25, 19, 38, 23, 16],但它们大多需要大量带有数十万个标注对象的训练数据的类别特定计数器。为了解决这个限制并实现跨多个类别的对象计数,已经提出了几种类别无关的计数器[49, 35, 33, 41, 51, 26, 31]。这些方法通过基于输入图像和提供的示例之间的空间相关性来回归对象密度图。然而,在许多情况下,有限数量的示例不足以泛化具有不同形状、大小和外观的对象实例。
-
视觉计数方法:视觉计数是计算机视觉领域的一个任务,目的是自动计算图像中的对象数量。已经提出了多种方法来解决这个问题。
-
类别特定计数器:大多数现有的视觉计数方法专注于特定类别的对象计数,例如特定类型的车辆或动物。这些方法通常需要大量的标注训练数据。
-
数据需求量:类别特定计数器需要大量的标注数据,这在数据收集和标注成本上可能是不切实际的。
-
类别无关计数器:为了克服对大量训练数据的依赖,研究者提出了类别无关的计数器,这些方法旨在对不同类别的对象进行计数,而不需要针对每个类别进行单独的训练。
-
基于密度图的方法:类别无关计数器通常通过回归密度图来工作,密度图表示图像中对象的空间分布密度。
-
空间相关性:这些方法利用输入图像和示例之间的空间相关性来预测对象的分布。示例是一些标注了对象的图像,用作参考来估计未知图像中的对象数量。
-
泛化挑战:即使采用了类别无关的方法,如果示例的数量有限,仍然可能难以泛化到形状、大小和外观变化较大的不同对象实例。
-
示例的局限性:提供的示例数量有限可能会影响模型对新类别或新情况下对象的识别和计数能力。
-
研究进展:尽管存在挑战,但类别无关的计数方法仍然是视觉计数领域的重要进展,因为它们减少了对大量标注数据的需求,并提高了模型的通用性。
Interactive counting. There exists only one prior method for interactive counting [2]. This method uses low-level features and ridge regression to predict the density map. To visualize the density map, it uses MSER [29] or spectral clustering [40] to generate some candidate regions, then seeks a subset of candidate regions that can keep the integrality of each region in the subset. At each iteration, the user must draw a region of interest and mark the objects in this region with dot annotations. Additionally for the first iteration, the user has to specify the diameter of a typical object. This method [2] has two drawbacks. First, it requires significant effort from the user to draw a region of interest, specify the typical object size, and mark all objects in the region. Second, MSER and spectral clustering may not generate suitable candidate regions for dense scenes, as will be shown in Sec. 3.2. To alleviate the user’s burden, the counting results should be easy to verify, and feedback should be simple to provide. In this paper, we propose a density map visualization method that can generate regions by finding and expanding density peaks. Unlike MSER and spectral clustering, our approach works well on dense density maps.
交互式计数。之前只存在一种交互式计数方法[2]。这种方法使用低级特征和岭回归来预测密度图。为了可视化密度图,它使用MSER[29]或谱聚类[40]生成一些候选区域,然后寻找一个候选区域的子集,以保持子集中每个区域的完整性。在每次迭代中,用户必须绘制一个感兴趣区域,并使用点注释标记该区域内的所有对象。此外,对于第一次迭代,用户还必须指定典型对象的直径。这个方法[2]有两个缺点。首先,它需要用户绘制感兴趣区域、指定典型对象大小,并在区域内标记所有对象,这需要用户付出巨大的努力。其次,MSER和谱聚类可能无法为密集场景生成合适的候选区域,正如第3.2节所示。为了减轻用户的负担,计数结果应该容易验证,反馈应该容易提供。在本文中,我们提出了一种可以生成区域的密度图可视化方法,该方法通过寻找并扩展密度峰值来实现。与MSER和谱聚类不同,我们的方法在密集的密度图上表现良好。
-
交互式计数方法:这篇论文提到了之前存在的唯一的交互式计数方法,它依赖于低级特征和岭回归来生成密度图。
-
可视化技术:该方法使用MSER(最大稳定极值区域)或谱聚类技术来生成候选区域,以便用户可以对密度图进行可视化。
-
用户交互:用户需要在每次迭代中绘制感兴趣区域,并使用点注释标记该区域内的所有对象。这可能包括指定典型对象的直径,尤其是在第一次迭代中。
-
方法的局限性:这种方法存在两个主要缺点:用户需要付出大量努力来绘制和标记,以及在密集场景中生成的候选区域可能不适用。
-
用户负担:为了减轻用户的负担,需要一个易于验证的计数结果和简单的反馈提供方式。
-
新方法的提出:论文提出了一种新的密度图可视化方法,该方法通过寻找和扩展密度峰值来生成区域,这种方法在密集的密度图上表现更好。
-
技术优势:与MSER和谱聚类相比,新方法更适合处理密集场景,因为它能够更有效地识别和扩展密度图中的峰值区域。
-
实际应用:通过简化用户反馈过程并提高在复杂场景中的适用性,新方法提高了交互式计数方法的实用性和效率
Interactive methods for other computer vision tasks. Various interactive methods have been developed for other computer vision tasks, such as object detection [50], tracking [39], and segmentation [12, 42, 5, 22, 20, 10, 28, 27, 18, 21, 48, 43]. While the success of these methods is inspiring, none of them are directly applicable to visual counting due to unique technical challenges. Unlike object detection, tracking, and segmentation, the immediate and final outputs of visual counting are difficult to visualize and verify. Designing an interactive framework for visual counting requires addressing the technical challenges discussed in the introduction section, none of them has been considered in previous interactive methods.
其他计算机视觉任务的交互式方法。已经为其他计算机视觉任务开发了各种交互式方法,例如目标检测[50]、跟踪[39]和分割[12, 42, 5, 22, 20, 10, 28, 27, 18, 21, 48, 43]。虽然这些方法的成功是鼓舞人心的,但由于独特的技术挑战,它们都直接不适用于视觉计数。与目标检测、跟踪和分割不同,视觉计数的直接和最终输出难以可视化和验证。为视觉计数设计交互框架需要解决引言部分讨论的技术挑战,这些挑战在以前的交互式方法中都没有被考虑过。
-
交互式方法的应用:在计算机视觉领域,交互式方法已被广泛应用于目标检测、目标跟踪和图像分割等任务。
-
方法的启发性:这些交互式方法的成功应用为视觉计数任务提供了灵感和可能的解决方案。
-
技术挑战:尽管交互式方法在其他任务上取得了成功,但它们并不直接适用于视觉计数,因为视觉计数有其独特的技术挑战。
-
视觉计数的特殊性:与目标检测、跟踪和分割这些任务不同,视觉计数的直接输出(如密度图)和最终输出(如物体数量)难以直观地可视化和验证。
-
交互框架设计:设计适用于视觉计数的交互框架需要解决一系列特定的技术问题,这些问题在以前的交互式方法中并未被充分考虑。
-
技术挑战的解决:论文中提出的交互式框架旨在解决这些挑战,包括如何提供直观的可视化结果、如何设计用户友好的反馈机制,以及如何有效地整合用户反馈来改进计数结果。
-
用户交互的重要性:在视觉计数任务中,用户的交互对于提高计数的准确性和实用性至关重要,尤其是在自动方法难以完全准确的情况下。
-
创新需求:由于现有方法无法满足视觉计数任务的需求,需要开发新的交互式方法来克服现有挑战。
-
论文贡献:论文通过提出新的交互式框架,填补了视觉计数领域在交互式方法方面的空白,并为未来在这一领域的研究提供了新的方向
3.Proposed Approach
我们提出了一个用于视觉计数的交互式框架,如图2所示。每次交互迭代包括两个阶段。第一阶段通过可视化预测的密度图来收集用户反馈。第二阶段使用提供的反馈来改进视觉计数器。
-
交互式框架:论文提出了一个新的框架,它允许用户参与到视觉计数的过程中,以提高计数的准确性和可靠性。
-
迭代过程:交互式框架的工作流程是迭代的,意味着它会在每次迭代中逐步改进其性能。
-
第一阶段 - 可视化预测:在每次迭代的第一阶段,系统会生成并展示当前预测的密度图。密度图是一种表示图像中物体分布的二维图,其中每个像素的值表示该位置物体存在的密度。
-
收集用户反馈:通过可视化密度图,用户可以直观地看到预测结果,并根据这个可视化结果提供反馈。
-
第二阶段 - 改进视觉计数器:在第二阶段,系统会利用用户在第一阶段提供的反馈信息来调整和改进计数模型,以便在下一次迭代中提供更准确的预测。
-
用户交互的重要性:通过用户的反馈,系统能够学习并适应用户的需求和偏好,从而提高计数结果的质量。
-
预测与反馈的循环:这个框架通过不断的预测和反馈循环,实现了模型的自我优化和学习。
-
图2:论文中提到的图2可能展示了这个交互式框架的工作流程和各个阶段的详细说明。
-
技术贡献:提出的交互式框架是论文的一个技术贡献,它提供了一种新颖的方法来结合人工智能和人类智能,以解决视觉计数中的挑战。
3.1. Overview of the two phases
In the first phase, we will visualize the density map by segmenting it into regions {R1, · · · , Rn} with the following desiderata:
在第一阶段,我们将通过将密度图分割成满足以下期望条件的区域 {R1, ..., Rn} 来进行可视化:
-
非重叠性:这些区域应该是互不重叠的,以便用户可以清晰地区分和验证每个区域内的物体数量。
-
近似整数值:每个区域内的密度值之和应该是一个近似的整数值,这样可以简化计数过程并提高用户验证的准确性。
-
易于验证:分割出的区域应该足够大,使得用户可以容易地验证区域内的物体数量,而不需要进行复杂的计数。
-
直观性:可视化的结果应该直观,使用户能够快速理解预测的密度图,并轻松地识别出可能的计数错误。
-
用户友好:分割方法应该生成用户友好的区域,使用户在提供反馈时感到方便和舒适。
-
快速响应:为了保持交互的流畅性,分割和可视化过程应该迅速,以便用户可以及时地得到反馈并进行下一步操作。
-
适应性:分割算法应该能够适应不同的密度图和物体分布情况,确保在各种情况下都能生成合适的区域。
-
技术实现:实现这一阶段的技术应该能够有效地处理密度图,并生成满足上述条件的区域。
Cl. 非重叠性:对于所有的 i ≠ j,Ri 和 Rj 没有交集。
C2. 完全覆盖:所有区域的并集应等于预测的密度图。
C3. 适中大小:每个区域既不应过大也不应过小。
C4. 近似整数值和较小的整数:每个区域内的密度值之和应接近一个整数,并且小于可验证的计数限制。
讲解:
-
非重叠性(Cl.):分割出的每个区域应该是互不重叠的。这意味着如果 i 和 j 是不同的索引,那么区域 Ri 和 Rj 没有公共部分,确保了每个区域都是独立的。
-
完全覆盖(C2.):所有分割出的区域合并起来应该完全覆盖预测的密度图。这保证了密度图中的所有部分都被考虑到,没有遗漏。
-
适中大小(C3.):分割出的每个区域应具有适中的尺寸,既不是太大以至于难以验证,也不是太小以至于无法准确计数。
-
近似整数值和较小的整数(C4.):每个区域内的密度值总和应该是一个接近整数的值,并且这个值应该小于用户可以容易验证的计数限制。这意味着用户可以快速估计区域内的物体数量,而不需要进行复杂的计数。
上述期望条件是为了结果的可视化和易于验证。最后一个期望条件是出于人类子估计能力的考虑,这是一种通过快速看一眼图像就能识别图像中物体数量的能力,而不是通过逐个计数。
在每次迭代的第二阶段,系统会提示用户选择一个区域并指定该区域内物体数量的范围。设 R 表示用户选择的区域,c = (ci, cu) 表示用户为 R 中的物体数量指定的范围,将生成一个损失 L(R, c) 并用于调整计数模型。为了高效和有效地进行调整,我们不是调整整个计数网络,而是提出一个细化模块,该模块直接细化回归头部的特征图,我们只使用梯度下降来调整这个模块的参数。
-
迭代的第二阶段:在用户已经看到第一阶段生成的密度图并提供了反馈之后,第二阶段开始,此时用户需要进行更具体的交互。
-
用户选择区域:用户被要求选择一个他们认为计数可能不准确的区域。
-
指定数量范围:用户为所选区域 R 中的物体数量指定一个范围 c,这个范围由下限 ci 和上限 cu 定义。
-
生成损失:基于用户的选择和指定的范围,系统会生成一个损失函数 L(R, c)。这个损失函数将用于指导模型的调整过程。
-
调整计数模型:损失函数将反馈到模型中,以调整(或优化)计数模型,使其更准确地反映用户指定区域内的物体数量。
-
细化模块:为了提高调整过程的效率和效果,不是对整个计数网络进行调整,而是引入了一个细化模块。这个模块专门负责细化回归头部的特征图。
-
梯度下降:通过梯度下降算法,只对细化模块中的参数进行调整。这种方法可以更快地对模型进行微调,而不需要重新训练整个网络。
-
参数适应:细化模块的参数将根据用户反馈进行适应性更新,以最小化损失函数,从而改进模型的预测。
-
技术贡献:这种适应方法体现了论文的技术贡献,提供了一种针对性强、效率高的模型调整策略。
3.2. Density map segmentation algorithm
One technical contribution of this paper is the development of a fast segmentation algorithm called Iterative Peak Selection and Expansion (IPSE) that satisfies the desiderata described in Sec. 3.1. The input to this algorithm is a smoothed density map, and the output is a set of nonoverlapping regions. IPSE is an iterative algorithm where the output set will be grown one region at a time, starting from an empty set. To yield a new region for the output, it starts from the pixel p with the highest density value (called the peak) among the remaining pixels that have not been included in any previously chosen region. IPSE seeks a region R containing p that minimizes the below objective:
本文的一个技术贡献是开发了一种名为迭代峰值选择与扩展(Iterative Peak Selection and Expansion, IPSE)的快速分割算法,该算法满足第3.1节中描述的期望条件。该算法的输入是平滑的密度图,输出是一组不重叠的区域。IPSE是一种迭代算法,输出集将一次一个区域地增长,从一个空集开始。为了生成输出的新区域,它从尚未包含在任何先前选定区域中的剩余像素中选择具有最高密度值的像素p(称为峰值)。IPSE寻找一个包含p的区域R,该区域最小化以下目标:
-
技术贡献:论文提出了一种新的快速分割算法IPSE,作为其技术贡献之一。
-
算法目的:IPSE旨在生成一组不重叠的区域,这些区域满足特定的期望条件,以便于用户验证和反馈。
-
输入与输出:算法的输入是经过平滑处理的密度图,输出是一组不重叠的区域集合。
-
迭代过程:IPSE通过迭代过程逐步构建输出集,从一个空集开始,每次迭代添加一个新的区域。
-
峰值选择:在每次迭代中,算法从剩余未被选择的像素中选择具有最高密度值的像素p作为峰值。
-
区域生成:以峰值像素p开始,IPSE寻找一个区域R,该区域包含p并最小化一个特定的目标函数。
-
目标函数:算法通过最小化一个目标函数来确定区域R,这个函数可能考虑了区域的一致性、大小、形状和密度分布等因素。
-
算法特点:IPSE算法的特点在于其迭代性质和从高密度峰值开始的策略,这有助于生成更符合用户直观理解的区域。
-
应用场景:该算法适用于视觉计数任务中,特别是在需要用户交互验证和反馈的场景下。
-
算法效率:由于算法的快速性,它能够在用户交互式环境中实时响应用户的操作,提供及时的反馈和调整。
这段内容描述了一个目标函数,用于在迭代峰值选择与扩展(IPSE)算法中确定新区域。
目标函数 h(R) 定义如下:
由于包含给定峰值 p 的区域数量呈指数级增长,寻找最小化 h(R) 的最优区域 R 是一个难以解决的问题。幸运的是,我们只需要获得一个足够好的解决方案。因此,我们将搜索空间限制在一个较小的扩展区域列表 S0 ⊂ S1 ⊂ ··· ⊂ Sm,并在该列表中执行穷尽搜索。这个列表可以通过从种子 p 开始构建,即 S0 = {p},并通过从未包含在任何现有输出区域中的 Si 的邻近像素中选择一个像素 q 来构建 Si+1。如果有多个这样的邻近像素可用,我们优先选择具有正密度值的像素,并选择最接近 p 的像素。当满足以下任一条件时,该过程将终止:(1) Si 的所有邻近像素已被包含在输出区域中;(2) Si 的面积或密度值之和已达到预定义的限制;或者 (3) Si 中零密度像素的比例已超过预定义的阈值。
上述峰值选择和扩展过程被反复用于分割密度图,每次迭代都从剩余未包含在任何先前输出区域中的像素中选择具有最高密度值的种子像素 p 开始。如果所有剩余像素的密度值都为零,则选择一个随机的种子位置。该过程持续进行,直到实现对密度图的完全覆盖,在这一点上,所有小区域都合并到它们邻近的区域中。
Comparison with other density segmentation methods. Our algorithm for segmenting the density map bares some similarity to gerrymandering or political redistricting.
与其他密度分割方法相比,我们的密度图分割算法与选区划分或政治重新划区有些相似之处
Gerrymandering involves dividing a large region into several smaller regions while adhering to certain constraints related to the population and contiguity of the regions. Most methods for this problem are based on weighted graph partitioning or heuristic algorithms [6, 37, 14, 4, 7]. However, an object density map contains several hundred thousand pixels, making these methods too slow for interactive systems. For example, the time and iteration limit of [6] is 600 seconds and 1000 iterations, which cannot meet the realtime requirements of interactive systems. In contrast, our method takes less than one second, as reported in Sec. 4.3.
选区划分涉及在遵守与区域人口和连续性相关的某些约束的同时,将一个大区域划分为几个较小的区域。大多数解决这个问题的方法都是基于加权图划分或启发式算法[6, 37, 14, 4, 7]。然而,一个物体密度图包含几十万个像素,使得这些方法对于交互式系统来说太慢了。例如,[6]中的时间限制和迭代次数限制是600秒和1000次迭代,这无法满足交互式系统的实时要求。相比之下,我们的方法在第4.3节中报告的耗时不到一秒。
Another approach for visualizing a density map is to use MSER [29] or spectral clustering[40] to generate some candidate regions, as used in [2]. MSER and spectral clustering, however, often fail to generate suitable candidate regions for dense scenes, as shown in Fig. 3.
另一种可视化密度图的方法是使用MSER[29]或谱聚类[40]来生成一些候选区域,正如[2]中所使用的。然而,MSER和谱聚类通常在生成密集场景的合适候选区域时失败,如图3所示。
3.3. Interactive feedback and adaptation
在展示分割后的密度图后,系统会提示用户选择一个区域 R 并从一系列范围选项中为 R 中的物体数量选择一个数值范围 c,c ∈ {(−∞, 0], (0, r], (r, 2r], ..., (C − r, C], (C, ∞)},其中 r 是范围间隔,C 是计数限制。这种用户交互方法是创新的,专门为目标计数量身定制,每轮只需要两次鼠标点击。使用范围而不是确切数字的原因是,对于一个区域来说,确定确切的数字可能是模棱两可的。尽管我们努力通过分割确保每个区域包含一个整数量的物体,但有些区域仍可能包含部分物体,这使用户快速提供准确数字更具挑战性。
我们论文的一个重要技术贡献是创建了一种能够利用用户弱监督反馈的适应技术。这种反馈在物体定位和计数方面都是弱的。具体来说,它没有提供物体实例的确切位置,只指示了图像区域中存在物体的数量。此外,物体的数量只是作为一个范围提供,而不是一个确切的计数。下面,我们将从新颖的细化模块开始,详细说明我们的适应技术,该模块用于有效和高效的适应。
3.3.1 Refinement module
We aim for an adaptation method that works for all classagnostic counting networks [49, 35, 33, 41, 51]. Most of them contain three components: a feature extractor f , a spatial-similarity module g (e.g., convolution [35] or learnable bilinear transform [41]), and a regression head h consisting of upsampling layers and convolution layers. Let I be the input image, E the exemplars, S = g(f (I), f (E)) the correlation map for the spatial similarity between the input image and exemplars, and D = h(S) the predicted density map. The predicted count is obtained by summing over the predicted density map D.
我们的目标是开发一种适应方法,适用于所有类别无关的计数网络[49, 35, 33, 41, 51]。它们大多数包含三个组件:特征提取器 f、空间相似性模块 g(例如,卷积[35]或可学习的双线性变换[41]),以及由上采样层和卷积层组成的回归头部 h。设 I 为输入图像,E 为示例,S = g(f(I), f(E)) 为输入图像和示例之间的空间相似性相关图,D = h(S) 为预测的密度图。预测的计数是通过对预测的密度图 D 求和获得的。
相关图作为输入提供给回归头部,该头部应用多个卷积和上采样层来生成输出对象密度图。我们观察到,如果相关图或输入和输出图之间的任何中间特征图能够准确表示输入图像和示例对象之间的空间相似性,最终的输出密度图和预测计数将是正确的。因此,适应过程不需要回退到相关图之前的层。为了最小化对已学知识的干扰,并加速用户交互的适应,我们提出了一个轻量级的细化模块,该模块仅集成在回归头部。
The refinement module, depicted in Fig. 4, can be applied to any intermediate feature map F between the input correlation map S and the output density map D: F ′ = R(F ), where F ′ is the refined feature map. Our refinement module consists of two components: channel-wise refinement and spatial-wise refinement.