概述
摘要:这篇论文提出了一种用于对象计数的模型,该模型能够计算任何类别的对象,而不需要针对特定对象类别进行设计。作者将计数问题表述为一个匹配问题,利用图像中自然存在的自相似性属性。论文的贡献包括:提出了一种通用匹配网络(Generic Matching Network, GMN)架构,能够以不受类别限制的方式对任何对象进行计数;通过将计数问题重新表述为匹配问题,可以利用大量标记用于跟踪的视频数据来训练GMN;为了适应不同的用户需求,引入了一个适配器模块,通过少量标记样本和训练少量参数来定制GMN。这种方法在多个计数基准测试中表现出色,包括细胞、汽车和人群计数数据集。
拟解决的问题:大多数现有的计数方法都是为特定对象类别设计的。论文旨在创建一个能够计算任何类别对象的计数模型。
创新之处:
- 提出了一种新的通用匹配网络(GMN)架构,可以灵活地以不受类别限制的方式计数。
- 利用视频数据中自然重复的对象实例来训练GMN,这些数据通常用于跟踪任务。
- 引入适配器模块,通过少量样本和参数调整,实现快速领域适应和少样本学习。
方法论
将对象计数问题重新定义为一个匹配问题,利用图像中的自相似性,即图像中存在重复的补丁(patches)。这种方法允许模型通过匹配图像内的相似补丁来计数对象实例。
- 通用匹配网络(GMN):由嵌入、匹配和适配三个模块组成。嵌入模块使用双流网络将示例图像和全分辨率图像编码为特征向量和密集特征图。匹配模块学习一个判别分类器来匹配示例与图像中的实例。适配模块通过训练少量参数来定制GMN以适应特定领域。
- 训练:使用ILSVRC视频数据集训练GMN,该数据集包含大量用于跟踪的视频数据。
- 适配:在预训练的GMN基础上,通过训练适配器模块来适应新的计数任务。
2.1 嵌入模块
- 两流网络:一个流用于处理示例图像补丁(这个选择可以是手动的,也可以通过某种自动化方法(如点击图像中的一个区域或使用一个预训练的对象检测器)来完成。另一个流处理全分辨率图像。
- 特征提取:使用ResNet-50网络的变体来提取特征。示例补丁被转换为一个特征向量,而全分辨率图像被转换为一个特征图。
- 归一化:特征向量和特征图在特征维度上进行L2归一化。
2.2 匹配模块
- 关系建模:通过一个可训练的函数,将特征向量和特征图的连接作为输入,输出一个相似性热图。
- 广播和连接:特征向量被广播以匹配特征图的大小,然后两者连接起来,以便在全卷积特征上有效地建模示例对象与图像中所有其他对象之间的关系。
2.3 适配模块
- 残差适配器模块:作为1x1卷积,与嵌入模块中的现有3x3卷积并行。
- 训练策略:在适配阶段,预训练的GMN的参数被冻结,只有适配器和批量归一化层被训练。