Target-absent Human Attention

Abstract

预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时，又该如何处理呢？同样重要的是要了解当人们找不到目标时，他们如何进行搜索，以及何时停止搜索。在本文中，我们提出了一种数据驱动的计算模型，解决了搜索终止问题，并预测了人们在搜索图像中没有出现目标时的搜索注视路径。我们将视觉搜索建模为一个模仿学习问题，并通过一种新的状态表示方法来表示观察者通过注视点所获得的内部知识，称为聚焦特征图（FFMs）。FFMs将一个模拟的中央视网膜集成到一个预训练的卷积神经网络（ConvNet）中，该网络生成一个网络内的特征金字塔，并且几乎没有计算开销。我们的方法将FFMs作为状态表示集成到反向强化学习中。从实验结果来看，我们在COCO-Search18数据集上提高了预测人类目标缺失搜索行为的现有技术水平。代码可在以下链接找到：https://github.com/cvlab-stonybrook/Target-absentHuman-Attention。

关键词：视觉搜索、人类注意力、反向强化学习、注视路径预测、终止预测、目标缺失

Introduction

人类用来优先选择和筛选视觉信息的注意力机制[37,36,35]，引起了计算机视觉研究人员的兴趣，他们希望在机器中复制这种选择效率[43,8,44,7,38]。研究这种效率的最常用范式是视觉搜索任务，其中效率是通过检测图像中的目标所需的注意力转移（凝视注视点）次数来衡量的。但如果目标不在图像中呢？理解目标缺失搜索中的凝视行为（包括搜索终止）将有助于人机交互应用，并解决注意力研究中的一些基本问题。任何预测人类搜索注视点的模型，如果没有解决目标缺失搜索所带来的独特问题，都不算完整。

灵长类动物的中央视网膜（黄斑）神经解剖结构使得视觉锐度随着与高分辨率中心黄斑的距离增加而降低。在寻找目标时，这种黄斑视网膜驱使人们选择性地将眼睛移向最有可能是目标的图像位置，从而为目标识别任务提供最高分辨率的视觉输入，每次凝视的移动都由来自周边视觉的低分辨率输入引导。认识到人类视觉输入是通过黄斑视网膜过滤的，对于理解和预测人类凝视行为至关重要，尤其是在目标缺失搜索中，因为此时没有明确的目标信号，凝视行为更多地受到与其他物体的上下文关系和可能提供目标位置的空间线索的驱动。

为了模拟黄斑视网膜以预测人类的搜索凝视，Zelinsky等人[44]直接将预训练的ResNet[16]应用于黄斑图像[34]，以提取特征图作为状态表示。Yang等人[43]提出了DCB（多尺度卷积块），通过分别使用完整分辨率图像和其模糊版本的分割图，近似高分辨率的黄斑和低分辨率的外周，后者通过预训练的Panoptic-FPN[22]进行预测。像其他预测人类注意力的模型[31,25,26,7,46]一样，这些方法依赖于预训练网络来提取图像特征，并通过迁移学习训练较小的下游网络，通常是由于缺乏足够的人类凝视数据进行训练。值得注意的是，这些方法应用了在完整分辨率图像上预训练的网络（例如，使用ImageNet[39]训练的ResNets[16]），并将其应用于模糊图像，期望这些预训练网络能够模拟人类如何感知模糊图像。然而，卷积神经网络（ConvNets）对图像扰动非常敏感[17,13]，因此从模型中提取的模糊图像特征在目标识别的上下文中几乎没有意义（与人类视觉不同，人类视觉会主动寻求低分辨率外周视觉的指导来帮助目标识别）。

“缺乏足够的人类凝视数据”与“使用预训练的ResNet”之间的关联，主要体现在如何通过迁移学习和预训练网络来缓解数据不足问题，特别是在目标任务（如人类凝视点预测）上。下面是详细的解释：

1. 缺乏足够的人类凝视数据

在凝视点预测等任务中，标注数据（即标出图片中人眼凝视的位置）通常是稀缺的、昂贵的，并且收集过程非常复杂。例如，收集大量带有准确凝视位置的图像需要人工标注，这不仅耗时，而且数据量通常远远不够训练一个高效的深度学习模型。因此，在许多视觉任务中，标注的数据量有限，导致直接从头开始训练深度学习模型变得困难。

2. 预训练网络（如 ResNet）如何帮助解决这个问题

预训练网络的作用

预训练网络（如在ImageNet上训练的ResNet）已经通过大规模数据集（例如 ImageNet，包含了上百万个标注图像）学习到了通用的图像特征。这些特征包括但不限于：

物体的形状、纹理
图像中的边缘、角点等低级特征
复杂物体的构成关系

通过这些学习到的通用特征，网络能够理解并提取图像中最基本的信息，这对于很多视觉任务来说是通用且有效的。

迁移学习与数据不足的关系

迁移学习的核心思想是，利用在大规模数据集（如 ImageNet）上训练的网络，这个网络已经具备了强大的图像特征提取能力。当我们面对一个数据稀缺的任务时（例如凝视点预测），我们可以将预训练网络的参数迁移到新的任务中，并对其进行微调（fine-tuning），即对网络进行少量的再训练，以使其适应新的任务（例如凝视点预测）。

为什么可以弥补数据不足的问题：

预训练网络学到的通用特征可以迁移到不同的任务上，甚至是没有大量标注数据的任务。
微调：我们并不需要从零开始训练网络，而是利用预训练网络已经学习到的知识（通用的图像特征），然后仅在少量的凝视点数据上进行微调。这意味着，我们可以用相对较少的数据来适应特定的任务，而不是完全