Target-absent Human Attention

Abstract

        预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文中,我们提出了一种数据驱动的计算模型,解决了搜索终止问题,并预测了人们在搜索图像中没有出现目标时的搜索注视路径。我们将视觉搜索建模为一个模仿学习问题,并通过一种新的状态表示方法来表示观察者通过注视点所获得的内部知识,称为聚焦特征图(FFMs)。FFMs将一个模拟的中央视网膜集成到一个预训练的卷积神经网络(ConvNet)中,该网络生成一个网络内的特征金字塔,并且几乎没有计算开销。我们的方法将FFMs作为状态表示集成到反向强化学习中。从实验结果来看,我们在COCO-Search18数据集上提高了预测人类目标缺失搜索行为的现有技术水平。代码可在以下链接找到:https://github.com/cvlab-stonybrook/Target-absentHuman-Attention。

关键词:视觉搜索、人类注意力、反向强化学习、注视路径预测、终止预测、目标缺失

Introduction

        人类用来优先选择和筛选视觉信息的注意力机制[37,36,35],引起了计算机视觉研究人员的兴趣,他们希望在机器中复制这种选择效率[43,8,44,7,38]。研究这种效率的最常用范式是视觉搜索任务,其中效率是通过检测图像中的目标所需的注意力转移(凝视注视点)次数来衡量的。但如果目标不在图像中呢?理解目标缺失搜索中的凝视行为(包括搜索终止)将有助于人机交互应用,并解决注意力研究中的一些基本问题。任何预测人类搜索注视点的模型,如果没有解决目标缺失搜索所带来的独特问题,都不算完整。

        灵长类动物的中央视网膜(黄斑)神经解剖结构使得视觉锐度随着与高分辨率中心黄斑的距离增加而降低。在寻找目标时,这种黄斑视网膜驱使人们选择性地将眼睛移向最有可能是目标的图像位置,从而为目标识别任务提供最高分辨率的视觉输入,每次凝视的移动都由来自周边视觉的低分辨率输入引导。认识到人类视觉输入是通过黄斑视网膜过滤的,对于理解和预测人类凝视行为至关重要,尤其是在目标缺失搜索中,因为此时没有明确的目标信号,凝视行为更多地受到与其他物体的上下文关系和可能提供目标位置的空间线索的驱动。

        为了模拟黄斑视网膜以预测人类的搜索凝视,Zelinsky等人[44]直接将预训练的ResNet[16]应用于黄斑图像[34],以提取特征图作为状态表示。Yang等人[43]提出了DCB(多尺度卷积块),通过分别使用完整分辨率图像和其模糊版本的分割图,近似高分辨率的黄斑和低分辨率的外周,后者通过预训练的Panoptic-FPN[22]进行预测。像其他预测人类注意力的模型[31,25,26,7,46]一样,这些方法依赖于预训练网络来提取图像特征,并通过迁移学习训练较小的下游网络,通常是由于缺乏足够的人类凝视数据进行训练。值得注意的是,这些方法应用了在完整分辨率图像上预训练的网络(例如,使用ImageNet[39]训练的ResNets[16]),并将其应用于模糊图像,期望这些预训练网络能够模拟人类如何感知模糊图像。然而,卷积神经网络(ConvNets)对图像扰动非常敏感[17,13],因此从模型中提取的模糊图像特征在目标识别的上下文中几乎没有意义(与人类视觉不同,人类视觉会主动寻求低分辨率外周视觉的指导来帮助目标识别)。

缺乏足够的人类凝视数据”与“使用预训练的ResNet”之间的关联,主要体现在如何通过迁移学习预训练网络缓解数据不足问题,特别是在目标任务(如人类凝视点预测)上。下面是详细的解释:

1. 缺乏足够的人类凝视数据

在凝视点预测等任务中,标注数据(即标出图片中人眼凝视的位置)通常是稀缺的、昂贵的,并且收集过程非常复杂。例如,收集大量带有准确凝视位置的图像需要人工标注,这不仅耗时,而且数据量通常远远不够训练一个高效的深度学习模型。因此,在许多视觉任务中,标注的数据量有限,导致直接从头开始训练深度学习模型变得困难。

2. 预训练网络(如 ResNet)如何帮助解决这个问题

预训练网络的作用

预训练网络(如在ImageNet上训练的ResNet)已经通过大规模数据集(例如 ImageNet,包含了上百万个标注图像)学习到了通用的图像特征。这些特征包括但不限于:

  • 物体的形状、纹理
  • 图像中的边缘、角点等低级特征
  • 复杂物体的构成关系

通过这些学习到的通用特征,网络能够理解并提取图像中最基本的信息,这对于很多视觉任务来说是通用且有效的。

迁移学习与数据不足的关系

迁移学习的核心思想是,利用在大规模数据集(如 ImageNet)上训练的网络,这个网络已经具备了强大的图像特征提取能力。当我们面对一个数据稀缺的任务时(例如凝视点预测),我们可以将预训练网络的参数迁移到新的任务中,并对其进行微调(fine-tuning),即对网络进行少量的再训练,以使其适应新的任务(例如凝视点预测)。

为什么可以弥补数据不足的问题:

  • 预训练网络学到的通用特征可以迁移到不同的任务上,甚至是没有大量标注数据的任务。
  • 微调:我们并不需要从零开始训练网络,而是利用预训练网络已经学习到的知识(通用的图像特征),然后仅在少量的凝视点数据上进行微调。这意味着,我们可以用相对较少的数据来适应特定的任务,而不是完全

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/475691.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBootTest常见错误解决

1.启动类所在包错误 问题 由于启动类所在包与需要自动注入的类的包不在一个包下: 启动类所在包: com.exmaple.test_02 但是对于需要注入的类却不在com.exmaple.test_02下或者其子包下,就会导致启动类无法扫描到该类,从而无法对…

Redis面试篇笔记(持续更新)

一、redis主从集群 单节点redis的并发能力是由上限的,要进一步提高redis的并发能力可以搭建主从集群,实现读写分离,一主多从,主节点写数据,从节点读数据 部署redis主从节点的docker-compose文件命令解析 version: &q…

ISUP协议视频平台EasyCVR私有化视频平台新能源汽车充电停车管理方案的创新与实践

在环保意识提升和能源转型的大背景下,新能源汽车作为低碳出行的选择,正在全球迅速推广。但这种快速增长也引发了充电基础设施短缺和停车秩序混乱等挑战,特别是在城市中心和人口密集的居住区,这些问题更加明显。因此,开…

goland单元测试

一、单元测试的概念 1.1 什么是单元测试,有什么用? 单元测试是针对于函数的测试,用来保证该函数的逻辑正确性。 1.2 单元测试的要求? 1. 单元测试在正式上线之前应该全部自动执行,并且需要保证全部通过 2. 单元测试需…

连接数据库:通过链和代理查询鲜花信息

目录 新的数据库查询范式 实战案例背景信息 创建数据库表 用 Chain 查询数据库 用 Agent 查询数据库 一直以来,在计算机编程和数据库管理领域,所有的操作都需要通过严格、专业且结构化的语法来完成。这就是结构化查询语言(SQL&#xff0…

【c++丨STL】stack和queue的使用及模拟实现

🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:C、STL 目录 前言 一、什么是容器适配器 二、stack的使用及模拟实现 1. stack的使用 empty size top push和pop swap 2. stack的模拟实现 三、queue的…

aws上安装ssm-agent

aws-cloudwatch 连接机器 下载ssm-agent aws-ec2 安装ssm-agent aws-linux安装ssm-agent 使用 SSM 代理查找 AMI 预装 先运行:systemctl status amazon-ssm-agent 查看sshm-agent的状态。 然后安装提示,执行 systemctl start amazon-ssm-agent 启动即…

百度世界2024:智能体引领AI应用新纪元

在近日盛大举行的百度世界2024大会上,百度创始人李彦宏以一场题为“文心一言”的精彩演讲,再次将全球科技界的目光聚焦于人工智能(AI)的无限可能。作为一名科技自媒体,我深感这场演讲不仅是对百度AI技术实力的一次全面…

纯血鸿蒙NEXT-组件导航 (Navigation)

Navigation组件是路由导航的根视图容器,一般作为Page页面的根容器使用,其内部默认包含了标题栏、内容区和工具栏,其中内容区默认首页显示导航内容(Navigation的子组件)或非首页显示(NavDestination的子组件…

C语言 | Leetcode C语言题解之第564题寻找最近的回文数

题目&#xff1a; 题解&#xff1a; #define MAX_STR_LEN 32 typedef unsigned long long ULL;void reverseStr(char * str) {int n strlen(str);for (int l 0, r n-1; l < r; l, r--) {char c str[l];str[l] str[r];str[r] c;} }ULL * getCandidates(const char * n…

docker学习笔记跟常用命令总结

Docker简介 Docker是一个用于构建运行传送应用程序的平台 镜像 将应用所需的函数库、依赖、配置等与应用一起打包得到的就是镜 镜像结构 镜像管理命令 命令说明docker pull拉取镜像docker push推送镜像docker images查看本地镜像docker rmi删除本地镜像docker image prune…

MySQL 中 InnoDB 支持的四种事务隔离级别名称,以及逐级之间的区别?

MySQL中的InnoDB存储引擎支持四种事务隔离级别&#xff0c;这些级别定义了事务在并发环境中的行为和相互之间的可见性。以下是这四种隔离级别的名称以及它们之间的区别&#xff1a; 读未提交&#xff08;Read Uncommitted&#xff09; 特点&#xff1a;这是最低的隔离级别&…

【力扣热题100】[Java版] 刷题笔记-226. 翻转二叉树

题目:226. 翻转二叉树 给你一棵二叉树的根节点 root &#xff0c;翻转这棵二叉树&#xff0c;并返回其根节点。 解题思路 二叉树翻转&#xff0c;可以通过递归进行交换。 解题过程 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeN…

Android kotlin之配置kapt编译器插件

配置项目目录下的gradle/libs.versions.toml文件&#xff0c;添加kapt配置项&#xff1a; 在模块目录下build.gradle.kt中增加 plugins {alias(libs.plugins.android.application)alias(libs.plugins.jetbrains.kotlin.android)// 增加该行alias(libs.plugins.jetbrains.kotl…

【Linux学习】【Ubuntu入门】1-8 ubuntu下压缩与解压缩

1.Linux系统下常用的压缩格式 常用的压缩扩展名&#xff1a;.tar、.tar.bz2、.tar.gz 2.Windows下7ZIP软件安装 Linux系统下很多文件是.bz2&#xff0c;.gz结尾的压缩文件。 3.Linux系统下gzip压缩工具 gzip工具负责压缩和解压缩.gz格式的压缩包。 gzip对单个文件进行…

【Linux】【Shell】Shell 基础与变量

Shell 基础 Shell 基础查看可用的 Shell判断当前 Shell 类型 变量环境变量查看环境变量临时环境变量永久环境变量PATH 变量 自定义变量特殊赋值(双引号、单引号、反撇号) 预定义变量bashrc Shell 基础 Shell 是一个用 C 语言编写的程序&#xff0c;相当于是一个翻译&#xff0c…

自动语音识别(ASR)与文本转语音(TTS)技术的应用与发展

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

React可以做全栈开发吗

React可以做全栈开发吗? 答案是肯定的&#xff0c;而且还比较完美 React可以用于全栈开发&#xff0c;以下是具体的介绍&#xff1a; 前端部分 构建用户界面 React是一个用于构建用户界面的JavaScript库&#xff0c;它通过组件化的方式让开发者能够高效地创建交互式的UI。例…

折叠光腔衰荡高反射率测量技术的matlab模拟理论分析

折叠光腔衰荡高反射率测量技术的matlab模拟理论分析 1. 前言2. 光腔模型3. 光腔衰荡过程4. 衰荡时间与反射率的关系5. 测量步骤①. 光腔调节&#xff1a;②. 光腔衰荡测量&#xff1a;③. 计算衰荡时间常数&#xff1a;④. 反射率计算&#xff1a; 6. 实际应用中的调整7. 技术优…

爬取网易云音乐热歌榜:从入门到实战

爬取网易云音乐热歌榜&#xff1a;从入门到实战 前提声明 爬虫应遵守目标网站的robots.txt协议&#xff0c;尊重版权和用户隐私。本代码仅供学习和研究使用&#xff0c;不得用于商业用途。请确保在合法合规的前提下使用本代码。本代码所爬音乐为公开可选择的音乐 目录 引言…