全新Transformer模型:全球与局部双重突破!

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

引言:探索视觉变换器在对象重识别中的全局与局部特征

在对象重识别(Re-ID)的研究领域中,如何有效地从不同时间和地点捕获的图像中识别和检索特定对象一直是一个挑战。最近,随着视觉变换器(Vision Transformers,简称ViT)的发展,对象重识别取得了显著的进展。然而,对于对象重识别,全局与局部特征的相互关系和作用尚未被充分探索。

在本研究中,我们首先探讨了ViT中全局和局部特征的影响,然后进一步提出了一种新颖的全局-局部变换器(Global-Local Transformer,简称GLTrans)以实现高性能的对象重识别。我们发现,ViT的最后几层已经具有很强的表征能力,全局和局部信息可以相互增强。基于这一发现,我们提出了全局聚合编码器(Global Aggregation Encoder,简称GAE),有效地利用最后几层变换器的类别标记来学习全面的全局特征。同时,我们提出了局部多层融合(Local Multi-layer Fusion,简称LMF),它利用GAE的全局线索和多层补丁标记来探索具有辨别力的局部表征。

通过在四个大规模对象重识别基准上的广泛实验,我们的方法展示了优于大多数最先进方法的性能。

  • 论文标题:Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification
  • 机构:Dalian University of Technology
  • 论文链接:https://arxiv.org/pdf/2404.14985.pdf
    在这里插入图片描述

对象重识别的挑战与现状

1. CNNs在对象重识别中的应用与局限

在过去的二十年中,基于卷积神经网络(CNNs)的方法主导了对象重识别(Re-ID)领域。这些方法通过分割特征图来获取细粒度线索,例如将特征图水平分割以学习区分性的局部特征。尽管这些方法取得了卓越的表现,但它们受限于卷积操作的全局表示能力较弱,这可能导致过拟合并忽略全局重要信息。

2. Transformers引入对象重识别的新视角

Transformers由于其全局建模能力,在自然语言处理(NLP)领域已成为主流模型。近年来,研究者们开始将Transformers引入到视觉任务中,例如Vision Transformer(ViT)。这些方法通常使用类标记来代表整个图像,但常常忽略了patch标记中丰富的细粒度线索。为了解决这一问题,一些研究通过将patch标记划分为多个独立区域来挖掘局部区分性线索,但这种方法可能会遗漏结构信息。
在这里插入图片描述

GLTrans方法介绍:结合全局与局部的视觉变换器

1. Vision Transformer (ViT)的基本工作原理

Vision Transformer(ViT)通过将图像分解为重叠的图像块,并将每个块线性投影到一个高维空间,从而获得一系列的向量。这些向量通过多头自注意力机制进行信息聚合,使模型能够关注长距离依赖,从而捕捉全局信息。

2. 全局聚合编码器(GAE)的设计与功能

全局聚合编码器(GAE)利用从ViT的最后几层获得的类标记,通过一个全连接层和GeLU激活函数生成一个综合的全局特征表示。这种方法不仅考虑了最后一层的类标记,还结合了前几层的类标记,以获得更全面的全局特征。

3. 局部多层融合(LMF)的策略与实现

局部多层融合(LMF)模块包括Patch Token Fusion(PTF)、Global-guided Multi-head Attention(GMA)和Part-based Transformer Layers(PTL)。PTF通过聚合多层的patch标记并增强它们之间的空间关系来获取紧凑的局部表示。GMA进一步通过全局特征引导增强patch标记的区分性表示。PTL则利用分割后的patch标记和全局类标记,通过多头自注意力层和前馈网络,提取区分性的局部特征。
在这里插入图片描述

实验设置与数据集描述

在本研究中,我们采用了四个大规模的对象重识别(Re-ID)基准数据集,包括Market1501、DukeMTMC-ReID、MSMT17和VeRi-776。这些数据集广泛用于评估Re-ID算法的性能。Market1501和DukeMTMC-ReID主要用于行人重识别,而MSMT17和VeRi-776则包括更多场景和更复杂的环境条件。

我们的实验框架基于Vision Transformer (ViT)模型,结合了全局聚合编码器(Global Aggregation Encoder, GAE)和局部多层融合(Local Multi-layer Fusion, LMF)模块。我们首先从ViT获取多层的类标记和补丁标记,然后通过GAE和LMF生成更具辨别力的全局和局部特征。此外,我们还引入了多头自注意力机制来增强补丁标记的判别表示。
在这里插入图片描述

与现有技术的比较

1. 在Market1501和DukeMTMC-ReID数据集上的表现

在Market1501数据集上,尽管我们的模型在Rank1得分方面略低于一些比较方法,例如ISP和HAT,但在平均精度(mAP)方面表现非常竞争。在DukeMTMC-ReID数据集上,我们的GLTrans方法在mAP得分上超过了TransReID、AAformer和PFD,显示了通过探索补充的局部和全局信息,我们的方法能够获得更鲁棒的表示。

2. 在MSMT17和VeRi-776数据集上的优势分析

在MSMT17数据集上,我们的模型在mAP和Rank1上均实现了最佳性能。这表明,通过全局线索引导的多层特征融合可以获得互补和细粒度的特征表示。此外,在VeRi-776数据集上,我们的GLTrans模型在mAP和Rank1上也表现最佳。这一结果强调了在车辆Re-ID中识别局部信息的重要性,我们的方法通过考虑局部和全局线索,实现了卓越的性能。

总体而言,这些实验结果验证了我们提出的GLTrans框架在处理多种复杂场景下的对象Re-ID任务时的有效性和优越性。
在这里插入图片描述

深入分析:局部与全局特征融合的影响

1. 不同组件的性能比较

在GLTrans方法中,局部多层融合(LMF)和全局聚合编码器(GAE)是两个关键组件。LMF通过融合多层的patch tokens来增强局部特征的表达能力,而GAE则聚合多层的class tokens以提取更全面的全局特征。实验结果表明,这两种策略的结合显著提高了对象重识别的性能,尤其是在处理复杂场景和多样化的视觉信息时。

2. 不同层聚合的效果分析

通过对比不同层级的特征聚合,发现最后几层的ViT特征包含了丰富的语义信息,这些信息对于提高模型的判别能力至关重要。然而,单一层次的特征往往无法全面表达对象的复杂性,因此GLTrans采用了多层特征聚合策略,以获得更加全面和鲁棒的特征表示。

3. 不同聚合策略的影响

在全局聚合编码器(GAE)中,采用了多层class tokens的聚合,而在局部多层融合(LMF)中,则是通过patch token fusion、全局引导的多头注意力(GMA)和部分感知的Transformer层(PTL)来实现局部特征的增强。这种局部与全局的聚合策略有效地提升了模型对于细节的捕捉能力,使得模型在多个重识别基准测试中取得了优异的性能。

总结与未来展望

1. GLTrans方法的主要贡献与创新点

GLTrans方法的主要创新在于它有效地融合了局部和全局特征,通过全局聚合编码器(GAE)和局部多层融合(LMF)两大组件,优化了特征的表达能力。此外,该方法还引入了多头注意力机制来进一步增强模型对复杂场景的适应性和鲁棒性。

2. 对象重识别领域的未来研究方向

未来的研究可以在以下几个方向进行深入:首先,探索更高效的特征融合技术,以进一步提升模型的性能和效率;其次,研究跨模态和跨领域的对象重识别问题,以应对更加多样化的应用场景;最后,考虑到隐私和安全的问题,研究如何在保护个人隐私的前提下进行有效的对象重识别。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/326974.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络网络层之(5)IPv6协议

网络网络层之(5)IPv6协议 Author: Once Day Date: 2024年5月12日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文档可参考专栏:通信网络技术_Once-Day…

答辩PPT框架如何搭建?文心一言AI辅助构建

很多快要毕业的同学在做答辩PPT的时候总是感觉毫无思路,一窍不通。但这并不是你们的错,对于平时没接触过相关方面,第一次搞答辩PPT的人来说,这是很正常的一件事。一个好的答辩PPT可以根据以下分为以下几部分来写。 1.研究的背景和…

2.1 软件工程

第2章 信息技术知识 2.1 软件工程 现状: 开发软件的规模越来越大复杂度越来越高用户需求并不十分明确缺乏软件开发方法和工具方面的有效支持 软件成本日益增长、开发进度难以控制、软件质量无法保证、软件维护困难等问题日益突出。人们开始用工程的方法进行软件…

geotrust ov泛域名证书2990

Geotrust是一家正规的CA证书颁发机构,致力于为个人以及企事业单位开发者提供安全可靠的数字证书产品,维护了个人博客网站、企业官网、商城网站以及银行等金融网站的数据安全,营造了一种健康的网络环境。今天就随SSL盾小编了解Geotrust旗下的O…

Ansys Zemax|基于Alvarez自由曲面透镜的光学变焦系统

附件下载 联系工作人员获取附件 Alvarez变焦是一个出色的光学系统,其中由自由曲面镜头的横向位移提供了光学变焦。这篇文章解释了Alvarez变焦镜头的主要原理,并提供了在Zemax OpticStudio中对Alvarez变焦镜头的计算和建模演示。 什么是Alvarez变焦镜头…

Android PreferenceActivity可以自动设置的Activity

1、介绍 PreferenceActivity 是一个抽象类,继承自ListActivity ,该类封装了SharedPreferences. PreferenceActivity 提供了一些常用的设置项如,与普通组件一样,这些配置项既可以从XML文件创建,也可以从代码创建. 每一个设置项标签有一个andro…

MyBatis——MyBatis 参数处理

一、单个简单类型参数 简单类型包括: byte short int long float double char Byte Short Integer Long Float Double Character String java.util.Date java.sql.Date parameterType 属性:告诉 MyBatis 参数的类型 MyBatis 自带类型自动推断机制…

揭秘APP广告:变现逻辑全解析!

在当今的移动互联网时代,APP广告变现已经成为了各大应用开发者的主要营收来源之一。然而,随着科技的发展、用户行为的变化以及广告市场趋势的演进,APP广告变现逻辑也正在不断地进行优化和调整。本文将基于当前市场和技术趋势,为大…

【技巧】如何查看RAR格式文件?

RAR是一种压缩文件格式,想要查看RAR文件,如果电脑系统自带解压缩功能,可以直接双击打开查看;也可以使用解压缩软件,比如常见的WinRAR、7-ZIP软件,来查看RAR文件 。 以WinRAR软件为例,安装好软件…

[华为OD] B卷 树状结构查询 200

题目: 通常使用多行的节点、父节点表示一棵树,比如 西安 陕西 陕西 中国 江西 中国 中国 亚洲 泰国 亚洲 输入一个节点之后,请打印出来树中他的所有下层节点 输入描述 第一行输入行数,下面是多行数据,每行以空…

海外客户开发渠道有哪些

海外客户开发是一个多元化的过程,涉及线上与线下多个渠道。以下是一些有效的海外客户开发渠道: 平台电商: 利用国际B2B电商平台,如阿里巴巴国际站、 Globalsources、Made-in-China等,这些平台拥有庞大的国际买家流量&a…

vue-fontawesome-elementui-icon-picker选择icon框架

第一步:安装vue-fontawesome-elementui-icon-picker依赖 npm install vue-fontawesome-elementui-icon-picker --save-dev 第二步:main.js配置 (放在element ui引入之后) import iconPicker from vue-fontawesome-elementui-icon-picker; Vue.use(ico…

深入探索van Emde Boas树:原理、操作与C语言实现

van Emde Boas (vEB) 树是一种高效的数据结构,用于处理整数集合。它是由荷兰计算机科学家Jan van Emde Boas在1977年提出的。vEB树在处理整数集合的查找、插入、删除和迭代操作时,能够以接近最优的时间复杂度运行。vEB树特别适合于那些元素数量在某个较小…

跨ROS系统通信:使用TCP实现节点间的直连

当涉及到在机器人操作系统(ROS)环境中的通信时,标准做法通常是在同一个ROS网络内通过话题和服务进行。但在某些特定情况下,比如当你有两个分布在不同网络中的ROS系统时,标准的通信方法可能不太适用。此时,一…

基于vgg16和efficientnet卷积神经网络的天气识别系统(pytorch框架)全网首发【图像识别-天气分类】

一个能够从给定的环境图像中自动识别并分类天气(如晴天、多云、雨天、雪天闪电等)的系统。 技术栈: 深度学习框架:PyTorch基础模型:VGG16与EfficientNet任务类型:计算机视觉中的图像分类 模型选择 VGG16 …

【微信小程序开发】深入探索事件绑定、事件冒泡、页面跳转的逻辑实现

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

微信小程序(Taro)获取经纬度并转化为具体城市

1、获取经纬度 申请权限,想要使用微信小程序获取经纬度的方法是要申请该方面的权限。 获取经纬度的方法有很多选择其中一个使用就好。 我使用的是Taro.getFuzzyLocation() 在app.config.js中需要添加设置 requiredPrivateInfos: ["getFuzzyLocat…

第2章Spring Boot实践,开发社区登录模块【仿牛客网社区论坛项目】

第2章Spring Boot实践,开发社区登录模块【仿牛客网社区论坛项目】 前言推荐项目总结第2章Spring Boot实践,开发社区登录模块1.发送邮件配置MailClient测试 2.开发注册功能访问注册页面提交注册数据激活注册账号 3.会话管理体验cookie体验session 4.生成验…

10分钟获取IP SSL证书——建议收藏

IP SSL证书是一种专门为IP地址签发的安全套接字层(SSL)证书,与常规SSL证书主要绑定到域名(如 example.com)不同,IP SSL证书直接绑定到服务器的IP地址(如 192.0.2.1)。 一 . IP地址…

百度文心一言 java 支持流式输出,Springboot+ sse的demo

参考&#xff1a;GitHub - mmciel/wenxin-api-java: 百度文心一言Java库&#xff0c;支持问答和对话&#xff0c;支持流式输出和同步输出。提供SpringBoot调用样例。提供拓展能力。 1、依赖 <dependency> <groupId>com.baidu.aip</groupId> <artifactId…