vit细粒度图像分类(七)TBNet学习笔记

1.摘要

细粒度鸟类图像识别致力于实现鸟类图像的准确分类,是机器人视觉跟踪中的一项基础性工作。鉴于濒危鸟类的监测和保护对保护濒危鸟类具有重要意义,需要采用自动化方法来促进鸟类的监测。在这项工作中,我们提出了一种新的基于机器人视觉跟踪的鸟类监视方法,该方法采用了一种名为TBNet的亲和关系感知模型,该模型结合了CNN和Transformer架构,并具有新颖的特征选择(FS)模块。具体来说,CNN是用来提取表面信息的。利用Transformer来开发抽象的语义亲和关系。引入了FS模块来揭示识别特征
综合实验表明,该算法在cub -200- 201数据集(91.0%)和nabbirds数据集(90.9%)上均能达到最先进的性能。

2.问题

细粒度鸟类图像识别是机器人视觉跟踪和图像处理的基础任务[1-3]。不受人类干扰,通过机器人自动跟踪鸟类对濒危鸟类保护至关重要。目前,由于环境恶化的威胁,一些濒危鸟类濒临灭绝。因此,濒危鸟类的监测与保护对鸟类保护具有重要意义。鉴于世界上近一半的鸟类种群数量在下降,其中13%的鸟类“处境相当严重”[4],濒危鸟类的保护日益受到人们的重视。为了加强鸟类保护,鸟类种群监测已成为研究热点。然而,由于极端的野外条件,例如热带地区的高温和热带雨林的高湿度,这一直是一项具有挑战性的任务。传统上,鸟类研究人员对栖息地濒危鸟类的信息进行人工观测和记录,这是一项费时费力的工作。近年来,随着人工智能的发展,人们提出了许多用于细粒度鸟类图像分类(FBIC)的深度学习方法。因此,下游的任务,如鸟类监视是失败的。

通过对鸟类外形的仔细观察,我们发现了鸟类各部位之间的亲和关系,这有助于FBIC的研究。如图1所示,鸟头和鸟喙的组合或鸟头、翅膀和尾巴上的颜色图案。这些亲和关系可以作为FBIC的判别特征。

2.1发现
然而,在野外识别鸟类也面临着一些挑战。首先,由于极端的野外环境,图像质量会有所不同。例如,从远处拍摄的图像可能会导致低分辨率(图2(a)),或者在低照度下拍摄的图像(图2(a))。2(b)),第二,有任意的鸟的姿势。例如,从图2(e)和图2(d)中可以看出,第一张图片显示的是一只飞行的银鸥,而第二张图片显示的是一只站立的银鸥。在每一幅图中,鸟类看起来都有不同的外观,这是另一个给FBIC带来困难的来源。第三,由于野外背景的隐蔽性和复杂性,鸟类可能在树枝和树叶中(图2(e)),也可能被树枝观察到(图2(f)),这给鸟类图像的分类带来了困难。

2.2发展

由于识别鸟类图像之间的语义长期依赖的亲和关系具有重要意义,因此,Transformer是一种天生擅长探索图像中微观的细粒度细节和微观的长期依赖的语义关系的语言。Transformer[5]最初用于自然语言处理。然后受到计算机视觉领域的启发。Carion等[6]提出了一种基于Transformer的端到端目标检测方法,在[7]中,Dosovitskiy等提出了vision Transformer (ViT),首次应用并证明了纯Transformer是一种可以与CNN竞争并占据其地位的结构。因此,ViT结构被用作我们的模型的骨干,以利用FBIC任务的亲和关系。

2.3创新

在这项工作中,我们提出了一种可以用于智能鸟类监视机器人的方法(图2),智能鸟类监视机器人可以安装在喂食器,鸟巢或鸟类栖息地附近。该机器人可以垂直和水平旋转,以提供更大的视野来探测鸟类。机器人以固定的间隔记录图像,并在图像中检测到鸟时增加频率。一个大的机器人内部安装了大容量电池,可以进行长时间的监控,机器人内部还安装了我们的TBNet模型程序芯片,可以实时对鸟类进行分类。

在监测期间,研究鸟类的出现频率将被计算和记录。然后,收集到的信息可以用于鸟类研究人员对鸟类种群的估计和保护。TBNet模型通过识别鸟类图像中的亲和关系来实现对鸟类图像的分类,从而为下游鸟类种群的估计提供便利。综上所述,本工作的主要贡献如下:
1)提出了一种新的用于鸟类保护的机器人视觉跟踪方法。智能监控机器人可以旋转到不同的方向,记录鸟类的数量。
2)建立了一个有效的TBNet模型。据我们所知,这种亲和关系是首次在鸟类图像中被揭示出来。因此,ViT被用来利用这些抽象的语义亲和关系。利用CNN提取表层信息,引入FS模块揭示判别特征。为TBNet模型的特征映射生成,提出了一种特征提取策略(CPG策略)。
3)在CUB-200-2011和NABirds两个鸟类数据集上进行实验。与现有的几种最先进的方法相比,所提出的TBNet具有更好的性能,从而验证了其有效性

3.网络

3.1整体结构

TBNet模型的管道如图3所示。该方法包括特征提取主干、FS模块和分类头三个部分。第一部分是特征提取主干,用于提取鸟类图像的细粒度和多尺度信息。一般来说,几个当前的骨干[1- 3,7]可以被认为是候选。由于CNN对表层信息的提取能力强,而Transformer在挖掘抽象语义亲和关系方面表现突出,因此本研究采用CNN与ViT的结合作为主干。骨干进一步修改,以提高性能。为了减轻过拟合,所开发的网络在主干的分类头部有dropout层。第二部分是FS模块,提取特定鸟类的判别特征。第三部分是分类头,在分类头中最终利用特征图进行最终分类。

1.使用CNN网络来提取图像初步特征,之后压缩成patch输入vit网络 ,能够较多的保留图像的全局信息,但同时一些低层次的细节信息因为层层卷积而被忽视掉了。

2.FS模块相当于图像增强,通过去掉transformer块中的贡献小的区域来增加显著区域的权重

3.2 Feature map generation

通过特征提取主干对鸟类图像进行处理并生成特征地图。这个过程可以概括为三个步骤:CNN处理,位置嵌入,并通过Transformer块(CPG策略)。该过程完成后,将原始输入图像转换成特征图进行分类。

Step I:CNN处理。在这一步中,通过CNN对原始输入图像进行初步处理,生成n个特征图。然后,将每个特征映射t平面化成一维向量。接下来,应用线性投影将pt投影到p[中。这个过程表示如下:

式中pt为第i个patch, E为线性投影,i为d维投影视觉向量。 

Step II:位置嵌入。由于Transformer层对输入patch序列的排列是不变的,因此需要位置嵌入来编码patch的空间位置和关系。具体来说,这些补丁是通过位置嵌入到补丁向量中来添加的。埋设公式如下:

式中,c_{0}表示由patch向量组成的矩阵,n表示patch的个数,E_{pos'}表示位置嵌入。位置嵌入的类型可以从几个选项中选择,即二维正弦、可学习和相对位置嵌入。 

Step III:穿过Transformer块。位置嵌入补丁然后通过M个Transformer块。每个Transformer块的计算方法如下:

其中c\hat{}^{}l和c^{l}分别为变压器块1的MSA模块和MLP模块的输出patch向量。LN(-)表示层归一化。MLP表示多个完全连接的层。MSA表示多头自我注意。这些变压器块可分为N级。 

3.3 FS module

原始补丁可能引入对分类有害的破坏性特征。图4显示了Transformer块中的特性映射列表。最后一阶段根据特征图的区分分数对特征图进行排序。如图4所示,在较低的层次中,例如阶段1和阶段2,Hits@ k特征彼此之间几乎没有相似性,而得分较差的特征彼此之间几乎相同。在更高的层中,例如阶段N, Hits@k特征更加相似且高度激活,而得分较差的特征似乎是嘈杂的。总的来说,在各个阶段,高分的显著特征比低分的显著特征更重要。因此,我们提出FS模块,以进一步利用这些独特特征提供的信息,有效减轻破坏性特征的破坏性影响。

设在阶段i中,输出为n个ID补丁向量,记为Qj,i e[1,2,3,…,]。首先,FS模块计算n个向量之间的相似度。从余弦相似度或者L2距离的逆选择相似性。余弦相似度定义如下

其中F ”和G ”为两个向量,Sc (F,G) ∈[0,1]。Sc的值表示F与g的相似度,其L2距离构造如下: 

其中“F ”和“G ”表示两个特征向量。相似度的计算公式如下: 

 

其中,\Omega _{i}\Omega _{j}.分别表示第i个和第j个补丁向量。Sc表示余弦相似度,L_{2}表示L_{2}距离。通过计算相似度,可以得到相似矩阵。包含所有patch之间相似度的相似度矩阵可以表示为:

其次,每个patch向量通过与其他patch向量的相似度相加并进行往复运算得到一个判别分数。这个操作公式如下:

 最后选择得分最高的Hits@k (k) patch vector输入到下一层。其余的补丁向量被丢弃,因为它们的鉴别性较差。

4.实验

4.1实验设置

4.1.1数据集

CUB-200-2011,NABirds 

4.1.2实验细节

提出的模型以以下方式实现。首先,将输入图像分辨率调整为448到448,以便进行公平的比较。为提高效率,批量大小设置为8。采用AdamW优化器,权重衰减为0.05。学习率初始化为0.0001。所有的实验都是在一个Nvidia TITAN GPU上使用PyTorch工具箱完成的。

4.2对比试验

 

4.3消融实验

4.4可视化

5.结语

在这项工作中,我们提出了一种新的鸟类保护机器人视觉跟踪方法。智能监控机器人可以旋转到不同的方向,记录鸟类的数量。在此基础上,建立了一个有效的TBNet模型。据我们所知,鸟类图像中的亲和关系首次被揭示。CNN被用来提取肤浅的信息。利用ViT来挖掘抽象的语义亲和关系。引入了FS模块来揭示识别特征。为TBNet模型的特征映射生成,提出了一种特征提取策略(CPG策略)。我们在两个FBIC数据集上测试了TBNet。实验结果表明,该方法可以识别鸟类图像中的亲和关系和判别特征。随着TBNet所取得的可喜成果,相信机器人对鸟类的视觉跟踪具有巨大的潜力是合理的。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/249220.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Netty源码三:NioEventLoop创建与run方法

1.入口 会调用到父类SingleThreadEventLoop的构造方法 2.SingleThreadEventLoop 继续调用父类SingleThreadEventExecutor的构造方法 3.SingleThreadEventExecutor 到这里完整的总结一下: 将线程执行器保存到每一个SingleThreadEventExcutor里面去创建了MpscQu…

六、VTK创建平面vtkPlaneSource

vtkPlaneSource创建位于平面中的四边形数组 先看看效果图: vtkPlaneSource 创建一个 m x n 个四边形数组,这些四边形在平面中排列为规则平铺。通过指定一个原点来定义平面,然后指定另外两个点,这两个点与原点一起定义平面的两个轴。这些轴不必是正交的 - 因此您可以创建平行…

ElementUI Form:Input 输入框

ElementUI安装与使用指南 Input 输入框 点击下载learnelementuispringboot项目源码 效果图 el-input.vue &#xff08;Input 输入框&#xff09;页面效果图 项目里el-input.vue代码 <script> export default {name: el_input,data() {return {input: ,input1: ,i…

prometheus和alertmanager inhibit_rules抑制的使用

172.16.10.21 prometheus 172.16.10.33 altermanager 172.16.10.59 mysql服务&#xff0c;node探针以及mysql的探针 [rootk8s-node02 ~]# docker ps -a CONTAINER ID IMAGE …

rancher证书过期问题处理

问题 起初&#xff0c;打开rancher ui页面打不开&#xff0c;telnet rancher的服务端口也不通。查看rancher 控制节点&#xff0c;日志显示&#xff0c;X509&#xff1a;certificate has expired or is not ye valid。证书已过期 解决 现在网上大部分的解决方案都是针对的2…

三维模型转求顶和底视图

有一项需求: 求出模型的任意方向的视图 本文写一个求顶视图和底视图的方式, 任意方向的视图只是投影平面方程不同而已 测试模型: 顶视图 底视图 顶部高度图(灰度, 未取材质颜色, 懒没写) 底部高度图(灰度) 本算法原理分以下几部: 1: 求模型外包围盒box, 根据顶视图输出大小…

喜讯 | 经纬恒润整车电子电气测试实验室通过一汽研发总院外部实验室资质认证!

近日&#xff0c;经纬恒润整车电子电气测试实验室成功通过中国一汽研发总院的资质评定&#xff0c;获得外部实验室认可证书。这是继经纬恒润测试实验室获得一汽智能网联开发院车载以太网测试资质认证之后的又一次认可&#xff0c;它将拓宽经纬恒润与红旗新能源及相关零部件供应…

websocket编写聊天室

【黑马程序员】WebSocket打造在线聊天室【配套资料源码】 总时长 02:45:00 共6P 此文章包含第1p-第p6的内容 简介 温馨提示&#xff1a;现在都是第三方支持聊天&#xff0c;如极光&#xff0c;学这个用于自己项目完全没问题&#xff0c;大项目不建议使用 需求分析 代码

adb 无线连接 操作Android设备

最近集五福活动比较热门 可以用这个工具 用自己擅长的语言写一个循环程序 运行起来就可以 自动帮我们 看视频得福卡了 很方便 while (true) {sleep(mt_rand(15, 25));system(adb shell input swipe 500 2000 500 1000 100); } 1. 首先下载 安卓开发工具 adb adb网盘链接 链接…

检测头篇 | 原创自研 | YOLOv8 更换 SEResNeXtBottleneck 头 | 附详细结构图

左图:ResNet 的一个模块。右图:复杂度大致相同的 ResNeXt 模块,基数(cardinality)为32。图中的一层表示为(输入通道数,滤波器大小,输出通道数)。 1. 思路 ResNeXt是微软研究院在2017年发表的成果。它的设计灵感来自于经典的ResNet模型,但ResNeXt有个特别之处:它采用…

【SpringBoot系列】自动装配的魅力:Spring Boot vs 传统Spring

IT行业有哪些证书含金量高? 文章目录 IT行业有哪些证书含金量高?强烈推荐前言区别项目配置&#xff1a;依赖管理&#xff1a;内嵌服务器&#xff1a;开发体验&#xff1a; 实例Spring项目示例&#xff1a;Spring Boot项目示例&#xff1a; 总结强烈推荐专栏集锦写在最后 强烈…

Dubbo框架注册中心-Zookeeper搭建

Dubbo 是阿里巴巴公司开源的高性能、轻量级的Java RPC框架&#xff0c;致力于提供高性能。 Dubbo官网 本篇开始dubbo的第一篇&#xff0c;注册中心 ZooKeeper 环境搭建。 环境前置&#xff1a;由于Zookeeper是基于Java环境&#xff0c;必须安装有JDK。查看命令 java -version。…

中科院国际预警期刊名单发布一周年,共8本期刊被剔除!

据官方消息称&#xff1a;2024年中科院《国际期刊预警名单》将于2024年1月更新&#xff0c;今天已经是2月1号了&#xff0c;距离去年的2023年版《国际期刊预警名单&#xff08;试行&#xff09;》发布已经一周年&#xff0c;在去年被列入预警名单的28本期刊中&#xff0c;截止目…

中国的茶文化:现代生活中的茶文化

中国的茶文化&#xff1a;现代生活中的茶文化 引言 在现代社会的快节奏生活中&#xff0c;茶文化并未随时间流逝而褪色&#xff0c;反而以其独特的方式融入了全球各地人们的日常生活。它超越了饮品本身的范畴&#xff0c;成为一种连接历史、人文与现代生活方式的艺术形式。本文…

Git命令窗口:创建一个.bashrc文件,别名实现git log (代替冗余的指令)查询提交修改日志功能

在我们的用户下创建一个.bashrc文件&#xff0c;然后添加如下代码。即可实现我们命令窗口由于每次想要看到好的效果而输入几条指令的问题。 这里我们就只需要使用 git-log 代替我们的git log。这样在命令窗口看到的效果就清晰明了。

Java后端须知的前端知识

Java后端须知的前端知识 HTML &#xff08;超文本标记语言&#xff09; W3C标准 结构&#xff1a;HTML表现&#xff1a;CSS行为&#xff1a;JavaScript 快速入门 <html><head><title></title></head><body><font color"red&q…

【CSS】常见

一. 溢出隐藏 1.1 单行文本溢出 .content{max-width:200px; /* 定义容器最大宽度 */overflow:hidden; /* 隐藏溢出的内容 */text-overflow:ellipsis; /* 溢出部分...表示 */white-space: nowrap; /* 确保文本在一行内显示 */ }问题&#xff1a;display:flex 和 ellipsis 冲…

其实女士喝羊奶会有很多好处,羊大师带你了解

其实女士喝羊奶会有很多好处&#xff0c;羊大师带你了解 在现代社会中&#xff0c;人们对健康的关注越来越多。作为一种天然的营养食品&#xff0c;羊奶备受关注。不仅在婴儿配方奶粉中使用&#xff0c;现在越来越多的女性也开始喝羊奶。那么&#xff0c;女士喝羊奶到底有什么…

软件价值4-俄罗斯方块

俄罗斯方块也是一个可以简单实现的游戏 代码&#xff1a; import pygame import random import numpy as nppygame.init()# 游戏参数 WIDTH, HEIGHT 300, 600 GRID_SIZE 30 GRID_WIDTH WIDTH // GRID_SIZE GRID_HEIGHT HEIGHT // GRID_SIZE FPS 3# 颜色定义 WHITE (255,…

吉大计网笔记

Osi七层模型 物理层&#xff1a;比特流的透明传输 数据链路层&#xff1a;ip数据包装成帧并传输&#xff0c;处理相邻节点的数据传输。 网络层&#xff1a;选择路由和交换节点&#xff0c;处理任意节点的数据传输。 运输层&#xff1a;主机进程的数据传输服务&#xff0c;端到端…