《Transformer Scale Gate for Semantic Segmentation》CVPR2023

摘要

论文提出了一种名为Transformer Scale Gate(TSG)的模块,用于优化在语义分割任务中多尺度上下文信息的编码。现有的基于Transformer的分割模型在组合不同尺度的特征时没有进行选择,这可能导致次优尺度的特征降低分割的准确性。TSG利用Vision Transformer中的自注意力和交叉注意力的内在属性来选择尺度。TSG是一个高度灵活的即插即用模块,可以轻松集成到任何基于编码器-解码器的层次化视觉Transformer架构中。通过在Pascal Context和ADE20K数据集上的广泛实验,证明了所提特征选择策略的一致增益。

拟解决的问题

语义分割任务需要识别图像中的所有对象(包括“事物”和“物质”),并确定它们的类别。现有的基于Transformer的方法通常使用单一尺度的特征来处理语义分割问题,但这种方法难以处理不同大小的多个对象。为了解决这个问题,需要一种能够有效编码多尺度上下文信息并选择合适尺度特征的方法。

创新之处

  • 提出了Transformer Scale Gate(TSG)模块,利用Vision Transformer中的自注意力和交叉注意力来选择多尺度特征。
  • TSG是一个轻量级的模块,可以通过简单的线性层实现,易于集成到现有的Transformer架构中。
  • 扩展了TSG到编码器(TSGE)和解码器(TSGD)中,分别利用自注意力和交叉注意力指导来优化多尺度特征。

方法论

基本结构包括编码器和解码器。编码器由多个多头自注意力模块组成,用于捕获图像块的特征。解码器则包含自注意力模块和交叉注意力模块,用于生成分割掩码。

Transformer Scale Gate (TSG) 

TSG 的设计目的是解决现有 Transformer 模型在处理多尺度对象时面临的挑战。由于不同对象可能在不同的尺度上具有不同的显著性,因此需要一种机制来选择最适合每个图像块的特征尺度。

  1. 整合注意力图:将编码器和解码器中所有头的自注意力和交叉注意力图整合为单一的注意力图 𝐴。这是通过连接所有头的注意力图并使用线性层来实现的。

  2. 尺度门生成:通过一个多层感知机(MLP)和层归一化(Layer Normalization)处理整合后的注意力图 𝐴,然后使用 GELU 激活函数来预测尺度门 \widetilde{G}。接着,通过 softmax 函数在尺度维度上对 \widetilde{G} 进行归一化,得到最终的尺度门矩阵 𝐺。尺度门是一个矩阵,其中的每个元素g_{n,s}表示第 𝑛 个图像块在第 𝑠 个尺度上的重要性权重。

  3. 尺度门应用:在编码器和解码器中,使用 TSG 生成的尺度门来加权多尺度特征图,从而为每个图像块选择最合适的特征尺度。

 Transformer Scale Gate in Encoder (TSGE)

为了改善编码器中多尺度特征的处理,使其能够更有效地捕捉到不同尺寸对象的特征。通过自注意力机制的指导,TSGE 能够细化和优化这些特征,从而提高语义分割的准确性。

 Transformer Scale Gate in Decoder (TSGD)

在语义分割中,解码器负责将编码器提取的特征转换为最终的分割结果。由于不同对象可能在不同尺度上表现不同,因此需要一种机制来选择和整合不同尺度的特征,以确保分割结果的准确性和细节。

Query Token 的生成和使用

  1. 初始化:在解码器的开始,Query Token通常被初始化为一组可学习的向量,每个向量对应一个类别或对象实例。
  2. 自注意力:在解码器的自注意力模块中,Query Token参与计算,以学习不同类别或实例之间的相互关系。
  3. 交叉注意力:在交叉注意力模块中,Query Token与编码器的输出特征进行交互,以获得更丰富的上下文信息。
  4. 特征融合:通过交叉注意力模块,Query Token融合了来自编码器的多尺度特征,生成细化的特征表示。
  5. 最终预测:经过解码器的多个阶段,最终每个Query Token会形成一个类别嵌入向量,这些向量与编码器输出的特征图相结合,用于生成最终的语义分割结果。

结论

文章提出的TSG模块通过利用Vision Transformer的内在属性来有效地选择多尺度特征,以提高语义分割的准确性。TSG是一个简单的基于Transformer的模块,可以作为即插即用组件在Transformer分割网络中使用。通过在两个语义分割数据集上的广泛实验,证明了所提方法的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/390269.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux常用命令全

📑打牌 : da pai ge的个人主页 🌤️个人专栏 : da pai ge的博客专栏 ☁️宝剑锋从磨砺出,梅花香自苦寒来 ☁️运维工程师的职责:监…

吴恩达机器学习C1W2Lab05-使用Scikit-Learn进行线性回归

前言 有一个开源的、商业上可用的机器学习工具包,叫做scikit-learn。这个工具包包含了你将在本课程中使用的许多算法的实现。 目标 在本实验中,你将: 利用scikit-learn实现使用梯度下降的线性回归 工具 您将使用scikit-learn中的函数以及matplotli…

大模型在RPA领域的应用与探索-代码生成

01. 前言 随着人工智能技术的飞速发展,大模型在多个领域的应用日益广泛。特别是在机器人流程自动化(RPA)领域,这些技术的进步为自动化任务的执行带来了显著的效率提升。然而,传统RPA在任务流程编排上依赖人工编写脚本…

RabbitMQ高级特性 - 事务消息

文章目录 RabbitMQ 事务消息概述实现原理代码实现不采用事务采用事务 RabbitMQ 事务消息 概述 RabbitMQ 的 AMQP 协议实现了事务机制,允许开发者保证消息的发送和接收时原子性的,也就是说,要么消息全都发送成功,要么全都发送失败…

【秋招笔试】24-07-27-OPPO-秋招笔试题(算法岗)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 编程一对一辅导 ✨ 本系列打算持续跟新 秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 和 手里的小花花🌸 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 💡 第一题贪心模拟…

掌握SEO站外推广优化的五大绝招

对于网站运营者和数字营销人员来说,SEO站外推广是提升网站流量和排名的重要手段。以下是五个有效的SEO站外推广优化方法,希望对大家有所帮助。 1. 高质量的外链建设 高质量的外部链接(Backlinks)是搜索引擎排名的重要因素之一。…

【Docker系列】Docker 镜像管理:删除无标签镜像的技巧

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

前端面试:八股文系列(一)

更多详情:爱米的前端小笔记(csdn~xitujuejin~zhiHu~Baidu~小红shu)同步更新,等你来看!都是利用下班时间整理的,整理不易,大家多多👍💛➕🤔哦!你们…

大数据-57 Kafka 高级特性 消息发送相关01-基本流程与原理剖析

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

达梦数据库的系统视图v$cachers

达梦数据库的系统视图v$cachers 达梦数据库的系统视图V$CACHERS的作用是显示缓存中的项信息,在 ini 参数 USE_PLN_POOL !0 时才统计。这个视图帮助数据库管理员监控和分析缓存的使用情况,优化数据库性能。通过查询V$CACHERS视图,可以获取缓存…

利用SSE打造极简web聊天室

在B/S场景中,通常我们前端主动访问后端可以使用axios,效果很理想,而后端要访问前端则不能这样操作了,可以考虑SSE、websocket和gRPC等方式,实时和性能均有保障。 下面给出一个简单的例子,后端是nodeexpress…

Springcloud物流配送后台-计算机毕业设计源码69809

目 录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2 物流配送后台系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 操作可行性分析 2.2 系统流程分析 2.2.1数据增加流程 2.2.2 数据修改流程 2.2.3 数据…

1、 window平台opencv下载编译, 基于cmake和QT工具链

1. 环境准备,源码下载 1.1 前置环境 qt 下载安装cmake 安装,可参考: https://blog.csdn.net/qq_51355375/article/details/139186681 1.2 opencv 源码下载 官网地址: https://opencv.org/releases/ 下载源码: 2 …

三款实用录屏工具推荐,轻松满足你的录制需求

作为一个办公小能手,今天来跟大家聊聊我在录制应用教程时,几款录屏软件的亲身体验。咱们做博主的,经常需要录制各种教程,从软件操作到设计技巧,一个顺手的录屏工具那可真是如虎添翼。今天,我要跟大家分享三…

【Unity Shader】切线空间下计算凹凸映射

// Upgrade NOTE: replaced mul(UNITY_MATRIX_MVP,*) with UnityObjectToClipPos(*)Shader "Unlit/NormalTangent" {Properties{_Color("Color Tint", Color) (1, 1, 1, 1)_MainTex("Main Tex", 2D) "While"{}//法线纹理_BumpMap(&q…

【学术会议征稿】第三届环境遥感与地理信息技术国际学术会议(ERSGIT 2024)

第三届环境遥感与地理信息技术国际学术会议(ERSGIT 2024) 2024 3rd International Conference on Environmental Remote Sensing and Geographic Information Technology(ERSGIT 2024) 第三届环境遥感与地理信息技术国际学术会议(ERSGIT 20…

JavaEE---Spring MVC(2)

5.传递数组 当请求中参数是多个的时候,浏览器就会封装成一个数组 下面是在postman中返回的值 6.传递集合 运行的时候报错了,状态码是500,表示此时是服务器的错误,我们去查看后端源码发现 默认封装的是数组而不是List接口 修改方式: 此时我们就拿到了列表的值 状态码是HT…

移动UI:活泼风格如何识别,有什么应用场景。

在移动UI设计中,活泼风格通常具有以下特征: 1. 鲜艳的色彩: 活泼风格的移动UI通常采用鲜艳、明快的色彩,如橙色、黄色、绿色等,以增加活力和生机。 2. 元素动画: 活泼风格的UI设计通常包含丰富的动画效…

S7-1200PLC 和8块欧姆龙温控表MODBUS通信(完整SCL代码)

1、如何提升MODBUS-RTU通信数据的刷新速度 提升MODBUS-RTU通信数据刷新速度的常用方法_modbus rtu通讯慢-CSDN博客文章浏览阅读1.2k次。SMART PLC的MODBUS-RTU通信请参考下面文章链接:【精选】PLC MODBUS通信优化、提高通信效率避免权限冲突(程序+算法描述)-CSDN博客MODBU…

Nginx进阶-常见配置(一)

一、nginx Proxy 反向代理 1、代理原理 反向代理产生的背景: 在计算机世界里,由于单个服务器的处理客户端(用户)请求能力有一个极限,当用户的接入请求蜂拥而入时,会造成服务器忙不过来的局面&#xff0c…