SETR——Rethinking系列工作,展示使用纯transformer在语义分割任务上是可行的,但需要很强的训练技巧

image.png

题目:Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

作者:image.png
开源:https://fudan-zvg.github.io/SETR

1.研究背景

1.1 为什么要研究这个问题?

自[ 36 ]的开创性工作以来,现有的语义分割模型主要是**基于全卷积网络( FCN )的模型。**一个标准的FCN分割模型具有编码器-解码器结构: 编码器用于特征表示学习,而解码器用于特征表示的像素级分类。
[ 36 ]Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 2, 3, 6

1.2 所研究的问题目前存在什么样的困难?

FCN针对在非约束场景图像中学习对语义分割至关重要的长距离依赖信息,存在有限的感受野限制!

1.3 学者们都做了哪些研究来解决此问题?这些解决方法还有什么不足?

为了克服上述缺陷,近年来提出了许多方法。一种方法是直接操纵卷积操作(directly manipulate the convolution operation),包括大的核尺寸[ 40 ](large kernel sizes),空洞卷积[ 8、22 ](atrous convolutions)和图像/特征金字塔(image/feature pyramids);另一种方法是将注意力模块集成到FCN架构中,该模块旨在对特征图中所有像素的全局交互进行建模。
无论采用哪种方式,标准的编码器-解码器FCN模型架构都保持不变。
最近,人们尝试完全去除卷积,转而使用注意力独立模型[ 47 ]。然而,即使没有卷积,它们也不会改变FCN模型结构的本质:编码器对输入的空间分辨率进行降采样,开发出有助于区分语义类的低分辨率特征表示,解码器再对特征表示上采样到全分辨率语义映射。

2.研究目的

在本文中,我们旨在为语义分割模型的设计提供一种反思,并贡献一种替代方案。我们提出用一个纯transformer[ 45 ]来代替空间分辨率逐渐降低的基于堆叠卷积层的编码器,从而产生了一个新的分割模型- -SEgmentation TRansformer (SETR)。
该转换器将输入图像视为由学习到的块嵌入表示的图像块序列,并对该序列进行全局自注意力建模,用于判别性特征表示学习。具体来说,我们首先将一幅图像分解为固定大小的面片网格,形成一个面片序列。对每个面片的扁平化像素向量施加线性嵌入层,得到特征嵌入向量序列,作为transformer的输入。给定从编码器转换器中学习到的特征,然后使用解码器恢复原始图像分辨率。关键的是,在编码器转换器的每一层都没有空间分辨率的下采样,而是全局上下文建模,从而为语义分割问题提供了一个全新的视角。(无需从局部到全局学习)
创新点:

  • 我们从序列到序列学习的角度重新建模了图像语义分割问题,为占主导地位的编码器-解码器FCN模型设计提供了一种替代方案。
  • 作为一个实例,我们利用Transformer框架通过对图像进行序列化来实现我们的全注意力特征表示编码器。
  • 为了更全面地考察自注意特征的呈现,我们进一步介绍了三种不同复杂度的解码器设计。

3.研究方法

Transformer

由于FCN的encoder部分一般对图像下采样16倍,故将图片分割为原图的16×16块;每个patch经过线性映射得到L×C的矩阵( L = H 16 ∗ W 16 L=\frac{H}{16}*\frac{W}{16} L=

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/310953.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows网络驱动开发

基石:WFP 1、简介 Windows过滤平台(Windows Filtering Platform, WFP),是从Vista系统后新增的一套系统API和服务。开发者可以在WFP框架已划分的不同分层中进行过滤、重定向、修改网络数据包,以实现防火墙、入侵检测系…

GNU Radio Radar Toolbox编译及安装

文章目录 前言一、GNU Radio Radar Toolbox 介绍二、gr-radar 安装三、具体使用四、OFDM 雷达仿真 前言 GNU Radio Radar Toolbox(gr-radar)是一个开放源码的工具箱,用于 GNU Radio 生态系统,主要目的是为雷达信号处理提供必要的…

JDK自带的线程池有哪些?

1、Executors.newFixedThreadPool(4); // 核心线程 传几个就有几个核心线程和最大线程数 2、Executors.newCachedThreadPool(); // 核心线程0 ,全是临时工,最大线程数为21亿 3、Executors.newScheduledThreadPool(4); // 传几个就有几个核心线程&#xf…

OSPF 开放式最短路径优先协议

目录 技术产生原因:因为RIP存在不足 OSPF优点: RIPV2和OSPFV2比较: 相同点: 不同点: OSPF的结构化部署 --- 区域划分 区域划分的主要目的: 区域边界路由器 --- ABR : 区域划分的要求&am…

怎么做预约功能_让服务变得更便捷

在快节奏的现代生活中,时间成为了我们最宝贵的财富。无论是工作、学习还是休闲娱乐,我们都希望能够更加高效地利用每一分每一秒。而预约功能的出现,正是为了满足这一需求,让我们的生活变得更加便捷、高效。 工具/原料 微信小程序…

ABAP CONVERSION_EXIT_ATINN_INPUT

CONVERSION_EXIT_ATINN_INPUT 因为在直接使用ZMM015这个特性值会报错 点击执行之后: 然而这个是N类型的,我们的筛选条件是C类型的,数据类型是不匹配的。 这个是经过转换的

第一届AI Agent智能体现场开发大赛报名开启!8月上旬火热开赛~

由联想拯救者、AIGC开放社区、英特尔携手主办的“AI生成未来第二届拯救者杯OPENAIGC开发者大赛”已经正式启动,“2024 AI Agent极限挑战赛”作为特设专项赛道,也将同步于8月上旬开赛,参赛者将在更加紧张刺激的现场比赛中展现其技术与创造力。…

ActiveMQ 任意文件上传漏洞复现

一、使用弱口令登陆 ​ 访问 http://ip:8161/admin/ 进入admin登陆页面,使用弱口令登陆,账号密码皆为 admin,登陆成功后,headers中会出现验证信息 ​ 如: Authorization: Basic YWRtaW46YWRtaW4 # 二、利用PUT协议上…

程序设计语言(LOGO/Scratch/VB/C)

程序设计语言篇 文章目录 程序设计语言篇一、LOGO编程语言二、Scratch语言三、Visual Basic语言3.1 开发工具及语言特点3.2 常量与变量3.3 数据类型3.4 运算符&表达式3.4 常用的内部函数3.5 输入和输出3.6 选择与循环结构3.7 消息对话框四、C语言4.1 开发工具及语言特点4.2…

OpenAI开设首个亚洲办公室,定制GPT-4模型Token成本降低47%|TodayAI

OpenAI今日宣布,在日本东京设立新办公室,标志着该公司在亚洲市场的正式扩展。东京作为全球科技领域的领导者,其独特的服务文化和创新社区,是OpenAI选择作为亚洲第一站的理想地点。公司致力于与日本政府、当地企业和研究机构合作&a…

【解决】Spring Boot创建项目常见问题

🎥 个人主页:Dikz12🔥个人专栏:Spring学习之路📕格言:吾愚多不敏,而愿加学欢迎大家👍点赞✍评论⭐收藏 目录 idea无maven选项 无效发行版17 类⽂件具有错误的版本 61.0, 应为 …

Vue 指令

Vue根据不同的指令&#xff0c;针对标签实现不同的功能 指令&#xff1a;带有v-前缀的特殊的标签属性 <!-- Vue指令--> <div v-html"str"></div><!-- 普通标签属性 --> <div class"box"></div> 目录 v-html v-sho…

反爬虫之代理IP封禁-协采云IP池

反爬虫之代理IP封禁-协采云IP池 1、目标网址2、IP封禁4033、协采云IP池 1、目标网址 aHR0cDovL3d3dy5jY2dwLXRpYW5qaW4uZ292LmNuLw 2、IP封禁403 这个网站对IP的要求很高&#xff0c;短时间请求十几次就会遭关进小黑屋。如下图&#xff1a; 明显是网站进行了反爬处理&…

使用剧本批量、自动管理逻辑卷设备实战

目录 1、目的 2、思考&#xff1a;这个时候使用ansible剧本比shell脚本的优势&#xff1a; 3、实战部署 3.1 让设备支持逻辑卷技术 3.2 使用lvol模块创建逻辑卷设备 3.3 使用filesystem模块来完成设备的格式化 3.4 最终剧本 3.5 执行剧本测试 3.6 查看受管主机的逻辑卷…

R语言 并行计算makeCluster报错

问题&#xff1a;使用parallel包进行并行计算&#xff0c; cl <- makeCluster(detectCores()) 出现以下问题&#xff1a; 解决方式&#xff1a;用makeClusterPSOCK命令代替即可 library("future") cl <- makeClusterPSOCK(124, revtunnel TRUE, outfile &…

【JAVA基础篇教学】第十二篇:Java中多线程编程

博主打算从0-1讲解下java基础教学&#xff0c;今天教学第十二篇&#xff1a;Java中多线程编程。 多线程编程是利用多个线程同时执行任务来提高程序的效率和性能。在 Java 中&#xff0c;多线程编程可以通过继承 Thread 类或实现 Runnable 接口来实现。下面是一个简单的多线程…

如何用个人电脑搭建一台本地服务器,并部署项目到服务器详细教程

服务器是一种高性能计算机&#xff0c;作为网络的节点&#xff0c;它存储、处理网络上80%的数据、信息&#xff0c;因此也被称为网络的灵魂。与普通计算机相比&#xff0c;服务器具有高速CPU运算能力、长时间可靠运行、强大I/O外部数据吞吐能力以及更好的扩展性。 服务器的主要…

(最新)华为 2024 届实习招聘-硬件通⽤/单板开发——第十一套和十二套

&#xff08;最新&#xff09;华为 2024 届实习招聘-硬件通⽤/单板开发——第十一套和十二套 部分题目分享&#xff0c;完整版带答案(有答案和解析&#xff0c;答案非官方&#xff0c;未仔细校正&#xff0c;仅供参考&#xff09;&#xff08;共十套&#xff09;获取&#xff…

汽车抗疲劳驾驶测试铸铁试验底座技术要求有哪些

铸铁平台试验台底座的主要技术参数要求 1、 试验台底座设计制造符合JB/T794-1999《铸铁平板》标准。 2、 试验铁底板及所有附件的计量单位全部采用 单位&#xff08;SI&#xff09;标准。 3、铸铁平台平板材质&#xff1a;用细密的灰口铸铁HT250或HT200&#xff0c;强度符…

Windows电脑使用Everything+cpolar搭建在线资料库并实现无公网IP管理文件

文章目录 推荐前言1.软件安装完成后&#xff0c;打开Everything2.登录cpolar官网 设置空白数据隧道3.将空白数据隧道与本地Everything软件结合起来总结 推荐 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家…