【深度学习遥感分割|论文解读4】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割

【深度学习遥感分割|论文解读4】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割

【深度学习遥感分割|论文解读4】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割


文章目录

  • 【深度学习遥感分割|论文解读4】UNetFormer:一种类UNet的Transformer,用于高效的遥感城市场景图像语义分割
  • 4. Experiments
    • 4.1. Experimental settings
      • 4.1.1. Datasets
      • 4.1.2. Implementation details
      • 4.1.3. Evaluation metrics
      • 4.1.4. Models for comparison


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0924271622001654

4. Experiments

4.1. Experimental settings

4.1.1. Datasets

UAVidUAVid数据集是一个高分辨率无人机语义分割数据集,聚焦于城市街景,具有两种空间分辨率(3840×2160 和 4096×2160),包含八个类别(Lyu et al., 2020)。由于图像的高空间分辨率、不均匀的空间变化、不清晰的类别界限及复杂的场景,使得UAVid的分割具有挑战性。具体而言,该数据集包含42个序列,共420张图像,其中200张用于训练,70张用于验证,150张用于官方测试。在实验中,每张图像被填充并裁剪成八个1024×1024像素的图块。
在这里插入图片描述

VaihingenVaihingen数据集包含33幅高分辨率的TOP图像块,平均尺寸为2494×2064像素。每个TOP图像块具有三个多光谱波段(近红外、红、绿)以及数字表面模型(DSM)和归一化数字表面模型(NDSM),地面采样距离(GSD)为9 cm。数据集中包括五个前景类别(不透水表面、建筑物、低植被、树木、车辆)和一个背景类别(杂乱)。在实验中,仅使用TOP图像块,不包含DSM和NDSM。用于测试的图像为ID:2, 4, 6, 8, 10, 12, 14, 16, 20, 22, 24, 27, 29, 31, 33, 35, 38,验证集为ID:30,其余15张图像用于训练。图像块被裁剪为1024×1024像素的图块。
在这里插入图片描述
PotsdamPotsdam数据集包含38幅超高分辨率的TOP图像块(GSD为5 cm),每幅图像尺寸为6000×6000像素,与Vaihingen数据集具有相同的类别信息。数据集提供了四个多光谱波段(红、绿、蓝、近红外)以及DSM和NDSM。用于测试的图像ID为:2_13, 2_14, 3_13, 3_14, 4_13, 4_14, 4_15, 5_13, 5_14, 5_15, 6_13, 6_14, 6_15, 7_13,验证集为ID:2_10,其余22张图像(不含存在标注错误的图像7_10)用于训练。实验中仅使用红、绿、蓝三个波段,并将原始图像块裁剪为1024×1024像素的图块。

LoveDALoveDA数据集包含5987张高分辨率的光学遥感图像(GSD为0.3 m),每张图像尺寸为1024×1024像素,涵盖7个地物类别:建筑物、道路、水体、荒地、森林、农业和背景(Wang et al., 2021a)。具体而言,2522张图像用于训练,1669张图像用于验证,1796张图像作为官方测试集。该数据集包含两类场景(城市和乡村),采集自中国的南京、常州和武汉三座城市。由于多尺度目标、复杂背景和类别分布不一致,数据集带来了显著的挑战。

4.1.2. Implementation details

所有实验中的模型均在单个NVIDIA GTX 3090 GPU上使用PyTorch框架实现。为了快速收敛,我们采用了AdamW优化器进行模型训练,基础学习率设置为6e-4,并使用余弦调度策略调整学习率。

对于UAVid数据集,在训练阶段,对输入图像(大小为1024×1024)进行了随机垂直翻转、随机水平翻转和随机亮度增强的数据扩增。训练周期设置为40,批量大小为8。在测试过程中,使用了测试时增强(TTA)策略,如垂直翻转和水平翻转。

对于Vaihingen、Potsdam和LoveDA数据集,图像随机裁剪为512×512像素的图块。在训练过程中,采用了随机缩放([0.5, 0.75, 1.0, 1.25, 1.5])、随机垂直翻转、随机水平翻转和随机旋转等增强技术,训练周期设置为100,批量大小为16。在测试阶段,使用了多尺度和随机翻转的数据增强策略。

4.1.3. Evaluation metrics

我们实验中使用了两类评估指标。第一类用于评估网络精度,包括总体精度(OA)、平均F1分数(F1)和平均交并比(mIoU)。第二类用于评估网络规模,包括浮点运算次数(FLOPs)以衡量复杂度、帧率(FPS)以评估速度、内存占用(MB)和模型参数数量(M)以衡量内存需求。

4.1.4. Models for comparison

我们选择了一组全面的基准方法进行量化对比,包括:

(i) 基于CNN的轻量级网络,用于高效语义分割:上下文聚合网络(CANet)(Yang等, 2021a)、双向分割网络(BiSeNet)(Yu等, 2018)、ShelfNet (Zhuang等, 2019)、SwiftNet (Oršić和Šegvić, 2021)、Fast-SCNN (Poudel等, 2019)、DABNet (Li等, 2019)、ERFNet (Romera等, 2017)和ABCNet (Li等, 2021c)。

(ii) 基于CNN的注意力网络:双重注意力网络(DANet)(Fu等, 2019)、快速注意力网络(FANet)(Hu等, 2020)、局部注意力网络(LANet)(Ding等, 2021)、交叉网络(CCNet)(Huang等, 2020)、多阶段注意残差UNet(MAResU-Net)(Li等, 2021a)和多注意力网络(MANet)(Li等, 2021b)。

(iii) 基于CNN的遥感影像语义分割网络:DST_5 (Sherrah, 2016)、V-FuseNet (Audebert等, 2018)、CASIA2 (Liu等, 2018)、DLR_9 (Marmanis等, 2018)、RoteEqNet (Marcos等, 2018)、UFMG_4 (Nogueira等, 2019)、HUSTW5 (Sun等, 2019)、TreeUNet (Yue等, 2019)、ResUNet-a (Diakogiannis等, 2020)、S-RA-FCN (Mou等, 2020)、DDCM-Net (Liu等, 2020)、EaNet (Zheng等, 2020a)、HMANet (Niu等, 2021)和AFNet (Yang等, 2021b)。

(iv) 混合Transformer网络,包含Transformer编码器和CNN解码器:TransUNet (Chen等, 2021b)、SwinUperNet (Liu等, 2021)、DC-Swin (Wang等, 2022)、STranFuse (Gao等, 2021)、SwinB-CNN + BD (Zhang等, 2022)、SwinTF-FPN (Panboonyuen等, 2021)、BANet (Wang等, 2021b)、CoaT (Xu等, 2021)、BoTNet (Srinivas等, 2021)和ResT (Zhang和Yang, 2021)。

(v) 完全基于Transformer的网络,包含Transformer编码器和Transformer解码器:SwinUNet (Cao等, 2021)、SegFormer (Xie等, 2021)和Segmenter (Strudel等, 2021)。

欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/465882.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用 Avalonia UI 构建 Blazor 混合应用程序

Blazor 是一个 .NET 前端框架,用于仅使用 .NET 技术构建 Web 应用程序。2021 年,Blazor 扩展到桌面端,推出了 Blazor Hybrid(混合),使开发者可以在桌面平台上使用已有的技能。 Blazor 混合应用程序是传统的…

深度学习笔记9-实现逻辑回归

Python实现逻辑回归 1.假设函数 import math #sigmoid函数得计算 def sigmoid(z):return 1.0/(1math.exp(-z)) #逻辑回归假设函数的计算 #函数传入参数theta、样本特征向量x和特征值得个数n def hypothesis(theta,x,n):h0.0#保存预测结果for i in range(0,n1):#将theta-i和x…

数据库->事务

目录 一、事务 1.什么是事务 2.事务的ACID特性 1.Atomicity (原⼦性) 2.Consistency (⼀致性) 3.Isolation (隔离性) 4.Durability (持久性) 3.为什么要使用事务 4. 如何使⽤事务 1.查看MySQL中支持事务的存储引擎 2.⾃动/⼿动提交事务 2.1自动提交事务 2.2手动提交…

QCon演讲实录|徐广治:边缘云原生操作系统的设计与思考

10月18日,在 QCon 全球软件开发大会 2024(上海站),火山引擎边缘云资深架构师徐广治围绕火山引擎边缘计算产品背后的算力底座 - 边缘云原生操作系统,探讨如何实现算力服务的混合部署和跨区域弹性调度,以及在…

高效作业之Mybatis缓存

高效作业之Mybatis缓存 引言1. MyBatis的一级缓存1.1. 代码示例一级缓存1.2. 使一级缓存失效的四种情况 2. Mybatis二级缓存2.1. 代码示例二级缓存2.2 使二级缓存失效的情况2.4. 二级缓存配置 3. MyBatis缓存查询的顺序4. 整合第三方缓存EHCache4.1. 添加依赖4.2. 创建EHCache的…

论文阅读笔记-Covariate Shift: A Review and Analysis on Classifiers

前言 标题:Covariate Shift: A Review and Analysis on Classifiers 原文链接:Link\ 我们都知道在机器学习模型中,训练数据和测试数据是不同的阶段,并且,通常是是假定训练数据和测试数据点遵循相同的分布。但是实际上&…

[含文档+PPT+源码等]精品基于PHP实现的会员综合管理平台的设计与实现

基于PHP实现的会员商城平台的设计与实现背景,可以从以下几个方面进行详细阐述: 一、电子商务的兴起与发展 随着Internet的广泛普及,电子商务迅速崛起并成为一种主流的购物趋势。通过网络,消费者可以足不出户地浏览和购买各种各样…

微博舆情分析:使用Python进行深度解析

目录 一、准备工作 二、基础理论知识 三、步骤详解 数据预处理 情感分析 关键词提取 四、案例分享 数据爬取 数据分析 五、优化 六、结论 在当今信息爆炸的时代,社交媒体平台如微博已成为公众表达意见和情感的重要渠道。微博舆情分析通过对大量微博数据进…

GPT原理;ChatGPT 等类似的问答系统工作流程如下;当用户向 ChatGPT 输入一个问题后:举例说明;ChatGPT不是通过索引搜索的传统知识库

目录 GPT原理 GPT架构 GPT 主要基于 Transformer 的解码器部分 ChatGPT 等类似的问答系统工作流程如下: 用户输入 文本预处理 模型处理 答案生成 输出回答 当用户向 ChatGPT 输入一个问题后:举例说明 文本预处理: ChatGPT不是通过索引搜索的传统知识库 GPT GPT…

【C++】C++内存管理(一):new/delete

大家好,我是苏貝,本篇博客带大家了解C的内存管理,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 1.C/C内存分布2. C语言中动态内存管理方式:malloc/calloc/realloc/free3. C内…

选择适合你的报表工具,山海鲸报表与Tableau深度对比

在数据分析和报表制作的领域,企业往往面临着选择合适工具的难题。尤其是当市场上有很多功能强大的工具时,如何从中挑选出最适合自己需求的报表软件成为了一个关键问题。今天,我们将对比两款报表工具——山海鲸报表和Tableau,看看它…

网站架构知识之Ansible(day020)

1.Ansible架构 Inventory 主机清单:被管理主机的ip列表,分类 ad-hoc模式: 命令行批量管理(使用ans模块),临时任务 playbook 剧本模式: 类似于把操作写出脚本,可以重复运行这个脚本 2.修改配置 配置文件:/etc/ansible/ansible.cfg 修改配置文件关闭主机Host_key…

`psdparse`:解锁Photoshop PSD文件的Python密钥

文章目录 psdparse:解锁Photoshop PSD文件的Python密钥背景:为何选择psdparse?psdparse是什么?如何安装psdparse?简单函数使用方法应用场景常见Bug及解决方案总结 psdparse:解锁Photoshop PSD文件的Python密…

淘宝反爬虫机制的主要手段有哪些?

淘宝的反爬虫机制主要有以下手段: 一、用户身份识别与验证: User-Agent 识别:通过检测 HTTP 请求头中的 User-Agent 字段来判断请求是否来自合法的浏览器。正常用户使用不同浏览器访问时,User-Agent 会有所不同,而爬虫…

使用ssh-key免密登录服务器或免密连接git代码仓库网站

ssh登录服务器场景 假设有两台机器,分别是: 源机器:主机A(hostA),ip:198.168.0.1 目标机器:主机B(hostB),ip:192.168.0.2 ssh-key免…

swoole扩展安装--入门篇

对于php来说,swoole是个强大的补充扩展。这是我第3次写swoole扩展安装,这次基于opencloudos8系统,php使用8.2。 安装swoole扩展首先想到的是用宝塔来安装,毕竟安装方便,还能统一管理。虽然获得swoole版本不是最新的&am…

神经网络基础--什么是神经网络?? 常用激活函数是什么???

前言 本专栏更新神经网络的一些基础知识;案例代码基于pytorch;欢迎收藏 关注, 本人将会持续更新。 神经网络 1、什么是神经网络 人工神经网络( Artificial Neural Network, 简写为ANN)也简称为神经网络…

Pycharm,2024最新专业版下载安装配置详细教程!

先来一段官方介绍,PyCharm是一种PythonIDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外,该IDE提供了一些高级功能…

Edge浏览器打开PDF无法显示电子签章

Edge浏览器打开PDF无法显示电子签章 直接说处理方式 直接说处理方式 浏览器地址栏,输入 edge://flags/搜索:pdf禁用:New PDF Viewer效果如下

论 ONLYOFFICE:开源办公套件的深度探索

公主请阅 引言第一部分:ONLYOFFICE 的历史背景1.1 开源软件的崛起1.2 ONLYOFFICE 的发展历程 第二部分:ONLYOFFICE 的核心功能2.1 文档处理2.2 电子表格2.3 演示文稿 第三部分:技术架构与兼容性3.1 技术架构3.2 兼容性 第四部分:部…