论文阅读笔记:DRCT: Saving Image Super-Resolution away from Information Bottleneck

论文阅读笔记:DRCT: Saving Image Super-Resolution away from Information Bottleneck

  • 1 背景
    • 1.1 问题
    • 1.2 本文提出的方法
  • 2 创新点
  • 3 方法
  • 4 模块
    • 4.1 问题描述
    • 4.2 深度特征提取模块
    • 4.3 同任务渐进式训练策略
  • 5 效果
    • 5.1 和SOTA方法对比

论文:https://arxiv.org/abs/2404.00722

代码:https://github.com/ming053l/drct

1 背景

1.1 问题

在这里插入图片描述

当使用基于Transformer的SISR模型在不同数据集上进行推理时,作者观察到一个普遍现象:随着网络深度的增加,特征图的强度分布发生了更大的变化。特征图的强度表明了模型学习到的空间信息和注意力强度。然而,网络的末端(见图1)往往会急剧下降,缩小到一个较小的范围。这一现象表明,这种突变可能伴随着空间信息的丢失,预示着信息瓶颈的存在。

受到YOLO系列、CSPNet 和 ELAN 等一系列工作的启发,作者认为基于SwinIR的网络架构,尽管通过偏移窗口注意力机制显著地扩大了感受野,以解决CNN中的小感受野问题,但随着网络深度的增加,由于空间信息的丢失,容易出现梯度瓶颈。这隐含地制约了模型的性能和潜力。

1.2 本文提出的方法

为了解决由于网络层数增加而导致的空间信息丢失,作者引入了密集残差连接Transformer(DRCT),旨在稳定前向传播过程并防止信息瓶颈。这是由孪生密集残差连接块 SDRCB 实现的,他将孪生 Transformer 和过渡层合并到每个残差深度特征提取组 RDG 中。该方法以较少的参数和简化的模型结构来增强感受野,从而提升性能。

2 创新点

  • 发现随着网络深度的增加,特征图的强度会逐渐增加,然后突然降低到一个较小的范围,这种剧烈震荡可能盘随着信息的丢失。

  • 提出DRCT,通过在残差组内加入稠密连接来稳定传播过程中用于深度特征提取的信息流,从而保证SISR模型原理信息瓶颈。

  • 通过将密集连接集成到Swin Transformer的SISR模型中,所提出的DRCT在保持效率的同时实现了最先进的性能。

3 方法

在这里插入图片描述

DRCT包括3个不同的组成部分:浅层特征提取、深层特征提取和图像重建模块。

对于低分辨率输入 I L R ∈ R H × W × C i n I_{LR}∈R^{H×W×C_{in}} ILRRH×W×Cin,先使用 3×3 的卷积层 C o n v ( ⋅ ) Conv(·) Conv() 来提取渐层特征 F 0 ∈ R H × W × C F_0∈R^{H×W×C} F0RH×W×C
在这里插入图片描述

然后从 F 0 F_0 F0 中提取包含高频空间信息的深度特征 F D F ∈ R H × W × C F_{DF}∈R^{H×W×C} FDFRH×W×C
在这里插入图片描述

其中 H D F ( ⋅ ) H_{DF} ( · ) HDF() 是深度特征提取模块,包含 K K K 个残差深度特征提取组( RDG )和用于特征转换的单卷积层 C o n v ( ⋅ ) Conv ( · ) Conv()。具体来说,中间特征 F 1 , F 2 , . . . , F K F_1,F_2,...,F_K F1F2...FK 和输出的深度特征 F D F F_{DF} FDF 是逐块提取的:
在这里插入图片描述

最后通过聚合浅层和深层特征来重建SR图像 I S R ∈ R H × W × C i n I_{SR}∈R^{H×W×C_{in}} ISRRH×W×Cin
在这里插入图片描述

其中 H r e c ( ⋅ ) H_{rec} ( · ) Hrec() 是重构的函数,用于融合高频深度特征 F D F F_{DF} FDF 和低频特征 F 0 F_0 F0 以获得SR结果。

4 模块

4.1 问题描述

根据信息瓶颈原理,给定的数据 X X X 在经过连续层时可能会造成信息丢失。当反向传播用于拟合网络参数和预测 Y Y Y 时,可能会导致梯度消失,如下面的方程所示:
在这里插入图片描述

其中 I I I 表示互信息, f f f g g g 是变换函数, θ \theta θ ϕ \phi ϕ 分别是 f f f g g g 的参数。

在深度神经网络中 f θ ( ⋅ ) f_\theta(·) fθ() g ϕ ( ⋅ ) g_\phi(·) gϕ() 分别表示神经网络中连续的两层。从式(1)出发,随着网络层数变深,信息流将更容易丢失。在SISR任务中,总体目标是寻找具有最优参数 θ \theta θ 的映射函数 F F F,以最大化HR和SR之间的互信息:
在这里插入图片描述

一般来说,SISR方法一般可以分为三个部分:( 1 )浅层特征提取,( 2 )深层特征提取,( 3 )图像重建。在这些方法中,浅层特征提取和图像重建几乎没有区别。前者由简单的卷积层组成,后者由卷积层和上采样层组成。深度特征提取差异较大。然而,它们的共同点在于都是由各种残差块组成,可以简单地定义为:
在这里插入图片描述

其中, X X X 表示输入, f f f 为第 l l l 个残差组的连续层, θ θ θ 表示 f l f_l fl 的参数。

针对SISR任务,有两种稳定信息流或训练过程的方法:

  • 残差连接学习局部特征。采用残差连接降低了训练的难度,防止梯度在局部消失,然而根据作者观察,这种设计在有效传递不同残差块之间的空间信息的同时,仍然可能存在信息损失。这最终导致特征图强度的非平滑性,在向前传播过程中造成最深层的信息瓶颈,如图2。需要更复杂的网络设计来实现更好的性能。

  • 密集连接稳定信息流。在基于SwinTransformer的SISR模型中引入密集连接有两个显著的优点。第一,全局辅助监督。它有效地融合了不同残差组之间的空间信息,在深层特征提取过程中保留了高频特征。第二,将SISR模型从信息瓶颈中解救出来,该模型通过对空间信息的整合,保证了空间信息的平滑传输,从而减少了信息损失,增强了感受野。

图2进行了特征可视化,从上倒下依次是SwinIR,HAT和本文提出的DRCT,位置越靠右表示网络中更深的层次。对于SwinIR和HAT,特征图的强度在浅层显著,向网络末端减弱。所提出的DRCT学习到的特征图逐渐稳定的增强。
在这里插入图片描述

最近基于SwinIR的方法的研究主要集中在通过复杂的WSA来扩大感受野或增强网络对高质量超分辨率的图像特征提取能力。所提出的DRCT通过在Swin Transformer块中添加密集连接来进行深度特征提取,在捕获长距离依赖的同时增强了感受野。因此这种方法可以使用简单的模型架构,甚至使用更浅层的网络来获得出色的性能。

4.2 深度特征提取模块

作者借鉴RRDB-Net和RDN,采用密集残差块作为SISR的基本单元,特征图的重用在RDG的前馈机制中随着感受野的增强而出现。进一步说,RDG结合多个SDRCB增强了跨不同尺度信息的整合能力,从而允许更全面的特征提取。

ESRGAN中的RRDB块:
在这里插入图片描述

为了捕获长距离依赖关系,作者利用Swin Transformer Layer(STL)的移动窗口机制获得自适应感受野,通过关注多级空间信息对RRDB-Net进行补充。这种协同作用利用STL根据输入的全局内容来动态调整模型的侧重点,从而更针对性和更高效地提取特征。这种机制保证了即使网络深度的增加,全局细节也会被保存下来。对于RDG内输入的特征图 Z Z Z,SDRCB可以定义为:
在这里插入图片描述
在这里插入图片描述

其中 [ ⋅ ] [·] [] 表示由前几层产生的多级特征图的级联。 H t r a n s ( ⋅ ) H_{trans}(·) Htrans() 是指带有LeakyReLU的激活函数的卷积层用于特征转换。LeakyReLU的负斜率设置为0.2,卷积层核大小为1×1,用于自适应的融合不同级别的特征, α \alpha α 为残差缩放因子,设置为0.2。

4.3 同任务渐进式训练策略

渐进式训练策略PTS可以看做是一种微调的方法,与传统的训练方法相比,PTS倾向于将模型参数收敛到更理想的局部极小值。HTA中引入了同任务预训练,其目的是在像ImageNet这样的大型数据集上训练,然后在特定的数据集上进行微调。还有方法提出先用L1 Loss训练一个SISR网络,然后用L2 Loss消除伪影,在PSNR指标上取得了更好的效果。

作者将上述方法结合,提出了 同任务渐进式训练策略。首先在ImageNet上预训练DRCT来初始化模型参数,然后在特定的数据集上用L1损失进行微调:
在这里插入图片描述

最后使用L2损失来消除奇异像素和伪影:
在这里插入图片描述

5 效果

5.1 和SOTA方法对比

和SOTA方法在各个测试集上的指标对比。
在这里插入图片描述

和SOTA方法的可视化效果对比。
在这里插入图片描述

和SOTA方法的LAM可视化对比。
在这里插入图片描述

和SOTA方法的参数量对比。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/465679.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一周内从0到1开发一款 AR眼镜 相机应用?

目录 1. 📂 前言 2. 💠 任务拆分 2.1 产品需求拆分 2.2 开发工作拆分 3. 🔱 开发实现 3.1 代码目录截图 3.2 app 模块 3.3 middleware 模块 3.4 portal 模块 4. ⚛️ 拍照与录像 4.1 前滑后滑统一处理 4.2 初始化 View 以及 Came…

【论文精读】LPT: Long-tailed prompt tuning for image classification

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀论文精读_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 摘要 2. …

《重学Java设计模式》之 建造者模式

建造者模式所完成的内容就是通过将多个简单对象通过一步步的组装构建出一个复杂对象的过程 模拟装修公司对于设计出一些套餐装修服务的场景。 很多装修公司都会给出自家的套餐服务,一般有;豪华、轻奢、简约等,这些套餐的后面是不同的商品的…

Android Framework AMS(12)广播组件分析-3(广播发送流程解读)

该系列文章总纲链接:专题总纲目录 Android Framework 总纲 本章关键点总结 & 说明: 说明:本章节主要解读广播组件的广播发送过程。关注思维导图中左上侧部分即可。 有了前面广播组件 注册和注销程分析的基础,基于此&#xff…

MongoDB笔记02-MongoDB基本常用命令

文章目录 一、前言二、数据库操作2.1 选择和创建数据库2.2 数据库的删除 3 集合操作3.1 集合的显式创建3.2 集合的隐式创建3.3 集合的删除 四、文档基本CRUD4.1 文档的插入4.1.1 单个文档插入4.1.2 批量插入 4.2 文档的基本查询4.2.1 查询所有4.2.2 投影查询(Projec…

MySQL基础-单表查询

语法 select [distinct] 列名1,列名2 as 别名... from数据表名 where组前筛选 group by分组字段 having组后筛选 order by排序的列 [asc | desc] limit 起始索引,数据条数 测试数据 # 建测试表 create table products (id int primary key a…

【pycharm jupyter】远程开发 启动报错

报错信息 upyter server process exited with code 1 ServerApp] A _jupyter_server_extension_points function was not found in jupyter_lsp. Instead, a _jupyter_server_extension_paths function was found and will be used for now. This function name will be depre…

CPU Study - Instructions Fetch

参考来源:《超标量处理器设计》—— 姚永斌 N-Way CPU 取指问题 如果CPU可以在每个周期内同时解码N条指令,则此类CPU为N-Way超标量处理器。 N-Way超标量处理器需要每个周期从I-Cache中至少取得N条指令,这N条指令成为一组Fetch Group。 为了…

掌握 PyQt5:从零开始的桌面应用开发

PyQT5——图形化界面 文章目录 PyQT5——图形化界面集成化图形界面工具为什么使用 \$ProjectFileDir$?示例场景其他 Varaiablespyuic参数解释整体含义示例使用PyQt5和pyuic 创建pyqt5的程序创建一个窗口app.exec\_()和sys.exit(app.exec_())的区别1. app.exec_()2. sys.exit(a…

论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution

论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution 1 背景2 创新点3 方法4 模块4.1 以往SR模型的刚性4.2 图构建4.2.1 度灵活性4.2.2 像素节点灵活性4.2.3 空间灵活性 4.3 图聚合4.4 多尺度图聚合模块MGB4.5 图聚合层GAL 5 效果5.1 和SOTA…

PMP–一、二、三模、冲刺–分类–7.成本管理–技巧–挣值分析

文章目录 技巧一模7.成本管理--4.控制成本--数据分析--挣值分析--进度绩效指数(SPI)是测量进度效率的一种指标,表示为挣值与计划价值之比,反映了项目团队完成工作的效率。 当 SPI小于 1.0 时,说明已完成的工作量未达到…

保姆级教程!!教你通过【Pycharm远程】连接服务器运行项目代码

小罗碎碎念 这篇文章主要解决一个问题——我有服务器,但是不知道怎么拿来写代码,跑深度学习项目。确实,玩深度学习的成本比较高,无论是前期的学习成本,还是你需要具备的硬件成本,都是拦路虎。小罗没有办法…

成绩管理系统软件体系结构设计

成绩管理系统软件体系结构设计 文档简介 1.1 目的 1.2 范围 1.3 定义、首字母缩写词和缩略语 1.4参考资料 1.5 概述体系结构表示方式软件体系结构的目标和约束 3.1 结构清晰 3.2 支持外包开发 3.3 可扩展性 3.4 系统安全性 3.5 可移植性 4体系结构模式逻辑视图进程视图…

单臂路由实现不同VLAN之间设备通信

转载请注明出处 本实验为单臂路由配置,目的为让不同VLAN之间的设备能够互相通信。 1.首先,按照要求配置两个pc的ip地址,以pc0为例子: 2在交换机创建vlan10和vlan20 3.划分vlan,pc0为vlan10的设备,pc1为vla…

机器学习(三)——决策树(附核心思想、重要算法、概念(信息熵、基尼指数、剪枝处理)及Python源码)

目录 关于1 基本流程2 划分属性的选择2.1 方法一:依据信息增益选择2.2 方法二:依据增益率选择2.3 方法三:依据基尼指数选择 3 剪枝处理:防止过拟合3.1 预剪枝3.2 后剪枝 4 连续与缺失值4.1 连续值处理4.2 缺失值处理 5 多变量决策…

Ubuntu和Debian系列的Release默认shell解释器变更

Debian 12 Bookworm 和 Ubuntu 24.04 中默认的 shell 解释器已经由 bash 变更为了 dash 。 这个变化对于我们直接在 CLI 上执行 Linux command 无影响,但对于执行shell解释性程序有影响,已知 bash 中的 变量正规表达式 (如 ${GIT_COMMIT:0:8…

ReLU6替换ReLU为什么可以增强硬件效率?

ReLU6(Rectified Linear Unit 6)是ReLU的一种变体,它在ReLU的基础上增加了一个上限值6,即输出范围被限制在[0, 6]之间。 这种变化在硬件实现中可以带来以下几个方面的效率提升: 1. 数据表示的简化 ReLU的输出范围是[…

vscode在windows和linux如何使用cmake构建项目并make生成可执行文件,两者有什么区别

vscode在windows和linux如何使用cmake构建项目并make生成可执行文件,两者有什么区别 windows默认使用的是最新的visual studio,而linux默认就是cmake 文章目录 vscode在windows和linux如何使用cmake构建项目并make生成可执行文件,两者有什么…

Spirngboot集成Knife4j spirngboot版本2.7.17 Knife4j版本4.0.0

Knife4j是什么?有什么作用? ‌Knife4j‌是一个基于Swagger的Java RESTful API文档工具,旨在帮助开发者轻松生成和维护API文档。它继承并增强了Swagger的功能,简化了使用流程,并提供了一系列增强功能,如接口…

ROS2humble版本使用colcon构建包

colcon与与catkin相比,没有 devel 目录。 创建工作空间 首先,创建一个目录 ( ros2_example_ws ) 来包含我们的工作区: mkdir -p ~/ros2_example_ws/src cd ~/ros2_example_ws 此时,工作区包含一个空目录 src : . └── src1 directory, …