论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution

论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution

  • 1 背景
  • 2 创新点
  • 3 方法
  • 4 模块
    • 4.1 以往SR模型的刚性
    • 4.2 图构建
      • 4.2.1 度灵活性
      • 4.2.2 像素节点灵活性
      • 4.2.3 空间灵活性
    • 4.3 图聚合
    • 4.4 多尺度图聚合模块MGB
    • 4.5 图聚合层GAL
  • 5 效果
    • 5.1 和SOTA方法比较
    • 5.2 消融实验

论文:https://openaccess.thecvf.com//content/CVPR2024/papers/IPG

代码:https://github.com/huawei-noah/Efficient-Computing/tree/master/LowLevel/IPG

1 背景

在这里插入图片描述

人们理所当然的认为主流SR模型以相当严格的方式对待所有像素。如图1。

  • 在基于CNN的SR模型VDSR的卷积层中,同一个卷积核扫描特征图的所有像素,即每个特征被严格制定与他的最近邻进行通信;

  • 在基于Transformer的模型SwinIR中,所有像素被分配到大小相同的注意力网格中进行自注意力操作。

这两个例子中,每个像素都聚集了固定大小的领域内的固定数量的像素信息。

在SR任务中,只有小比例的高频像素需要付出艰苦的重建努力;大部分像元位于平坦的低频区域,因此几乎完好无损。为了应对这种不平衡,SR方法在理想情况下,应该更多关注细节丰富的区域,而更少的关注平坦,细节匮乏的图像部分。然而,现有的基于k近邻图的方法将所有图像节点同等对待。也就是说所有节点共享相同的预设度k,没有考虑SR的不平衡性。事实上,当从图的角度考察SR中的典型操作范式时,作者发现度等价刚性也表现在卷积和窗口注意力中:在这些范式中,图像上的每个像素聚集了相同数量的像素,而不管图像内容如何,因此,在图术语中共享"等度"。严格分配给节点或像素的相等节点度与SR中不相等的重建需求不匹配,从而影响SR性能。

2 创新点

本文提出了基于图的图像处理神经网络 IPG,以挖掘图的灵活性潜力。

  • 为了打破卷积,窗口注意力和K近邻图的度等价刚性,利用度的灵活性,基于SR的非平衡性提出了一种新的度变图解决方案。具体来说,设计了一个细节感知度量来衡量图像节点的重要性,其中较大的度被分配给高频节点。

  • 与基于图的模型不同,IPG采用像素而非块作为图像的图节点,避免了块刚性导致错位问题。

  • 为了不因为像素级搜索空间大而牺牲效率的同时又获取局部和全局感知,作者采用局部和全局节点采样策略。可以有效地从小像素子集建立图,即可以专注于细节重建的局部信息,也可以横跨整个图像,以获得空间上遥远但至关重要的特征。

3 方法

在这里插入图片描述

IPG的总体架构遵循主流的SR模型,如图3所示。当一个LR图像输入到模型中时,它首先被传递到 c o n v conv conv 层来提取浅层特征。然后将特征通过一系列多尺度图聚合块MGB,借助灵活的图进行有效的深度特征提取。每个MGB由一系列图聚合层GAL堆叠组成,GAL在局部和全局尺度进行图聚合。最后通过 p i x e l s h u f f l e pixelshuffle pixelshuffle 上采样队图像进行空间重构。

4 模块

4.1 以往SR模型的刚性

卷积和窗口注意力是SR模型设计的两个主要途径。在一次卷积操作中,每个输出的像素聚集了一个小窗口内的信息,每个像素只能访问他的领域像素,例如标准的3×3卷积中,单个像素的感受野被限制在一个3×3的窗口中,图像上的所有像素从各自的8邻域和他自己那里手机信息。窗口注意力也有类似的刚性,虽然通常采用较大的窗口(相比于卷积),但窗口注意的感知域仍然局限在窗口边界内。在8×8的窗口注意力中,所有像素聚集在其所属窗口内的64个像素。

除了卷积和窗口注意力的刚性外,一些工作在SR模型中考虑了窗口之外的方案,并采用了图。与卷积和窗口注意力不同的是,这些基于图的工作在空间上更灵活,每个节点可以从具有宽松空间约束的最适合的 topk 个节点中聚合信息,这个意义上,图聚合不局限于预设的刚性模式,相比于卷积和窗口注意力机制,它更具有动态性和可扩展性。

然而,尽管先前的基于图的方法突破了硬聚合边界,但作者认为图的灵活性在SR任务中没有得到充分的利用:

  • 首先,如图1所示,以前的方法的度刚性的。SR重建需求在不同图像的不同部分之间应该是不平衡的。但是在以前的方法中,图像上的所有像素或节点都是聚合相同数量的像素或节点,也就是说,在图论中,他们具有相同的集合度。

  • 其次,以往基于图的工作都是基于块(patch)的,虽然块通常被视为图像节点,但块的聚合通常要进行严格的像素级对其。低级特征在图像块中可能出现的错位情况使得SR模型的性能变差。

  • 第三,先前的基于图的工作严格的使用全局或局部尺度上的图,但这两种尺度的信息对SR重建都具有潜在的重要性。

4.2 图构建

为了打破这些刚性,作者在IPG模型中构建了局部和全局尺度上的度柔性像素图。通过这种方式,可以挖掘图的灵活性,并在SR任务中取得优异的性能。

4.2.1 度灵活性

首先基于SR任务特有的非均衡性,作者尝试提出一种度灵活的图解决方案。SR是一个长尾问题,其中只有一小部分高频像素需要重建,图像的其余部分只需要极小的恢复。先前的工作试图通过设计损失来解决这个问题,而不是从模型设计的角度来考虑。在不平衡SR问题中,将图像上的所有像素或部分像素等效的处理是不合适和低效的。

这个观点出自论文CVPR2023论文《Rethinking Image Super Resolution From Long-Tailed Distribution Learning Perspective》,提出的损失函数可以用于其他超分论文的改进,如下:
在这里插入图片描述

  1. 结构先验( f B I f_{BI} fBI 为bicubic差值):
    在这里插入图片描述
  2. 可学习的结构先验( f f f 为超分网络):
    在这里插入图片描述
  3. 损失如下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    α , γ \alpha,\gamma α,γ 是超参,为了灵活控制 W ( z ) W(z) W(z)

为此,作者选择基于一个细节丰富度指标为像素分配不同的节点度,该指标标志着需要付出多少努力去重建当前像素。指标设计规则如下:给定特征图 F ∈ R H × W × C F∈R^{H×W×C} FRH×W×C 和下采样比例 s s s,所有像素的细节丰富度度量 D F ∈ R H × W D_F∈R^{H×W} DFRH×W 为双线性下采样再上采样特征图和特征图本身之间的绝对差值:
在这里插入图片描述

其中 s s s 取2,以避免严重的信息丢失。虽然已经有一些可解释的SR工作提出了度量指标来衡量输出中某一部分的重要性,但这些措施是基于梯度的,需要花费高昂的后向过程。相比而言提出的 D F D_F DF 是廉价的,因为它只要两次双线性差值。

基于 D F D_F DF 为每个像素分配整体的度预算。特征图上的像素节点 v ∈ F v∈F vF 的度与他在 D F D_F DF 处的像素值成正比:
在这里插入图片描述

不同MGB块中的细节丰富度 D F D_F DF 可视化后如图2所示,细节丰富的部分具有响应性,边缘和角点具有较高的 D F D_F DF,而平坦色块的 D F D_F DF 较低,可以看出 D F D_F DF 反映的是图像中的高频部分。

直接通过sobel算子求边缘获得 D F D_F DF 感觉也可以。而且 D F D_F DF 可以在原图上只求一次,然后插值到各个低分辨率上,因为高频部分是不会变的。

在这里插入图片描述

4.2.2 像素节点灵活性

确定完每个像素点的度后,还面临着如何图中顶点的表述问题。在之前的基于图的视觉工作中,图节点通常被设置为图像块,在图集合过程中,图像块以逐像素的方式进行加权求和,然而在聚合过程中,对块进行强制的像素级对齐并不适用于特征图具有丰富低级特征的SR任务。对象在低级图像块内的偏移和旋转是造成块错位的两个主要问题,对于对象的偏移,在块中的位置可能会发生变化,位置不对齐的块对象可能会引入噪声。对象旋转是块聚合的另一个错误方面。

为了避免节点聚合过程的上述问题,作者认为在低级视觉任务中更细粒度的像素节点是更好地解决方案。每个像素节点可以直接在聚合中找到相关的像素,避免错误问题。

但是必须承认的是,与像素图相比,图像块具有更大的感知域,并且由于总节点数量少更容易构建,这意味着边链接的搜索空间较小。因此需要构建一种灵活有效的像素图。

4.2.3 空间灵活性

作者通过在局部和全局上有效地搜索像素节点连接来开发IPG图的空间灵活性,这对SR重建至关重要,虽然有损图像部分可以从局部领域重建自己,但他们也可以从遥远的相似特征中学习以进行细化。

通过搜索全部图像节点来构建全局图的代价较高,作为一种补救措施,通常采用跨步抽样法。选择像素作为图的节点使得图的构建更加具有挑战,因为节点空间被进一步扩大,并且很难通过搜索所有像素来构建图。

为了提高效率,并在SR任务重收集有助于细节重建的局部级别的周围特征和全局级别的远程特征,作者使用两种采样方式来聚合局部和全局信息,如图4所示。局部采样关注于像素点周围的领域,围绕某个节点选择一个局部尺度的搜索空间;对于全局采样,采样的节点以扩张的模式覆盖在图像上。
在这里插入图片描述

总结:

  • 图的节点:图像的像素而非块

  • 图的每个节点的出度:正比于细节丰富度指标

  • 图的每个节点搜索空间:当前节点的局部邻域采样像素点和全局扩张采样像素点

基于上述准则构建图。代码中是将丰富度指标归一化后乘上一个topk来确定每个节点的出度,见 https://github.com/huawei-noah/Efficient-Computing/blob/master/LowLevel/IPG/basicsr/archs/IPG_arch.py#L731:

maskarray = (X_diff/X_diff.sum(dim=-1,keepdim=True)) * D.size(1) * self.top_k

最终通过 Bool 图来确定邻接关系:

 graph = (D > MAT[..., 0:1]).unsqueeze(1) # add head dim

最终的搜索空间是领域中有邻接关系的节点集合。

4.3 图聚合

在构建了灵活的图以后,使用图聚合将每个节点和与其相连的节点进行通信,并利用他们的信息在SR中进行自细化。在图的视觉应用中,最大池化或边缘条件的聚合形式最受欢迎。本文倾向于采用边缘条件聚合,因为最大池化会导致至关重要的近邻像素信息的显著丢失。由于SR中的像素重建严重依赖于丰富的领域信息,边缘条件聚合被采用,因为它关注像素之间的相互关系,并保持更多的领域信息以及进行有效的重建。

边缘条件聚合概念如下,在IPG的第 k k k 层,给定节点特征 h k − 1 h^{k-1} hk1 ,邻域中有邻接关系的节点集合 N ( v ) N(v) N(v) ,计算节点 v v v 的输出 h v k h_v^k hvk
在这里插入图片描述

其中 f k : R d × R d → R f^k: R^d×R^d→R fk:Rd×RdR 是一个衡量节点对 ( u , v ) (u,v) (u,v) 之间相关性的参数化函数,本文采用余弦相似度, C k : = ∑ u ∈ N ( v ) e x p ( f k ( u , v ) ) C^k := \sum_{u∈N(v)}exp(f^k(u,v)) Ck:=uN(v)exp(fk(u,v)) 是一个归一化常数。

为了避免所有节点被同等对待,作者在聚合前对节点特征添加了相对位置编码,以增强位置信息。

4.4 多尺度图聚合模块MGB

多尺度图聚集模块( MGB )同时收集局部和全局尺度信息,用于有效的图像SR重建。每个模块的局部像素图和全局像素图都是根据当前模块输入计算的。分模块计算可以使整个模型中的图进行有规律的更新。其中局部采样和全局采样分别用于局部或全局图的构建。然后将两种类型的图(局部/全局)分布到整个模块的GAL中进行聚合操作。局部和全局图以顺序交替的方式分布,以确保局部和全局尺度的信息都得到充分的聚合。

4.5 图聚合层GAL

图集合层GAL包含Grapher模块,CA模块(通道注意力),ConvFFN模块和两个LayerNorm层。Grapher基于当前图的类型收集局部或全局的信息。接着紧跟高效的通道注意力模块,ConvFFN和LayerNorm。

CA模块出自论文《Activating more pixels in image superresolution transformer》,如下图:
在这里插入图片描述
ConvFFN出自论文《SRformer: Permuted selfattention for single image super-resolution》,即在 FFN 块的两个线性层之间添加一个局部深度可分离卷积分支来辅助编码更多细节。

5 效果

5.1 和SOTA方法比较

和SOTA方法的计算量对比。
在这里插入图片描述

和SOTA方法的指标对比。
在这里插入图片描述

和SOTA方法的可视化效果对比。
在这里插入图片描述

和轻量级SOTA方法的指标对比。
在这里插入图片描述

5.2 消融实验

使用图像块还是像素作为图的节点的消融实验。
在这里插入图片描述
在这里插入图片描述

使用KNN和度自由图的消融实验。
在这里插入图片描述

可视化细节丰富和细节少节点所关联的节点。
在这里插入图片描述

像素局部采样和全局采样的消融实验。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/465660.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PMP–一、二、三模、冲刺–分类–7.成本管理–技巧–挣值分析

文章目录 技巧一模7.成本管理--4.控制成本--数据分析--挣值分析--进度绩效指数(SPI)是测量进度效率的一种指标,表示为挣值与计划价值之比,反映了项目团队完成工作的效率。 当 SPI小于 1.0 时,说明已完成的工作量未达到…

保姆级教程!!教你通过【Pycharm远程】连接服务器运行项目代码

小罗碎碎念 这篇文章主要解决一个问题——我有服务器,但是不知道怎么拿来写代码,跑深度学习项目。确实,玩深度学习的成本比较高,无论是前期的学习成本,还是你需要具备的硬件成本,都是拦路虎。小罗没有办法…

成绩管理系统软件体系结构设计

成绩管理系统软件体系结构设计 文档简介 1.1 目的 1.2 范围 1.3 定义、首字母缩写词和缩略语 1.4参考资料 1.5 概述体系结构表示方式软件体系结构的目标和约束 3.1 结构清晰 3.2 支持外包开发 3.3 可扩展性 3.4 系统安全性 3.5 可移植性 4体系结构模式逻辑视图进程视图…

单臂路由实现不同VLAN之间设备通信

转载请注明出处 本实验为单臂路由配置,目的为让不同VLAN之间的设备能够互相通信。 1.首先,按照要求配置两个pc的ip地址,以pc0为例子: 2在交换机创建vlan10和vlan20 3.划分vlan,pc0为vlan10的设备,pc1为vla…

机器学习(三)——决策树(附核心思想、重要算法、概念(信息熵、基尼指数、剪枝处理)及Python源码)

目录 关于1 基本流程2 划分属性的选择2.1 方法一:依据信息增益选择2.2 方法二:依据增益率选择2.3 方法三:依据基尼指数选择 3 剪枝处理:防止过拟合3.1 预剪枝3.2 后剪枝 4 连续与缺失值4.1 连续值处理4.2 缺失值处理 5 多变量决策…

Ubuntu和Debian系列的Release默认shell解释器变更

Debian 12 Bookworm 和 Ubuntu 24.04 中默认的 shell 解释器已经由 bash 变更为了 dash 。 这个变化对于我们直接在 CLI 上执行 Linux command 无影响,但对于执行shell解释性程序有影响,已知 bash 中的 变量正规表达式 (如 ${GIT_COMMIT:0:8…

ReLU6替换ReLU为什么可以增强硬件效率?

ReLU6(Rectified Linear Unit 6)是ReLU的一种变体,它在ReLU的基础上增加了一个上限值6,即输出范围被限制在[0, 6]之间。 这种变化在硬件实现中可以带来以下几个方面的效率提升: 1. 数据表示的简化 ReLU的输出范围是[…

vscode在windows和linux如何使用cmake构建项目并make生成可执行文件,两者有什么区别

vscode在windows和linux如何使用cmake构建项目并make生成可执行文件,两者有什么区别 windows默认使用的是最新的visual studio,而linux默认就是cmake 文章目录 vscode在windows和linux如何使用cmake构建项目并make生成可执行文件,两者有什么…

Spirngboot集成Knife4j spirngboot版本2.7.17 Knife4j版本4.0.0

Knife4j是什么?有什么作用? ‌Knife4j‌是一个基于Swagger的Java RESTful API文档工具,旨在帮助开发者轻松生成和维护API文档。它继承并增强了Swagger的功能,简化了使用流程,并提供了一系列增强功能,如接口…

ROS2humble版本使用colcon构建包

colcon与与catkin相比,没有 devel 目录。 创建工作空间 首先,创建一个目录 ( ros2_example_ws ) 来包含我们的工作区: mkdir -p ~/ros2_example_ws/src cd ~/ros2_example_ws 此时,工作区包含一个空目录 src : . └── src1 directory, …

GY-56 (VL53L0X) 激光测距

文章目录 一、GY-56 简介二、引脚功能三、通信协议1.串口协议: 当 GY-56 PS 焊点开放时候使用(默认)(1)串口通信参数(默认波特率值 9600bps)(2)模块输出格式,每帧包含 8-13 个字节&a…

C语言 | Leetcode C语言题解之第541题反转字符串II

题目&#xff1a; 题解&#xff1a; void swap(char* a, char* b) {char tmp *a;*a *b, *b tmp; }void reverse(char* l, char* r) {while (l < r) {swap(l, --r);} }int min(int a, int b) {return a < b ? a : b; }char* reverseStr(char* s, int k) {int n strl…

提升网站安全性 HTTPS的重要性与应用指南

内容概要 在如今数字化快速发展的时代&#xff0c;网站安全显得尤为重要。许多用户在访问网站时&#xff0c;尤其是涉及个人信息或金融交易时&#xff0c;对数据传输的安全性有着高度的关注。HTTPS&#xff08;超文本传输安全协议&#xff09;正是为了满足这种需求而诞生的。通…

Transformer究竟是什么?预训练又指什么?BERT

目录 Transformer究竟是什么? 预训练又指什么? BERT的影响力 Transformer究竟是什么? Transformer是一种基于自注意力机制(Self-Attention Mechanism)的神经网络架构,它最初是为解决机器翻译等序列到序列(Seq2Seq)任务而设计的。与传统的循环神经网络(RNN)或卷…

OpenDroneMap Webodm

OpenDroneMap & Webodm OpenDroneMap Webodm 开源无人机航拍系列图像及其它系列图像三维重建软件。很棒的开源无人机测绘软件OpenDroneMap,从航拍图像生成精确的地图、高程模型、3D 模型和点云。 应用领域 Mapping & Surveying 测绘和测量 从图像测量获得高精度的可…

Java+Swing可视化图像处理软件

JavaSwing可视化图像处理软件 一、系统介绍二、功能展示1.图片裁剪2.图片缩放3.图片旋转4.图像灰度处理5.图像变形6.图像扭曲7.图像移动 三、系统实现1.ImageProcessing.java 四、其它1.其他系统实现2.获取源码 一、系统介绍 该系统实现了图片裁剪、缩放、旋转、图像灰度处理、…

迈入国际舞台,AORO M8防爆手机获国际IECEx、欧盟ATEX防爆认证

近日&#xff0c;深圳市遨游通讯设备有限公司&#xff08;以下简称“遨游通讯”&#xff09;旗下5G防爆手机——AORO M8&#xff0c;通过了CSA集团的严格测试和评估&#xff0c;荣获国际IECEx及欧盟ATEX防爆认证证书。2024年11月5日&#xff0c;CSA集团和遨游通讯双方领导在遨游…

string模拟实现插入+删除

个人主页&#xff1a;Jason_from_China-CSDN博客 所属栏目&#xff1a;C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目&#xff1a;C知识点的补充_Jason_from_China的博客-CSDN博客 string模拟实现reserve 这里实现的是扩容 扩容这里是可以实现缩容&#xff0c;可以实现…

如何实现KIS私有云数据到聚水潭的高效集成

KIS私有云数据集成到聚水潭&#xff1a;KIS-供应商——>空操作案例分享 在企业信息化建设中&#xff0c;数据的高效流动和准确对接是提升业务效率的关键。本文将重点介绍如何通过轻易云数据集成平台&#xff0c;将KIS私有云中的供应商数据无缝集成到聚水潭系统&#xff0c;…

GESP4级考试语法知识(算法概论(三))

爱因斯坦的阶梯代码&#xff1a; //算法1-12 #include<iostream> using namespace std; int main() {int n1; //n为所设的阶梯数while(!((n%21)&&(n%32)&&(n%54)&&(n%65)&&(n%70)))n; //判别是否满足一组同余式cout<<n<…