《使用通道 Transformer 进行多尺度特征融合,引导热图像超分辨率》学习笔记

paper:Multi-Scale Feature Fusion using Channel Transformers for Guided Thermal Image Super Resolution

目录

摘要

1、介绍

2、相关工作

2.1 可见光图像超分辨率与恢复

2.2 热成像超分辨率

2.3 引导式热成像超分辨率

3、方法

3.1 网络架构(Network Architecture)

3.1.1 浅特征提取器(Shallow Feature Extractor)

3.1.2 融合块(Fusion Block)

3.1.3 Channel Transformer 

3.1.4 重建块(Reconstruction Block)

3.2 损失函数(Loss Function)

3.2.1 L1损失(L1 Loss)

3.2.2 SSIM损失(SSIM Loss)

3.2.3 感知损失(Perceptual Loss)

3.2.4 最终损失函数(Final Loss Function)

4、实验

4.1 数据集

4.2 实验设置

4.3 验证数据集上的定量结果

4.4 测试数据集上的定量结果

4.5 验证数据集上的定性结果


 

摘要

热成像利用红外光谱,在低光照、遮挡和恶劣天气等具有挑战性的环境条件下,提供了一个与可见光谱(VIS)成像互补的强大选择。然而,由于其较低的空间分辨率,热成像在计算机视觉任务中的广泛应用受到了限制。为了解决这一问题,本文提出了一种名为 基于通道变换器的多尺度特征融合框架(MSFFCT) 的新方法,用于引导热图像超分辨率(Guided Thermal Image Super-Resolution, GTISR)。

GTISR 旨在解决热成像分辨率受限的问题。它通过利用高分辨率 RGB 图像作为指导,从低分辨率的热图像输入中重建出高分辨率的热图像。MSFFCT 的核心是一个新颖的深度学习架构,该架构结合了 通道变换器多尺度融合 两种强大的方法。

MSFFCT 克服了通常用于超分辨率任务的卷积神经网络(CNN)固有的局限性。CNN 往往受到有限感受野的限制,难以捕获图像中的长距离依赖关系。此外,随着输入尺寸增大,CNN 的计算成本会显著增加。MSFFCT 通过高效处理全局信息并提供优越的可扩展性,解决了这些问题。MSFFCT 在 2024 年 超越可见光感知挑战赛(PBVS) 的 ×8 和 ×16 GTISR 任务中取得了最先进的性能,分别获得了第二名,并证明了其在实际场景中的有效性。

1、介绍

计算机视觉已成为包括自动驾驶、机器人、医学成像和安全系统在内的多种应用中的关键技术。在这一技术革命的前沿,是 RGB 摄像头,它们能够捕捉可见光谱中的丰富视觉信息。然而,RGB 摄像头依赖照明条件,这带来了根本性的限制。在低光环境下,图像清晰度会显著降低,而遮挡(物体阻挡视野)和恶劣天气(如雨、雾)会进一步妨碍准确的图像分析。例如,在低光或恶劣天气条件下,图像模糊的细节可能导致自动驾驶车辆中物体识别的错误。

为了克服这些限制并扩展计算机视觉的应用范围,研究人员探索了替代成像方式。虽然近红外或深度摄像头等主动传感器解决了部分限制,被动传感器也有独特优势。热红外成像作为一种多功能的成像方式,通过捕获物体发出的中长波辐射(热量)而脱颖而出。这种独特特性使得热摄像头能够在完全黑暗中“看见”,穿透烟雾或雾霾等遮挡物,并检测 RGB 摄像头不可见的热信号特征。即使是最先进的计算机视觉算法,在面对天气变化、阴影和背景干扰的非约束环境下进行物体识别时仍会遇到困难。而热传感器利用稳健的热信号,在这些具有挑战性的真实场景中实现了准确感知。

热成像的优势促进了其在农业、自动驾驶、医学成像、军事应用、行人检测和监控系统等领域的广泛应用。然而,尽管热成像有诸多优势,其面临的一个关键挑战是:热传感器的分辨率通常低于 RGB 摄像头。这一限制可能妨碍对图像中重要细节的识别,从而影响精确图像解析的能力。虽然高分辨率热传感器已经问世,但其成本通常在 200 到 20,000 美元之间,显著限制了其广泛应用。因此,超分辨率(Super-Resolution, SR) 作为一种计算机视觉技术,针对解决热图像分辨率限制的问题,展现了巨大的潜力。

超分辨率(SR) 旨在增强图像的空间分辨率,从低分辨率输入生成高分辨率版本。近年来,深度学习的崛起使卷积神经网络(CNN)成为许多超分辨率方法的核心。Dong 等人 首次将 CNN 引入超分辨率领域,为一系列成功的 CNN 基于 SR 方法铺平了道路。随后,研究人员开始专门探索基于 CNN 的热图像超分辨率方法。然而,CNN 存在固有的局限性,尤其是其有限的感受野,难以捕获图像中的长距离依赖关系。此外,随着输入尺寸的增大,其计算复杂性显著增加。

GTISR(引导热图像超分辨率) 中,高分辨率的 RGB 图像作为低分辨率热图像的指导信息。通过结合 RGB 图像中丰富的细节信息,GTISR 能够学习到高分辨率热图像重建所需的精细纹理和边缘。尽管最近的一些 CNN 方法已经在 GTISR 上取得了进展 ,但 CNN 的局限性促使我们探索变换器(Transformer)的应用。这种强大的深度学习架构在自然语言处理(NLP)任务中取得了最先进的性能,并正逐步被适配用于图像恢复 和超分辨率任务。变换器通过提供更大的感受野和改进的计算效率,克服了 CNN 的限制,尤其在处理大规模输入时表现出色。

我们设计了一种高效的基于通道的 Transformer(Channel-based Transformer),其灵感来自 MST++ 。该方法利用通道自注意力机制学习图像通道之间的特征依赖关系。我们提出的新框架 MSFFCT(基于通道变换器的多尺度特征融合框架),在 2024 年 超越可见光感知挑战赛(PBVS)×8×16 GTISR 任务 中均取得了最先进的结果,分别获得第二名,展示了其在实际场景中的有效性。

2、相关工作

2.1 可见光图像超分辨率与恢复

深度学习的兴起,特别是卷积神经网络(CNN)的应用,彻底变革了图像恢复与超分辨率领域。Dong 等人提出的超分辨率卷积神经网络(SRCNN)模型开创性地展示了CNN学习低分辨率(LR)与高分辨率(HR)图像复杂映射关系的能力,显著超越了传统方法。

后续研究致力于改进CNN架构:

  • 网络深度增强:例如 VDSR 。
  • 残差连接引入:例如 EDSR。

这些方法显著提升了SR性能。然而,CNN的感受野受限,难以捕获图像中的长距离依赖关系,这成为其内在局限性。

受自然语言处理(NLP)领域成功经验的启发,Transformer 开始在计算机视觉任务中崭露头角。Dosovitskiy 等提出的视觉变换器(ViT)首次展示了其在图像分类任务中的有效性。随后,变换器被逐步应用于图像恢复任务,包括去噪、去模糊和超分辨率。例如:

  • Image Processing Transformer (IPT):基于ViT方法。
  • U-FormerRestormer:分别采用窗口注意力机制和通道注意力机制。
  • SwinIR:基于Swin Transformer架构,采用窗口平移注意力机制进行图像超分辨率。

 《SwinIR:使用Swin-Transformer图像恢复》学习笔记-CSDN博客

2.2 热成像超分辨率

深度学习模型在SR领域的成功激励了研究者探索其在热成像增强中的应用。受SRCNN模型的启发,Choi等人提出了热成像增强(TEN)网络,用于热成像SR。然而,由于缺乏大规模热成像数据集,他们选择使用RGB图像进行训练。Rivadeneria等人提出了使用深度卷积层结合残差和密集连接的热成像SR网络,并探索了基于CycleGAN的热成像SR模型(图像生成模型)。Chudasama等人提出了TherISURNet,这是一种基于残差块的渐进放大策略,并在2020年PBVS CVPR挑战赛中表现出色。

Priya等人提出了一种多级架构,结合残差块用于热成像SR,采用多级监督、特征拼接以及受启发的注意力块。他们的研究强调了在重建过程中聚焦相关特征的重要性。在此基础上,Nathan等人提出了多尺度、多监督架构,利用Res2Net作为主干网络,替代传统残差块以提升性能。Prajapati等人提出了ChasNet网络,包含通道分割块、残差块以及具有密集连接的卷积层,旨在保留对热成像保真度至关重要的高频细节。

2.3 引导式热成像超分辨率

尽管热成像SR取得了进展,GTISR提出了一系列新的挑战。早期GTISR工作利用生成对抗网络(GAN)指导SR过程。Almasri等人提出了一个GAN模型,其中从RGB图像提取的特征指导热成像超分辨率。为了解决特征空间中的不对齐问题,Gupta等人 提出了非对齐引导式热成像SR方法。他们的模型包括两个部分:一个用于减少特征空间的不对齐,另一个用于估计热成像与指导图像之间的不对齐映射。这项研究强调了处理对齐问题对有效GTISR的重要性。

在2023年PBVS挑战赛中获胜的GTISR解决方案,将RGB图像和低分辨率热成像通过浅层特征提取阶段提取的特征拼接,随后通过多个NAF块处理,这些块构成了网络的核心部分。Kasliwal等人提出了一种编码器-解码器架构,分别编码低分辨率热成像和高分辨率RGB图像,通过最大操作合并这些编码特征后,输入解码器以学习高分辨率热成像。此外,他们引入了一种对比损失函数作为正则化项。Suarez等人提出了一个新颖的方法,通过CycleGAN架构创建一个合成热成像,这个合成热成像用于指导低分辨率热成像的SR过程。他们的研究探索了生成模型在GTISR任务中提供有效指导信息的潜力。

3、方法

3.1 网络架构(Network Architecture)

MSFFCT(Multi-Scale Feature Fusion with Channel-wise Transformer)架构如图所示

输入:高分辨率RGB图像 I_{\text{rgb}} \in \mathbb{R}^{H \times W \times 3}和低分辨率热图像I_{\text{lr,th}} \in \mathbb{R}^{h \times w \times 1}

其中,高分辨率RGB图像I_{\text{rgb}}的分辨率是低分辨率热图像 I_{\text{lr,th}}的 8\times16\times。为了处理这种分辨率差异,MSFFCT首先对低分辨率热图像I_{\text{lr,th}}应用双三次插值(bicubic upsampling)。

这样生成了与高分辨率RGB图像I_{\text{rgb}}具有相同分辨率的上采样热图像I_{\text{up,th}}。接着,将高分辨率RGB图像 I_{\text{rgb}} 和上采样热图像 I_{\text{up,th}} 拼接(concatenate),记为I_{\text{cat}}

公式为:

I_{\text{up,th}} = \text{bicubic}(I_{\text{lr,th}}), \quad I_{\text{cat}} = \text{concat}(I_{\text{rgb}}, I_{\text{up,th}})

接着,将拼接后的图像 I_{\text{cat}} 通过像素重排(pixel unshuffling)进行下采样,比例为 2× 和 4×。下采样的目的是减少计算复杂度,同时在数据中捕获多尺度特征。下采样后的图像分别记为 I_{\text{2,dn}} 和 I_{\text{4,dn}},其形状为:

I_{\text{2,dn}} \in \mathbb{R}^{H/2 \times W/2 \times 16}, \quad I_{\text{4,dn}} \in \mathbb{R}^{H/4 \times W/4 \times 64}

这些下采样图像I_{\text{2,dn}} 和  I_{\text{4,dn}} 会被送入核心网络。核心网络受到 TSFNet 的启发,包含三个主要组件:浅特征提取器(shallow feature extractor)、融合块(fusion block)和重建块(reconstruction block)。

3.1.1 浅特征提取器(Shallow Feature Extractor)

I_{\text{2,dn}} 和I_{\text{4,dn}}​ 中提取多尺度特征,使用了双流(two-stream)架构I_{\text{2,dn}} 输入到一个流,I_{\text{4,dn}}输入到另一个流。每个流中均使用两层 3×3 的可变形卷积(deformable convolution)进行处理,中间插入了 PReLU(Parametric ReLU)激活层。

双流架构(Two-Stream Architecture)是一种常见的深度学习模型设计方法,尤其在处理多模态数据(例如图像和视频)或需要多尺度特征的场景中应用广泛。其核心思想是通过两条独立的分支(流)对输入数据的不同部分进行特征提取,然后将这些特征融合,以实现更精细的特征学习和表达。

这两条并行流程统称为浅特征提取器。

公式如下:

F_{2\times} = H_{\text{DC,2}}(I_{\text{2,dn}}), \quad F_{4\times} = H_{\text{DC,4}}(I_{\text{4,dn}})

其中,H_{\text{DC,2}} 和 H_{\text{DC,4}} 分别表示对 I_{\text{2,dn}}  和 I_{\text{4,dn}} 的并行浅特征提取流程。F_{2\times} \in \mathbb{R}^{H/2 \times W/2 \times C_{\text{out}}}F_{4\times} \in \mathbb{R}^{H/4 \times W/4 \times C_{\text{out}}} 分别表示经过可变形卷积处理后的 2×和 4× 下采样特征,其中 C_{\text{out}}​ 是卷积层的通道数。

浅特征提取器选择可变形卷积的原因是其能够处理 RGB 和热图像特征在拼接后可能存在的对齐误差,这些误差可能由于传感器的差异或目标姿态的变化引起。

3.1.2 融合块(Fusion Block)

在我们提出的网络架构中,另一个关键组件是由 N 个融合块(Fusion Block)组成的模块序列。每个融合块包含三个核心部分:两个并行残差块(Residual Block)一个反卷积(Transposed Convolution)一个通道注意力变换器(Channel-Wise Transformer)

第一个融合块的输入是来自浅层特征提取器的输出特征 F_{2\times}​ 和 F_{4\times}。这些特征分别被送入两个并行的残差块。

每个残差块都包含一个高效的通道注意力机制(Channel Attention)。通道注意力通过全局加权机制为不同的特征通道分配重要性,允许模型专注于对重建至关重要的关键特征。Chen 等人的研究表明,通道注意力在Transformer模型中能够实现优越的视觉表示。通过在残差块中利用这一策略,我们希望提升 MSFFCT 的特征提取能力。

公式如下:

F_{2\times} = H_{\text{Res2}}(F_{2\times}), \quad F_{4\times} = H_{\text{Res4}}(F_{4\times})

其中H_{\text{Res2}}H_{\text{Res4}}表示具有增强通道注意力机制的残差块。

接着,4×下采样的特征 F_{4\times}​ 被输入一个反卷积操作进行上采样,以匹配 2×下采样特征F_{2\times}的空间分辨率:

F_{4\times}^{\text{up}} = H_{\text{tconv}}(F_{4\times})

其中,H_{\text{tconv}} 表示反卷积操作。此时,上采样特征F_{4\times}^{\text{up}}的分辨率已经与 F_{2\times}​ 对齐。

然后,将F_{4\times}^{\text{up}}F_{2\times} 拼接(Concatenate):

F_{2\times} = \text{concat}(F_{2\times}, F_{4\times}^{\text{up}})

拼接后的特征将被传递给通道注意力Transformer(Channel-Wise Transformer)以进一步处理。

3.1.3 Channel Transformer 

设计灵感: 通道 Transformer 的设计灵感来源于中提出的基于通道的多头自注意力机制。在基于 Transformer 的模型中,自注意力通常是在 token 上进行计算的。值得注意的是,诸如 Vision Transformer (ViT)的模型采用全局注意力机制,将特征图中的每个像素都视为一个 token。对于特征图F \in \mathbb{R}^{H \times W \times C},全局自注意力的时间复杂度为 O(H^2W^2C)

相比之下,其他基于 Transformer 的架构(如 UFormer和 SwinIR )采用窗口或滑动窗口的自注意力方法来生成 token。这些模型并不将每个像素视为一个 token,而是将特征图划分为不重叠的 M \times M 窗口,其中窗口内的每个像素都被视为一个 token。这种方法将时间复杂度从 O(H^2W^2C)降低到 O(M^2HWC)

在本研究中,我们采取了一种不同的方法,将特征图中的每个通道视为一个 token,在通道维度上计算自注意力,从而避免了与空间维度相关的复杂性。这种方法在计算效率上表现出优势,因为它专注于特征图的通道而非空间维度,将全局自注意力的时间复杂度从O(H^2W^2C)降低到 O(HWC^2)

通道级自注意力机制的优势,时间复杂度的降低。

尽管基于窗口的自注意力在某些情况下可以达到与通道自注意力相当的效率,甚至更高,但其感受野受到窗口大小的限制,而通道自注意力的感受野可以涵盖整个空间维度

更高效的全局信息建模:通道维度上的自注意力能够捕捉各个通道之间的关系,避免了传统方法中感受野的限制(如窗口的大小)。

输入与处理流程: 通道 Transformer 的输入来自多尺度网络的 2× 下采样分支。

输入特征为F_{2x} \in \mathbb{R}^{H/2 \times W/2 \times 2C},其中 C 表示 2× 分支的特征通道数。首先,将特征 F_{2x}​ 展平为 X \in \mathbb{R}^{HW/4 \times 2C}。接着,使用三个全连接层将 X 投影为查询Q 、键 K 和值V,其中 Q, K, V \in \mathbb{R}^{HW/4 \times C}

Q = XW_Q, \quad K = XW_K, \quad V = XW_V

其中 W_Q, W_K, W_V表示全连接层的权重参数,是可学习的。

接下来,将键 K 转置为K^\top,与查询 Q相乘以获得注意力矩阵 A。注意力矩阵的大小为 A \in \mathbb{R}^{C \times C}

A = \text{softmax}(\sigma \cdot K^\top \cdot Q)

其中,σ 是一个可学习参数,用于学习注意力图中每个通道的权重。

随后,自注意力通过以下公式计算:

SA = V \cdot A

多头自注意力机制: 为了计算多头自注意力,每个通道被划分为 k 个头,并行学习 k 个自注意力图。这些自注意力图经过全连接层进行线性投影,并加入位置嵌入作为残差:

X_{\text{out}} = W \cdot (SA) + \text{PE}(V)

其中,W 是全连接层的权重,PE 是位置嵌入。位置嵌入通过两个 3×3 深度卷积层实现,中间有 GELU 激活函数。最终输出的特征图维度为X_{\text{out}} \in \mathbb{R}^{H/2 \times W/2 \times C}

在融合模块中的应用: 通道 Transformer 的输出将与残差块输出一起作为输入,传递到后续的 N−1个融合块中。在第 N 个融合块中,通道 Transformer 的输出将与 F_{2x} 进行拼接

残差链接,有助于融合通道 Transformer 提取到的全局信息原始特征信息,进一步提升重建质量。

具体公式如下:

X_{\text{out}, i} = H_{\text{fusion}, i }(X_{\text{out}, i-1}), \quad i = 2, \dots, N

X_{\text{out}, N} = X_{\text{out}, N} + F_{2x}

其中,H_{\text{fusion}, i} 表示第 i个融合块,X_{\text{out}, i-1} ​ 表示第 i−1层融合块的输出。

3.1.4 重建块(Reconstruction Block)

输出X_{out,N}将通过卷积操作并通过像素洗牌(Pixel Shuffling)进行 2 倍上采样。通过从原始的双三次上采样图像中获取残差,将学习重建高分辨率的热图像 I_{rth}

I_{rth} = H_{Rec}(X_{out}) + I_{upth}

其中,H_{Rec}代表卷积层和 2 倍像素洗牌操作,I_{upth} 表示通过双三次插值获得的热图像上采样。

3.2 损失函数(Loss Function)

3.2.1 L1损失(L1 Loss)

L1损失度量了真实图像和预测图像之间的绝对差异。在GTISR中,真实图像是给定的高分辨率热图像I_{hrth} ​,预测图像是重建的高分辨率热图像I_{rhrth}​。L1损失定义如下:

L1 = \frac{1}{n} \sum_{i=1}^{n} |I_{rhrth_i} - I_{hrth_i}|

其中,I_{rhrth_i} 和 I_{hrth_i} 分别是第 i 个像素的预测图像和真实图像的值。

这个损失函数计算了两幅图像在每个像素位置上的差异,并取其绝对值,通常用于图像重建任务中。

3.2.2 SSIM损失(SSIM Loss)

结构相似性指数(SSIM) 衡量了两幅图像之间的结构相似度,返回一个介于 -1 和 1 之间的值。1 表示两幅图像完全相同,0 表示没有相似性,-1 表示两幅图像是完全的反转图像。SSIM损失是根据给定的高分辨率热图像  I_{hrth} 和重建的高分辨率热图像I_{rhrth}​ 计算的。SSIM损失定义如下:

L_{SSIM} = 1 - SSIM(I_{hrth_i}, I_{rhrth_i})

该损失函数通过计算两幅图像的结构相似性来评估它们的差异。较小的SSIM损失值表明两幅图像在结构上有更多的相似性。

3.2.3 感知损失(Perceptual Loss)

感知损失衡量了两幅图像的视觉相似度,主要用于基于GAN(生成对抗网络)的模型中。我们通过计算给定的高分辨率热图像  I_{hrth} 和重建的高分辨率热图像I_{rhrth}​ 在不同层次的VGG特征图之间的平均绝对误差来计算感知损失。感知损失定义如下:

L_{perceptual} = \frac{1}{N} \sum_{i=1}^{N} \| \Phi_i(I_{hrth}) - \Phi_i(I_{rhrth}) \|_2

其中,\Phi_i(.) 表示给定图像在第 i 层VGG特征图。

通过计算不同层次特征图的差异,感知损失帮助评估两幅图像在高层语义上的差异,而不仅仅是在像素级别上的差异。

3.2.4 最终损失函数(Final Loss Function)

我们的最终损失函数是L1损失、SSIM损失和感知损失的加权平均:

L_{final} = \alpha \cdot L1 + \beta \cdot L_{SSIM} + \gamma \cdot L_{perceptual}

α、β 和 γ是加权系数,用于控制每个损失项对最终损失的影响程度。

通过这种加权组合,可以平衡不同类型的损失,从而优化模型的性能,使其在图像的重建质量、结构相似性和视觉感知方面取得较好的效果。

4、实验

4.1 数据集

我们评估了MSFFCT在PBVS 24 GTISR数据集上的性能。该数据集包括×8和×16下采样的低分辨率热图像,并且与同一场景的高分辨率RGB图像配对,适用于GTISR任务。数据集包含700张用于训练,100张用于验证,以及40张用于测试的图像。由于地面真实标签未公开,我们仅在验证数据集上报告结果。

4.2 实验设置

在训练过程中,我们随机裁剪了低分辨率热图像,裁剪尺寸分别为32×32(用于×8 GTISR任务)或16×16(用于×16 GTISR任务)。我们将模型训练了100个epoch,批量大小为8,使用Adam优化器及默认参数,并设定初始学习率为1e-4。学习率通过余弦退火调度器逐渐降低至1e-6。我们采用了翻转和mixup数据增强方法,其中mixup增强作为训练过程中的正则化手段。

我们在融合块的大小为48时取得了最优性能。我们使用了64个特征通道,适用于2×和4×特征分支。损失函数的权重α为7,β为1,γ为0.15。我们使用PSNR和SSIM评估MSFFCT的性能,以便与PBVS 24 GTISR任务中排名提交的指标一致。

MSFFCT在PyTorch中实现,并使用2块NVIDIA RTX A6000 GPU进行了超过2天的训练。

4.3 验证数据集上的定量结果

我们全面评估了MSFFCT与几种最先进方法的性能,包括Restromer、基于注意力的分层多模态融合(AHMF)和PBVS 23 GTISR挑战赛获胜方法(基于NAFNet)。Restromer采用基于通道的自注意力机制进行图像恢复,AHMF是一个用于引导深度超分辨率任务的先进解决方案。值得注意的是,为了使Restromer模型适用于GTISR任务,我们实现了一个预处理步骤,通过对应的RGB图像对热图像进行上采样。然后将这些特征连接起来并作为输入送入网络。

如表1所示,MSFFCT在PSNR和SSIM值上超过了几种最先进的方法。在×8 GTISR任务上,MSFFCT比去年获胜的NAFNet提高了0.26 dB。在×16 GTISR任务上,这一改进更加明显,达到了0.4 dB。与Restromer相比,MSFFCT在×8 GTISR上获得了0.70 dB的PSNR增益,在×16 GTISR上为0.51 dB。值得注意的是,MSFFCT在实现优越性能的同时,所需的训练参数数量显著低于NAFNet。

表2展示了融合块大小的影响。我们实验了16、24、32和48的融合块大小,最佳性能是在融合块大小为48时取得的。融合块大小为32时,在×8和×16 GTISR任务上超越了基于NAFNet的模型,且训练参数数量显著更少,尽管运算量稍多。我们还观察到,融合块大小为16和24时,在参数数量和运算量较少的情况下,超越了Restromer。

4.4 测试数据集上的定量结果

表3展示了×8和×16比例因子的GTISR任务在测试数据集上的结果。我们在测试过程中采用了自集成学习方法,包括水平和垂直翻转测试图像,然后对预测结果进行平均。这一学习策略使得×8任务的PSNR提高了0.36 dB,×16任务提高了0.25 dB。我们进一步通过模型集成学习提高了性能。该策略涉及从多个模型中取预测的加权平均。模型集成学习包括:MSFFCT、去除可变卷积的MSFFCT,以及PBVS 23 GTISR挑战赛获胜模型。这种集成学习使得×8任务的PSNR提高了0.37 dB。为了进一步提高测试数据集上的结果,我们结合了模型集成和自集成学习。这一方法使得×8任务的PSNR较提出的方法提高了0.49 dB。在测试数据集上,模型在×8和×16 GTISR任务上的PSNR分别为30.05 dB和25.67 dB,最终在PBVS 24 GTISR任务中获得第二名。

4.5 验证数据集上的定性结果

图展示了×8 GTISR任务中各种重建方法在验证数据集上的预测热图像与地面真实图像之间的绝对差异图。第一列显示了地面真实热图像,后续列展示了与真实图像的绝对差异图。在这些差异图中,较深的蓝色区域表示更好的重建保真度,说明预测图像与真实图像之间的绝对差异较小。

基于定性对比,MSFFCT表现出比其他重建方法更为优越的性能。特别是,它超越了NAFNet和Restromer,这两个模型在架构中都使用了通道注意力机制。Restromer还具有通道级自注意力。这一观察表明,所提出的方法建立了更有效的特征空间关联,从而实现了更优的重建质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9672.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7. 马科维茨资产组合模型+金融研报AI长文本智能体(Qwen-Long)增强方案(理论+Python实战)

目录 0. 承前1. 深度金融研报准备2. 核心AI函数代码讲解2.1 函数概述2.2 输入参数2.3 主要流程2.4 异常处理2.5 清理工作2.7 get_ai_weights函数汇总 3. 汇总代码4. 反思4.1 不足之处4.2 提升思路 5. 启后 0. 承前 本篇博文是对前两篇文章,链接: 5. 马科维茨资产组…

推动知识共享的在线知识库实施与优化指南

内容概要 在当今迅速发展的数字化时代,在线知识库的实施显得尤为重要。它不仅为企业提供了高效的信息存储与共享平台,还能够有效促进团队成员之间的协作与知识传递。通过集中管理企业内的各类知识资源,在线知识库帮助员工快速查找所需信息&a…

51单片机开发:串口通信

实验目标:电脑通过串口将数据发送给51单片机,单片机原封不动地将数据通过串口返送给电脑。 串口的内部结构如下图所示: 串口配置如下: TMOD | 0X20 ; //设置计数器工作方式 2 SCON 0X50 ; //设置为工作方式 1 PCON 0X80 ; …

【电工基础】2.低压带电作业定义,范围,工作要求,电工基本工具

一。低压带电作业 1.低压带电作业定义 低压带电作业是指在不停电的低压设备或低压线路上的工作。对于一些可以不停电的工作,没有偶然触及带电部分的危险工作,或作业人员使用绝缘辅助安全用具直接接触带电体及在带电设备外壳上的工作,均可进行…

C++ 中用于控制输出格式的操纵符——setw 、setfill、setprecision、fixed

目录 四种操纵符简要介绍 setprecision基本用法 setfill的基本用法 fixed的基本用法 setw基本用法 以下是一些常见的用法和示例: 1. 设置字段宽度和填充字符 2. 设置字段宽度和对齐方式 3. 设置字段宽度和精度 4. 设置字段宽度和填充字符,结合…

MYSQL 商城系统设计 商品数据表的设计 商品 商品类别 商品选项卡 多表查询

介绍 在开发商品模块时,通常使用分表的方式进行查询以及关联。在通过表连接的方式进行查询。每个商品都有不同的分类,每个不同分类下面都有商品规格可以选择,每个商品分类对应商品规格都有自己的价格和库存。在实际的开发中应该给这些表进行…

2025春晚刘谦魔术揭秘魔术过程

2025春晚刘谦魔术揭秘魔术过程 首先来看全过程 将杯子,筷子,勺子以任意顺序摆成一排 1.筷子和左边物体交换位置 2.杯子和右边物体交换位置 3.勺子和左边物体交换位置 最终魔术的结果是右手出现了杯子 这个就是一个简单的分类讨论的问题。 今年的魔术…

具身智能研究报告

参考: (1)GTC大会&Figure:“具身智能”奇点已至 (2)2024中国具身智能创投报告 (3)2024年具身智能产业发展研究报告 (4)具身智能行业深度:发展…

将ollama迁移到其他盘(eg:F盘)

文章目录 1.迁移ollama的安装目录2.修改环境变量3.验证 背景:在windows操作系统中进行操作 相关阅读 :本地部署deepseek模型步骤 1.迁移ollama的安装目录 因为ollama默认安装在C盘,所以只能安装好之后再进行手动迁移位置。 # 1.迁移Ollama可…

VPR概述、资源

SOTA网站: Visual Place Recognition | Papers With Code VPR(Visual Place Recognition) 是计算机视觉领域的一项关键任务,旨在通过图像匹配和分析来识别场景或位置。它的目标是根据视觉信息判断某个场景是否与数据库中的场景匹…

(Java版本)基于JAVA的网络通讯系统设计与实现-毕业设计

源码 论文 下载地址: ​​​​c​​​​​​c基于JAVA的网络通讯系统设计与实现(源码系统论文)https://download.csdn.net/download/weixin_39682092/90299782https://download.csdn.net/download/weixin_39682092/90299782 第1章 绪论 1.1 课题选择的…

MySQL中的读锁与写锁:概念与作用深度剖析

MySQL中的读锁与写锁:概念与作用深度剖析 在MySQL数据库的并发控制机制中,读锁和写锁起着至关重要的作用。它们是确保数据在多用户环境下能够正确、安全地被访问和修改的关键工具。 一、读锁(共享锁)概念 读锁,也称为…

用HTML、CSS和JavaScript实现庆祝2025蛇年大吉(附源码)

用HTML、CSS和JavaScript庆祝2025蛇年大吉 在这个数字化时代,网页设计不仅仅是为了展示信息,更是传达情感和文化的一种方式。2025年将是蛇年,许多人希望通过各种方式庆祝这一重要的时刻。在这篇文章中,我们将一起学习如何使用HTM…

STM32标准库移植RT-Thread nano

STM32标准库移植RT-Thread Nano 哔哩哔哩教程链接:STM32F1标准库移植RT_Thread Nano 移植前的准备 stm32标准库的裸机代码(最好带有点灯和串口)RT-Thread Nano Pack自己的开发板 移植前的说明 本人是在读学生,正在学习阶段&a…

Unity 粒子特效在UI中使用裁剪效果

1.使用Sprite Mask 首先建立一个粒子特效在UI中显示 新建一个在场景下新建一个空物体,添加Sprite Mask组件,将其的Layer设置为UI相机渲染的UI层, 并将其添加到Canvas子物体中,调整好大小,并选择合适的Sprite&#xff…

JVM栈溢出线上环境排查

#查看当前Linux系统进程ID、线程ID、CPU占用率(-eo后面跟想要展示的列) ps H -eo pid,tid,%cpups H -eo pid,tid,%cpu |grep tid #使用java jstack 查看进程id下所有线程id的情况 jstack pid 案例2 通过jstack 排查死锁问题 #启动java代码 jstack 进…

【Linux权限】—— 于虚拟殿堂,轻拨密钥启华章

欢迎来到ZyyOvO的博客✨,一个关于探索技术的角落,记录学习的点滴📖,分享实用的技巧🛠️,偶尔还有一些奇思妙想💡 本文由ZyyOvO原创✍️,感谢支持❤️!请尊重原创&#x1…

(2)SpringBoot自动装配原理简介

SpringBoot自动装配 这里写目录标题 SpringBoot自动装配启动器主程序自定义扫描包SpringBootApplicationSpringBootConfigurationEnableAutoConfigurationAutoConfigurationPackageImport({AutoConfigurationImportSelector.class})选择器AutoConfigurationEntrygetCandidateCo…

计算机网络 (60)蜂窝移动通信网

一、定义与原理 蜂窝移动通信网是指将一个服务区分为若干蜂窝状相邻小区并采用频率空间复用技术的移动通信网。其原理在于,将移动通信服务区划分成许多以正六边形为基本几何图形的覆盖区域,称为蜂窝小区。每个小区设置一个基站,负责本小区内移…

17.Word:李楠-学术期刊❗【29】

目录 题目​ NO1.2.3.4.5 NO6.7.8 NO9.10.11 NO12.13.14.15 NO16 题目 NO1.2.3.4.5 另存为手动/F12Fn光标来到开头位置处→插入→封面→选择花丝→根据样例图片,对应位置填入对应文字 (手动调整即可)复制样式:开始→样式对话框→管理…