30、论文阅读:基于小波的傅里叶信息交互与频率扩散调整的水下图像恢复

Wavelet-based Fourier Information Interaction with Frequency Diffusion Adjustment for Underwater Image Restoration

  • 摘要
  • 介绍
  • 相关工作
    • 水下图像增强
    • 扩散模型
  • 论文方法
    • 整体架构
    • 离散小波变换与傅里叶变换
    • 频率初步增强
      • Wide Transformer Block
      • Spatial-Frequency Fusion Block
      • 损失函数
    • Cross-Frequency Conditioner
  • Frequency Diffusion Adjustment

摘要

水下图像受到复杂多样的退化,不可避免地影响水下视觉任务的有效性。然而,大多数方法主要是在图像的原始像素空间中运行,这限制了对水下图像频率特性的探索,导致深度模型在产生高质量图像时没有充分利用其表征能力。在本文中,我们介绍了一种新的水下图像增强(UIE)框架,命名为WF-Diff,旨在充分利用频域信息和扩散模型的特性WF-Diff由两个可分离的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调整模块(FR-DAM)。通过对频域信息的充分探索,WFI2-net旨在初步实现小波空间中频率信息的增强。我们提出的FRDAM可以进一步细化初始增强图像的高频和低频信息,可以将其视为一个即插即用的通用模块,用于调整水下图像的细节。通过上述技术,我们的算法可以在真实的水下图像数据集上显示SOTA性能,并在视觉质量上达到具有竞争力的性能。代码可https://github.com/zhihefang/WF-Diff上获得。

介绍

水下图像修复是水下视觉领域中的一项实际而具有挑战性的技术,广泛应用于水下机器人[26]和水下物体追踪[6]等任务。由于水下场景中的光线折射、吸收和散射,水下图像通常受到严重的失真,表现为低对比度和模糊[2]。因此,清晰的水下图像在需要与水下环境互动的领域中起着至关重要的作用。水下图像增强(UIE)的主要目标是通过去除散射和校正退化图像中的颜色失真,从而获得高质量的图像。UIE对于与视觉相关的水下任务至关重要。

为了应对这一问题,基于水下图像物理特性的传统UIE方法被提出[15, 17, 29–31]。这些方法研究了由颜色偏差或散射引起的退化的物理机制,并通过补偿这些因素来增强水下图像。然而,这些基于物理学的模型由于表征能力有限,无法处理水下场景中所有复杂的物理和光学因素,从而导致在高度复杂和多样的水下场景中增强效果较差。近年来,一些基于学习的方法[7, 18, 28, 36]因其神经网络强大的特征表示和非线性映射能力,能够产生更好的结果。这些方法可以通过大量的配对训练数据学习图像从退化到清晰的映射。然而,大多数之前的方法都是基于图像的原始像素空间,未能充分探索水下图像在频率空间中的特性,这导致无法有效地利用深度模型的表示能力来生成高质量的图像。

在这里插入图片描述
【图1. 我们的动机。幅度和相位是通过快速傅里叶变换(FFT)得到的,重新组合的图像是通过逆傅里叶变换(IFFT)获得的。我们进一步探索了水下图像在小波空间中的频率特性。】

基于之前傅里叶方法的启示[12, 48],我们探索了傅里叶频率信息在UIE任务中的特性,如图1所示。给定两张图像(一个水下图像及其对应的地面真值图像),我们交换它们的幅度分量并将其与对应的相位分量在傅里叶空间中结合。重新组合的结果表明,视觉效果随着幅度交换而发生变化,这表明水下图像的退化信息主要包含在幅度分量中。我们进一步探索了幅度分量在小波空间中的特性。具体来说,图像可以通过离散小波变换(DWT)分解为低频子图像和高频子图像,然后我们交换低频子图像的幅度分量。从视觉结果来看,我们发现了类似的现象,这意味着颜色退化信息主要包含在低频子图像中,而纹理和细节退化信息主要包含在高频子图像中。表1展示了不同频域策略的定量评估,证明了我们的发现是客观的。因此,如何充分利用频域信息的特性,并将其有效地融入到一个统一的图像增强网络中,是一个关键问题。

近年来,基于扩散的方法[10, 35]因其在图像合成[23, 24, 32, 34, 52]和修复任务[5, 40, 46, 51]中的优异表现而受到广泛关注。这些方法依赖于分层去噪自编码器架构,使得它们能够迭代地逆转扩散过程,从随机采样的高斯噪声生成目标图像或潜在分布,并实现高质量的映射[10]。Tang等人[36]提出了一种用于水下场景的扩散模型图像增强方法。尽管标准扩散模型表现出足够的能力,但由于从随机生成的高斯噪声到图像的采样过程中引入的多样性,可能会出现一些预料之外的伪影[45]。此外,扩散模型需要同时恢复图像的高频和低频信息,这限制了它们对细粒度信息的关注,导致错过了纹理和细节。因此,充分利用扩散模型强大的表示能力变得尤为关键。

在本文中,我们开发了一种新的水下图像增强(UIE)框架,充分利用频域信息和扩散模型的特性,命名为 WF-Diff,该框架主要由两个阶段组成:频率初步增强和频率扩散调整第一个阶段旨在利用频域特性,初步增强水下图像的高频和低频分量。具体来说,我们首先通过离散小波变换(DWT)将输入图像转换到小波空间,得到一个代表输入图像低频内容信息的平均系数,以及三个代表输入图像稀疏的垂直、水平和对角线细节的高频系数。然后,我们设计了一个基于小波的傅里叶信息交互网络(WFI2-net),充分融合了Transformer [22] 和傅里叶先验信息的特性,分别增强高频和低频内容此外,为了实现高频和低频信息的交互,我们提出了一个跨频条件器(CFC),进一步提高生成质量第二阶段的目标是通过扩散模型对初步增强的粗略结果在细节和纹理上进行调整因此,我们提出了一个频率残差扩散调整模块(FRDAM)与之前的基于扩散的工作不同,FRDAM通过在小波空间中使用两个扩散模型,学习地面真值和初步增强结果之间的高频和低频信息残差分布,既能增强模型对细粒度信息的关注,又能减轻采样过程中多样性带来的不良影响。

总之,我们方法的主要贡献如下:

  • 我们深入探索了水下图像在频域中的特性。基于这些特性和扩散模型,我们提出了一个新的UIE框架——WF-Diff,旨在实现频率增强和扩散调整。
  • 我们提出了一个频率残差扩散调整模块(FRDAM),进一步优化初步增强图像的高频和低频信息。FRDAM可以视为一个即插即用的通用模块,用于调整水下图像的细节。
  • 我们提出了一个跨频条件器(CFC),以实现高频和低频信息的跨频交互。
  • 与现有的最先进方法(SOTA)相比,实验结果显著表明,我们提出的WF-Diff在性能上优于之前的UIE方法,并且通过广泛的消融实验验证了我们贡献的有效性。

相关工作

水下图像增强

目前,现有的水下图像去雾(UID)方法可以简要地分为物理模型和深度模型两种方法[15, 18, 28–30, 36]。大多数基于物理模型的UID方法利用先验知识来建立模型,如水下暗通道先验[29]、衰减曲线先验[38]、模糊先验[4]等。此外,Akkaynak和Treibitz[1]提出了一种基于修订物理成像模型的方法。然而,水下场景的深度图难以获取,这导致了不稳定的性能,通常受到严重的颜色偏差和伪影的影响。因此,手动建立的先验模型限制了模型在复杂多变的环境下的鲁棒性和可扩展性。

近年来,基于深度学习的方法[18, 28, 36]已取得了较为可接受的性能。为了缓解对真实水下配对训练数据的需求,许多方法引入了基于GAN的框架进行水下图像增强(UIE)[7, 14, 21, 49],例如WaterGAN [21]、UGAN [7]和UIE-DAL [37]。最近,一些复杂的框架被提出并取得了最先进的性能[15, 29]。例如,Ucolor[19]结合了水下物理成像模型,并设计了一个中介传输引导模型。Yang等人[43]提出了一种反射光感知的多尺度渐进修复网络,用于在各种水下场景中获得颜色均衡和丰富纹理的图像。Huang等人[13]提出了一种基于均值教师的半监督网络,能够有效地利用未标注数据中的知识。然而,大多数之前的方法都是基于空间域,未能充分探索水下图像的频率空间,这导致无法有效地利用深度模型的表示能力。

扩散模型

最近,扩散概率模型(DPMs)[10, 35]已广泛应用于条件图像生成[5, 40, 42, 46, 50]。Saharia等人[33]提出了Palette,展示了扩散模型在条件图像生成领域(包括上色、图像修补和JPEG修复)中的优异性能。Tang等人[36]提出了一种基于扩散模型的水下图像增强方法。然而,扩散模型的反向过程从随机采样的高斯噪声开始,生成完整的图像[45],由于采样过程的多样性,这可能导致意外的伪影。此外,扩散模型需要恢复图像中的高频和低频信息,这限制了其在关注细粒度信息方面的能力。因此,如何将扩散模型融入一个统一的水下图像增强网络是一个至关重要的问题。

论文方法

在这里插入图片描述

整体架构

给定一张水下图像作为输入,我们的目标是学习一个网络,生成一个输出,去除输入图像的颜色偏差,同时增强图像的细节。WF-Diff的整体框架如图2所示。WF-Diff旨在充分利用频域信息的特性和扩散模型的强大能力。具体来说,WF-Diff由两个可拆卸的网络组成:基于小波的傅里叶信息交互网络(WFI2-net)和频率残差扩散调整模块(FRDAM)。我们首先通过离散小波变换(DWT)将输入图像转换到小波空间,得到一个低频系数和三个高频系数WFI2-net致力于实现频率信息的初步增强。我们充分整合Transformer和傅里叶先验信息的特性,设计了宽Transformer块(WTB)和空间-频率融合块(SFFB),分别增强高频和低频内容。FRDAM由低频扩散分支(LDFB)和高频扩散分支(HDFB)组成,旨在进一步调整初步增强图像的高频和低频信息。需要注意的是,我们提出的FRDAM通过使用两个扩散模型分别学习地面真值和初步增强结果之间的高频和低频信息的残差分布。此外,所提出的跨频条件器(CFC)旨在实现高频和低频信息之间的跨频交互

离散小波变换与傅里叶变换

离散小波变换(DWT)已广泛应用于低层视觉任务[11, 16]。我们首先使用DWT将输入图像分解为多个频率子带,以便分别实现低频信息的颜色校正和高频信息的细节增强。给定一张水下图像作为输入在这里插入图片描述
,我们使用Haar小波对输入进行分解。Haar小波由低通滤波器 L 和高通滤波器 H 组成,如下所示:
在这里插入图片描述
我们可以获得四个子带,其可以表示为:
在这里插入图片描述
其中,在这里插入图片描述
分别表示输入图像的低频分量和垂直、水平、对角方向的高频分量。更具体地说,低频分量包含了输入图像的内容和颜色信息,而其他三个高频系数则包含了全局结构和纹理的细节信息[31]。这些子带的分辨率是输入图像的一半,但由于DWT的双正交性质,它们不会导致信息丢失对于低频分量 ILL,我们将在傅里叶空间中进一步探讨其特性

接着,我们引入傅里叶变换的操作[48]。给定一个图像 在这里插入图片描述
,其形状为 H x W,傅里叶变换 F 将 x 转换到傅里叶空间 X ,其表达式为:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中, R(x) 和 I(x) 分别表示 X(u, v) 的实部和虚部。需要注意的是,傅里叶操作可以在每个通道的特征图上独立计算。根据图1和表1(我们的动机),我们得出结论:水下图像的颜色退化信息主要包含在低频子带的幅度分量中,而纹理和细节退化信息则主要包含在高频子带中。

频率初步增强

基于上述分析,在频率初步增强阶段,我们设计了一个简单但有效的WFI2-net,采用并行的编码器-解码器(类似U-Net)的结构,分别恢复低频信息的幅度分量和高频分量。我们还利用跳跃连接将编码器和解码器中相同层次的特征连接起来。对于高频分支,我们利用变压器(Transformer)建模全局信息的优势来增强高频系数。我们设计了宽变压器块(WTB),使用多尺度信息,旨在建模长距离依赖关系我们的低频分支旨在恢复傅里叶空间中的幅度分量为了获得丰富的频率和空间信息,我们设计了空间-频率融合块(SFFB)

在这里插入图片描述

Wide Transformer Block

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Spatial-Frequency Fusion Block

在这里插入图片描述
在这里插入图片描述

损失函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Cross-Frequency Conditioner

在这里插入图片描述
在这里插入图片描述
类似地,可以获得高频嵌入的VT和低频嵌入的VF:

在这里插入图片描述
输出特征图Tout和Fout然后可以从以下公式获得:

在这里插入图片描述
其中R表示复制操作,√ dk是矩阵Q的列数。

Frequency Diffusion Adjustment

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/503261.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

衡量算法效率的方法:时间复杂度、空间复杂度

衡量算法效率的方法:时间复杂度、空间复杂度 一、好算法的特点二、算法效率分析1. 时间复杂度2. 空间复杂度 一、好算法的特点 算法是用数学解决问题的方法。一个好算法有以下几个特点: ①正确性:能正确处理各种输入(合法输入、非…

go如何从入门进阶到高级

针对Go语言的学习,不同阶段应采取不同的学习方式,以达到最佳效果.本文将Go的学习分为入门、实战、进阶三个阶段,下面分别详细介绍 一、社区 Go语言中文网 作为专注于Go语言学习与推广的平台,Go语言中文网为开发者提供了丰富的中…

苹果系统MacOS下ObjectC建立的App程序访问opencv加载图片程序

前言 苹果系统下使用opencv感觉还是有些不太方便,总是感觉有点受到限制。本博客描述的是在MacOS下建立App程序然后调用opencv显示图片时出现的一些问题并最后解决的一个过程。 一、程序的建立 选择程序的类型: 选择界面模式和编程语言: 其余…

Nginx——入门介绍、安装与核心配置文件结构(一/五)

目录 1.Nginx 简介1.1.背景介绍1.2.名词解释1.3.常见服务器对比1.3.1.IIS1.3.2.Tomcat1.3.3.Apache1.3.4.Lighttpd1.3.5.其他的服务器 1.4.Nginx 的优点1.4.1.速度更快、并发更高1.4.2.配置简单,扩展性强1.4.3.高可靠性1.4.4.热部署1.4.5.成本低、BSD 许可证 1.5.Ng…

【HarmonyOS-ArkTS语言】计算器的实现【合集】

目录 😋环境配置:华为HarmonyOS开发者 🎯学习小目标: 📺演示效果: 📖实验步骤及方法: 1. 在index.ets文件中通过 Extend(Button) 装饰器扩展Button 组件设置按钮样式函数myButt…

【C语言程序设计——选择结构程序设计】预测你的身高(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 1、输入数值 2、选择结构语句 3、计算结果并输出 编程要求 测试说明 通关代码 测试结果 任务描述 本关任务:编写一个程序,该程序需输入个人数据,进而预测其成年后的身高。 相关知识 为了完成本…

【连续学习之LwM算法】2019年CVPR顶会论文:Learning without memorizing

1 介绍 年份:2019 期刊: 2019CVPR 引用量:611 Dhar P, Singh R V, Peng K C, et al. Learning without memorizing[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 5138-5146. 本文提…

【微服务】3、配置管理

微服务配置管理 已掌握的微服务组件及配置管理问题引出 已掌握注册中心、Openfan、远程调用、负载均衡、网关等组件,具备微服务开发能力,但仍存在其他问题待解决。微服务和网关存在大量配置文件,其中包含很多重复配置,如数据库、日…

【论文+源码】基于Spring和Spring MVC的汉服文化宣传网站

为了实现一个基于Spring和Spring MVC的汉服文化宣传网站,我们需要创建一个简单的Web应用程序来展示汉服文化和相关信息。这个系统将包括以下几个部分: 数据库表设计:定义文章、用户和评论的相关表。实体类:表示数据库中的数据。DAO层接口及MyBatis映射文件:用于与数据库交…

Apache Celeborn 在B站的生产实践

背景介绍 Shuffle 演进 随着B站业务的飞速发展,数据规模呈指数级增长,计算集群也逐步从单机房扩展到多机房部署模式。多个业务线依托大数据平台驱动核心业务,大数据系统的高效性与稳定性成为公司业务发展的重要基石。如图1,目前在大数据基础架构下,我们主要采用 Spark、Fl…

计算机网络:网络层知识点及习题(一)

网课资源: 湖科大教书匠 1、概述 网络层实现主机到主机的传输,主要有分组转发和路由选择两大功能 路由选择处理机得出路由表,路由表再生成转发表,从而实现分组从不同的端口转发 网络层向上层提供的两种服务:面向连接…

深入刨析数据结构之排序(上)

目录 1.内部排序 1.1概述 1.2插入排序 1.2.1其他插入排序 1.2.1.1 折半插入排序 1.2.1.2 2-路插入排序 1.3希尔排序 1.4快速排序 1.4.1起泡排序 1.4.2快速排序 1.4.2.1hoare版本 1.4.2.2挖坑版本 1.4.2.3前后指针版本 1.4.2.4优化版本 1.4.2.4.1小区间插入排序优…

卸载wps后word图标没有变成白纸恢复

这几天下载了个wps教育版,后头用完了删了 用习惯的2019图标 给兄弟我干没了??? 其他老哥说什么卸载关联重新下 ,而且还要什么撤销保存原来的备份什么,兄弟也是不得不怂了 后头就发现了这个半宝藏博主&…

huggingface 下载方法 测试ok

目录 python下载方法: 设置环境变量 ~/.bashrc 缓存目录,默认模型下载目录 安装方法: python 下载无token: python 下载带token 常见报错 登录后创建Read token 2.3 创建token 使用token登录 python下载方法&#xff1…

【网络安全技术与应用】(选修)实验8 入侵检测

参考内容:【入侵检测】window下安装snort_windows安装snort-CSDN博客 一、实验目的 深入理解入侵检测系统的原理和工作方式,熟悉入侵检测工具Snort在Windows操作系统中的安装、配置及使用方法。二、实验内容 安装WinPcap及Snort;启动Snort;自编写简单的报警规则并进行测试;…

Linux驱动开发 gpio_get_value读取输出io的电平返回值一直为0的问题

当时gpio子系统进行读取时返回必定是0 因此,首先必须使用platform驱动来管理gpio和pinctrl子系统,然后如果按照正点原子所教的设备树引脚设置为0x10B0则会导致读取到的电平值为0。 解决方法: 将设备树中的引脚设置为 pinctrl_gpioled: gpio…

CDP集成Hudi实战-spark shell

[〇]关于本文 本文主要解释spark shell操作Hudi表的案例 软件版本Hudi1.0.0Hadoop Version3.1.1.7.3.1.0-197Hive Version3.1.3000.7.3.1.0-197Spark Version3.4.1.7.3.1.0-197CDP7.3.1 [一]使用Spark-shell 1-配置hudi Jar包 [rootcdp73-1 ~]# for i in $(seq 1 6); do s…

web实操9——session

概念 数据保存在服务器HttpSession对象里。 session也是域对象,有setAttribute和getAttribute方法 快速入门 代码 获取session和塞入数据: 获取session获取数据: 请求存储: 请求获取: 数据正常打印&#xff1a…

常用LabVIEW算法及应用

在LabVIEW项目中,算法的应用是提高系统性能、实现特定功能、完成复杂任务的核心。LabVIEW作为一种图形化编程语言,允许用户通过直观的图形编程来实现各种复杂的算法。这些算法广泛应用于控制系统、数据采集、信号处理、图像处理、机器学习等领域。了解常…

AI Agent 开发共学招募 | 来 Sui 上探索自治智能的边界

Agent 一词源自拉丁语 “Agere”,意为“行动(to do)”。在大语言模型(LLM)的语境下,Agent 指的是能够感知环境、进行决策并执行任务的智能实体。 与传统的 RPA 相比,后者只能在预设的条件下执行…