【读论文】DDcGAN

DDcGAN: A Dual-Discriminator ConditionalGenerative Adversarial Network for Multi-Resolution Image Fusion

  • 简介
    • 贡献
  • 提出的方法
    • 损失函数
    • 网络结构
      • 生成器结构
      • 辨别器结构
  • MRI和PET图像融合
    • 处理思路
    • 公式
    • 损失函数
    • 处理过程
  • 训练
  • 总结
  • 参考

论文: https://ieeexplore.ieee.org/document/9031751
代码: https://github.com/jiayi-ma/DDcGAN
如有侵权请点击蓝字联系博主

简介

和FusionGAN的作者是同一个人,不得不说,真的强。

论文中提出了一种基于CGAN的双鉴别器的图像融合模型,称为DDcGAN,网络结构包含两个鉴别器,分别为了保持融合图像有红外图像和可视图像的重要特征;在训练过程中,希望辨别器无法区分源图像(红外图像和可视图像)和融合图像,这个过程中不需要自己设计特定的融合机制,同时也不需要ground truth图像;论文中提出的方法还可以应用到医学图像融合问题。

因为红外图像的分辨率往往不如可视图像,因此论文中提到的方法可以融合不同分辨率的红外以及可视图像。

贡献

  • 论文中提出的方法可以使多模态的图像融合的更好,而不是仅仅与一种源图像有着很高的相似性。
  • 双辨别器使得生成器可以得到更充分的训练
  • 在多分辨率图像的融合工作上体现更好的性能
  • 可以扩展到医学影像的融合

提出的方法

采用双鉴别器的gan,其中Dv用来鉴别融合图像和可视图像Di用来鉴别融合图像和红外图像,因为我们假设红外图像的分辨率是可视图像的1/16,而融合图像的分辨率和可视图像是相同的,所以我们需要对可视图像进行下采样,采用平均池化(因为与最大池相比,平均池化保留了低频信息,热辐射信息主要以这种形式呈现),再与可视图像进行比较。

损失函数

在这里插入图片描述
ψ指的是下采样,两个层的卷积核都是3x3大小,步长为2。

生成器的目标如上图所示,这里设后面的公式为V,即在V的取值最大时(在现在的情况下,辨别器可以较好的辨别图像是融合图像还是可视图像,红外图像),调整G的参数,从而使得辨别器无法很好的分辨融合图像和可视图像,红外图像,即V的值最小。

我自己的理解就是,此时,辨别器已经经历了k次的训练(k是超参数),辨别器相对于训练前,已经可以较好的分辨是融合图像还是可视/红外图像,这时训练生成器,也是训练k次,按照损失函数进行G的参数的调节,从而使得辨别器无法判断图像时融合图像还是可视/融合图像。

辨别器的目标则是最大化上述公式。

在大致了解我们的目标之后,就可以来聊损失函数了。

生成器损失函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
第一项是为了实现生成器和辨别器之间的对抗,第二项则是为了保证生成图像与红外图像有着尽可能相同的辐射信息,与可视图像有着尽可能相同的纹理信息。

为什么采用下采样的红外图像与融合图像进行比较,文中介绍如下

通过约束下采样融合图像和低分辨率红外图像的像素强度的关系,我们可以显著地防止由于压缩或模糊而导致的纹理信息的丢失以及由于强制上采样而导致的不准确。

第一项中的第一项是促进生成器参数向着生成器认为融合图像是可视图像的概率增加的方向变化,第一项中的第二项是促进生成器参数向着生成器认为融合图像是红外图像的概率增加的方向变化,这两项的作用就是使得辨别器犯错。

第二项中的第一项采用F范数是为了保证生成图像和红外图像的辐射信息尽可能相同,第二项的采用TV范数是为了保证生成图像在纹理上尽可能与可视图像相同。

经过这样的对抗,我们可以保证融合图像和可视/红外图像在辨别器眼里越来越相似,同时我们控制了生成器生成的方向,即向着更多可视纹理和红外辐射的方向变化。

辨别器损失函数
在这里插入图片描述
相比生成器来说就简单了,其实就是通过训练使得红外/可视图像辨别器分辨图像是融合图像还是可视/红外图像的能力越来越强。

以可视图像辨别器为例来介绍

这里第一项希望Dv可以把可视图像源图像v识别为可视图像的概率越大越好,即logDv越大越好,-logD越小越好;第二项则是希望Dv可以将融合图像G识别为可视图像的概率越小越好,即Dv(G)越小越好,1-Dv(G)越好越好,-(1-Dv(G))越小越好。第二项同理。

一般来说我们都是先通过生成器G生成融合图像,然后将融合图像和可视/红外图像作为训练数据来训练辨别器k次(这里的k是我们自己设定的,不宜太大,也不宜太小,太大会导致生成器在训练时训练几乎没效果,太小了会导致辨别器训练不到位),然后使用训练好的辨别器再去训练生成器k次,这样一直循环,直到辨别器无法分辨融合图像和可视/红外图像时,就已经训练好了,此时生成器生成的图像就是我们想要的融合图像。论文中的训练与这里有点小出入,当辨别器未完成k次训练,但损失已经到一个阈值之后,就会停止训练,转而训练生成器k次,同样,若生成器也到了一个阈值,也会提前停止。

网络结构

生成器结构

在这里插入图片描述

接下来我们一步步来讲这个网络

首先我们对输入的红外图像和可视图像都进行反卷积,这里红外图像经过反卷积生成的图像是高分辨率的红外图像(为啥是高分辨率的,博主不是很了解),反卷积的算子也是经过学习获得的;可视图像也经历了一次反卷积,生成了相同分辨率的特征图,即在连接之前,可视图像先进行了一次处理;然后将反卷积的红外图像与可视图像的特征图进行连接,作为编码器的输入。

接下来数据就来到了编码器,编码器是一个五层的densenet结构,densenet可以加强特征的传播,即每一层都可以使用前面每一层提取的特征,所有的层都使用3x3的卷积核,步长为1,为了避免梯度爆炸/消失,应用批量归一化,ReLU激活函数用于加快收敛。解码器在论文中没有介绍,但是看图的话也可以大致了解,五层cnn,每个层的卷积核都是3x3,最终的输出就是融合图像。

辨别器结构

在这里插入图片描述
这里鉴别器的网络结构相对简单一些,但是鉴别器有一个问题,网络中有两个鉴别器,分别促使生成器的融合图像有更多的纹理细节和红外辐射强度信息,但是这两个促进是存在冲突的,即当融合图像中可是图像的细节较好时,红外辐射信息可能会缺失,因此需要对二者进行平衡,文中平衡的方式是当G,Dv和Di一旦有其中一个处理能力较差时,就会多训练这个部分。举例来说,当Di和Dv都可以轻易分辨融合图像和可视图像时,说明需要对G进行训练,而减少对Di和Dv的训练,当Di和Dv的辨别能力较差时,也是进行相同的操作。

每一层都是3x3的卷积核,步长为2,最后一层是一个全连接层,最终的激活函数是tanh,生成一个标量,即是源图像的概率。

MRI和PET图像融合

处理思路

关于两种图像的介绍,原文中有大量的描写,这里我们只需要知道PET是有颜色,且分辨率低,MRI可以捕捉结构细节。

我们希望融合之后,融合图像可以保留PET的颜色信息,也可以保留MRI的结构信息。

使用IHS(强度,色调和饱和度)来表示PET图像,之类的色调和饱和度都影响颜色信息,因此我们要保持这两个分量的不变,用强度信息来与MRI图像融合。

如下图所示,可以看到PET图像的I通道(强度通道)的结构细节不够清晰,但是MRI很清晰,因此可以融合强度通道(I通道)与MRI从而弥补PET图像结构信息不足的问题。

在这里插入图片描述

这里PET图像的强度通道的信息保存血流之类的信息,而MRI保存软骨结构之类的信息,二者结合之后,就可以得到一个较为完整的图片信息,看到这里就感觉有点熟悉了,这个过程和我们融合红外图像很像,不同就在于红外图像提供热辐射信息,而可视图像提供细节信息。

公式

以下公式为RGB与IHS的转换公式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

损失函数

这里和前面的红外图像融合的损失函数大致相同,这里的MRI图像对应可视图像,PET的I通道分量对应红外图像,如下的损失函数一一对应即可。
生成器损失函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

辨别器损失函数
在这里插入图片描述

处理过程

处理过程如下,首先将RGB图像转换为IHS表示,然后将I通道与MRI图像进行融合,再将H,和S通道进行上采样(双三次插值),将其上采样至与融合图像相同大小的分辨率,然后再将三个通道转为RGB通道,就是最后的结果。

双三次插值可以参考该博客双三次插值(BiCubic插值)
在这里插入图片描述

训练

损失函数中的λ=0.5和η=1.2。
学习率为2x10-3,批量设置为24,衰减为0.75
辨别器使用SGD优化器
生成器使用RMSProp优化器

总结

在GAN的结构上,相比于FusionGAN来说,DDcGAN设置了两个辨别器,分别是保证红外辐射信息和纹理信息,而FusionGAN中仅仅使用可视图像辨别器来使融合图像和可视图像进行对抗,DDcGAN则是将融合图像和红外图像,可视图像都进行对抗,从而使得融合图像尽可能的保留纹理信息和红外辐射信息。

在生成器的网络结构上来说,FusionGAN只是进行了5层卷积,而DDcGAN的网络结构则是采用编码解码器结构,其中编码器采用DenseNet的结构。

以下是论文中给出的图像融合的效果,可见DDcGAN的融合效果有很大的提升。
在这里插入图片描述

其他融合图像论文解读
【读论文】Self-supervised feature adaption for infrared and visible image fusion

【读论文】FusionGAN: A generative adversarial network for infrared and visible image fusion

【读论文】DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

【读论文】DenseFuse: A Fusion Approach to Infrared and Visible Images

参考

[1] DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/43008.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【读论文】GANMcC

GANMcC 简单介绍网络结构生成器辨别器 损失函数生成器损失函数辨别器tips 总结参考 论文:https://ieeexplore.ieee.org/document/9274337 如有侵权请联系博主 这几天又读了一篇关于GAN实现红外融合的论文,不出意外,还是FusionGAN作者团队的…

SCI 文章被拒是一种怎样的体验? - 易智编译EaseEditing

要明白论文被拒是喝凉水一般平常的存在,很多大牛的文章都是这么熬过来,即便世界经典名著最初也有被拒稿的时候,现在回过头来看编辑的拒稿评语,啪啪啪打脸不要太响。 约瑟夫海勒 《第二十二条军规》 退稿理由:“你到底…

文心一言 VS 讯飞星火 VS chatgpt (33)-- 算法导论5.2 5题

五、设A[1…n]是由n个不同数构成的数列。如果i<j且A[i]>A[j]&#xff0c;则称(i&#xff0c;j)对为A的一个逆序对(inversion)。(参看思考题2-4 中更多关于逆序对的例子。)假设A的元素构成(1&#xff0c;2&#xff0c;… &#xff0c;n)上的一个均匀随机排列。请用指示器随…

元宇宙太过火热往往伴随着极端的争议元宇宙太过火热往往伴随着极端的争议

有人憧憬元宇宙的美好未来&#xff0c;更不乏也有人怀疑元宇宙&#xff0c;但他们无法提出更好的社会发展方向。 在我看来&#xff0c;元宇宙是改造社会的最佳试验场&#xff0c;人们在元宇宙中工作&#xff0c;生活&#xff0c;协同实践&#xff0c;这些成果如果能让人们更幸福…

chatgpt赋能python:Python中文输入的SEO优化

Python中文输入的SEO优化 随着Python在国内的普及&#xff0c;越来越多的人开始使用Python作为自己的编程语言。但是&#xff0c;对于一些刚刚开始接触Python的人来说&#xff0c;中文输入仍然是一道难题。本文将针对这一问题进行介绍&#xff0c;并讨论如何对中文输入进行优化…

chatgpt赋能python:使用PythonAPI实现高效SEO优化

使用Python API实现高效SEO优化 随着互联网的发展&#xff0c;SEO已成为各种网站的重要推广手段。而对于Python工程师来说&#xff0c;使用Python API可以极大地提高SEO优化的效率。本文将为您介绍如何使用Python API实现高效SEO优化&#xff0c;并分享一些常用的Python SEO工…

chatgpt赋能python:Python做前端界面的SEO优化

Python做前端界面的SEO优化 众所周知&#xff0c;前端界面的优化是网站SEO排名的一个重要因素。而Python作为一种广泛应用于web开发的编程语言&#xff0c;在前端界面的优化上却往往被忽视。本文将探讨如何用Python实现前端界面的SEO优化&#xff0c;为网站获得更好的排名打下…

chatgpt赋能python:用Python做前端的SEO优化

用Python做前端的SEO优化 介绍 Python是一种高级编程语言&#xff0c;拥有广泛的应用领域&#xff0c;包括后端开发、数据科学、机器学习等。然而&#xff0c;Python也可以用于前端开发和SEO优化。在这篇文章中&#xff0c;我们将会讨论如何用Python来提高网站的SEO优化。 在…

chatgpt赋能python:Python如何使用Pi进行SEO优化

Python如何使用Pi进行SEO优化 在当今数字化的时代中&#xff0c;拥有一个强大的网络存在是非常必要的。搜索引擎优化&#xff08;SEO&#xff09;是实现这一目标的最重要组成部分之一。使用Python和Pi&#xff0c;可以实现自动化的SEO处理&#xff0c;提高网站的排名。 什么是…

chatgpt赋能python:如何使用Python进行SEO优化

如何使用Python进行SEO优化 在数字化时代&#xff0c;SEO已经成为一个广泛使用且需求不断增加的领域。虽然有很多工具和技术可以用于SEO&#xff0c;但Python是其中之一。Python是一种现代编程语言&#xff0c;通常用于处理大数据集、自动化任务、Web开发等特定领域。在SEO领域…

chatgpt赋能python:Python的SEO优化技巧

Python的SEO优化技巧 Python是一种高级编程语言&#xff0c;用于开发各种应用程序。它已经被广泛使用&#xff0c;尤其是在机器学习和数据科学领域。Python具有很多优点&#xff0c;包括易学易用、兼容性好、可移植性强、支持多种编程范式等等。但是&#xff0c;Python的SEO优…

【更改应用主题】

1. 准备工作 Material 是 Google 打造的设计系统&#xff0c;旨在帮助开发者针对 Android 和其他平台打造优质的数字体验。完整的 Material 系统包括关于应用视觉、动作和互动设计的设计指南&#xff0c;但此文章将重点介绍如何更改 Android 应用的颜色主题。 此文章使用 Emp…

Stardock Curtains v1.19.1 Windows主题美化软件中文直装版

前言 Stardock Curtains是一款适用于Windows系统的主题美化软件&#xff0c;软件由Windows工具开发商StarDock开发&#xff0c;可以帮助用户对系统的主题进行美化&#xff0c;可以修改系统的配色、背景等等内容&#xff0c;另外软件对高分屏也有很好的提升。 Stardock Curtai…

Typecho主题下载,关于Besking主题下载

Besking模版 for Typecho 简洁大方&#xff0c;多种布局可供选择,非常适合个人博客,兼容官方Typecho 1.1 (17.10.30) 演示地址 下载地址 gitee下载地址&#xff1a;https://gitee.com/hkq15/Besking 特性 -多种文章列表布局-个人中心类型头部&#xff0c;彰显个人博客特质…

Android 应用界面风格与主题(style and theme)

主题Theme就是用来设置界面UI风格&#xff0c;可以设置整个应用或者某个活动Activity的界面风格。在Android SDK中内置了下面的Theme&#xff0c;可以按标题栏Title Bar和状态栏Status Bar是否可见来分类&#xff1a; •android:theme"android:style/Theme.Dialog" …

typecho独一无二的后台美化主题模板

简介&#xff1a; typecho后台模板美化版 typecho的默认后台样式实在不忍直视&#xff0c;不但不美观&#xff0c;还操作不便&#xff0c;看久了默认的样式都会觉得不开心&#xff0c;为了让typecho用起来更舒服顺心&#xff0c;所以萌卜兔博客看不惯typecho的后台样式&#x…

Typora主题下载

1.0前言 Typora有很多主题可以使用&#xff0c;默认的主题很少&#xff0c;想要自己的主题更加个性化&#xff0c;可以去添加更多的主题来优化自己的使用体验 2.0下载主题 2.1 找到Typora主题的网站 1.打开一个typora文件此点击 2 进入偏好设置 3依次点击 4 点击如图 5 进入typ…

苹果手机的隐藏功能分享

今天跟大家分享苹果手机隐藏的功能&#xff0c;你们快来看看吧&#xff01; 其实这个隐藏功能就是语音转文字&#xff0c;你们不知道吧。首先我们需要打开苹果手机的【设置】&#xff0c;找到【通用】&#xff0c;再找到【键盘】&#xff0c;点击开启【启用听写】这个功能。 然…

苹果风波不断,Siri语音助手面临隐私诉讼

整理 | 祝涛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 美国地方法院法官Jeffrey White裁定&#xff0c;针对苹果公司的一起诉讼将继续进行&#xff0c;该诉讼称苹果语音助手Siri侵犯了用户隐私&#xff0c;但驳回了根据加州《不公平竞争法》提出的一项指控…

苹果外包爆料:你手机里的Siri,听到了嘿嘿嘿的声音

郭一璞 发自 西四环 量子位 报道 | 公众号 QbitAI 你跟Siri的对话&#xff0c;不光会被录下来&#xff0c;还会被外包公司监听分析。 这就是今日曝出的苹果隐私大新闻。 据《卫报》得到的苹果外包公司员工爆料&#xff0c;这些包含Siri被误唤醒时的内容&#xff0c;都将被一一记…