【读论文】GANMcC

GANMcC

  • 简单介绍
  • 网络结构
    • 生成器
    • 辨别器
  • 损失函数
    • 生成器损失函数
    • 辨别器
    • tips
  • 总结
  • 参考

论文:https://ieeexplore.ieee.org/document/9274337

如有侵权请联系博主

这几天又读了一篇关于GAN实现红外融合的论文,不出意外,还是FusionGAN作者团队的人写出的论文,相比之前的GAN实现红外图像融合的论文,这篇论文又提出了新的一些解决思路。一起来看看吧。
在这里插入图片描述

简单介绍

读过了几篇图像融合的论文,对这个领域稍微入门了一些,见到了各种各样的方法,不得不说,大佬们真的强。
在这里插入图片描述
今天要说的这篇论文是基于GAN来实现的,这篇论文提供给我的最重要的一个点就是在保存纹理细节和对比度上的处理。之前我们读过的大部分论文在这方面的处理都只是保留可视图像的纹理信息和红外图像的对比度,但正如这篇论文的作者所说的那样,可视图像的对比度和红外图像的纹理信息同样也值得我们注意。如下图,左边是可视图像,右边是红外图像
在这里插入图片描述
仔细观察上图的信息,你会发现第一行中的右边红外图像中树叶纹理信息反而保存的更好,第二行中可视图像的对比度更强,事情就开始变得有趣起来了,接下来我们一点点去聊这篇论文。
在这里插入图片描述

网络结构

先看下总体的网络结构
在这里插入图片描述

相比于DIVFusion的网络结构,还算是蛮简单的,接下来我们一点点去了解网络的组成部分。

生成器

在这里插入图片描述
上图为生成器的网络结构,生成器的输入分为两个路径,分别是梯度路径和对比度路径,梯度路径包含两个可视图像和一个红外图像,对比度路径包含两个红外图像和一个可视图像。与FusionGAN相同,这里的输入图像都要被填充到132x132大小,从而保证最终生成的图像与输入图像有相同的大小。

两个路径的输入首先经过四层卷积(卷积核,激活函数和批量归一化的具体内容在图中都有表示),提取特征,然后将两个路径提取的特征连接到一起,经过一个1x1的卷积和激活就生成了目标图像。

这里有一个很有趣的地方,这里的生成器的输入不是单张的可视图像和红外图像,反而是这样多张的堆叠。

辨别器

在这里插入图片描述
辨别器的网络结构如上图所示,细心的你会发现,最终输出和我们之前看到GAN不大一样。

回忆一下FusionGAN和DDcGAN,你会发现二者的辨别器最终都是只输出一个一维概率,即使像DDcGAN这样的双辨别器,最终输出也只是一维概率,而GANMcC中的辨别器的输出则是一个二维数据。

那么为什么要这么设计呢?

这里论文作者的逻辑与其他人的稍微有些不同,辨别器输出的二维数据分别代表输入图像是可视图像的概率和输入图像是红外图像的概率。

那么怎么应用这个二维数据?

现在想一下这个模型的作用,即生成一个包含更多纹理信息和对比度信息的融合图像,带入到GAN的架构中,是不是我们希望融合图像包含更多纹理信息就代表辨别器认为融合图像就是可视图像概率越高越好,同样对于可视图像也是如此,即当融合图像输入到辨别器中输出的两个概率都很大时,我们的融合效果就很好了。在损失函数中我们详细的讲一下这个过程。

现在回到标题,你就会发现多分类就在这呢

损失函数

生成器损失函数

在这里插入图片描述
生成器整体的损失函数如上图所示,第一部分是纹理和对比度损失,第二部分是与辨别器的对抗损失。

这里的LGcon相对复杂一点,正如我们前面说的,一方面我们要保证可视图像的纹理和红外图像的对比度,另一方面我们还要保证可视图像的对比度和红外图像的纹理。

下面先讲LGcon的两个损失函数,这两个损失函数的作用就是保证融合图像中有可视图像的纹理特征和红外图像的对比度信息。

下面公式用于保证融合图像尽量包含更多红外图像中的对比度信息(以图像像素强度来保证对比度信息)
在这里插入图片描述
下面公式用于保证融合图像中包含更多可视图像中的纹理信息(这里以梯度信息来保证纹理信息)
在这里插入图片描述
到了这里还没有结束,前文中提到,我们还要保留红外图像中的纹理信息和可视图像中的对比度信息,因此我们还要为保留这两类信息设计损失函数,如下。和上面的公式相同,就是计算梯度的对象变成了红外图像,计算强度(对比度信息)的变成了可视图像
在这里插入图片描述

最终一个大汇总
在这里插入图片描述
其中β1 > β4, β2 > β3, {β2, β3} > {β1, β4}

那么为什么要这么设置β呢?

这里作者在论文中做了解释,首先β1是融合图像与红外图像对比度之间损失函数的参数,β4是融合图像和可视图像对比度之间损失函数的参数,因为我们要保留的对比度信息主要来自红外图像,所以β1 > β4;同理也应设置β2 > β3。

那么为什么要设置{β2, β3} > {β1, β4}?作者在论文中提到梯度损失项的值往往小于对比度损失项,为了在训练过程中可以保证可以保留纹理信息和对比度信息相平衡,这里就要设置{β2, β3} > {β1, β4},即将纹理损失的参数设置的比对比度的参数要大。

到这里为止,生成器单独保证梯度信息和对比度信息的损失函数就讲完了。

因为文章中使用的网络架构是GAN,因此还需要与辨别器进行对抗,损失函数如下

在这里插入图片描述
观察前面整个架构的图片,你会发现辨别其输出的是一个二维的向量,向量的第一个位置的数据代表输入图像为可视图像的概率,即D(Ifuse)[1];向量的第二个位置的数据代表输入图像为红外图像的概率,即D(Ifuse)[2]。

这样上面的损失函数就比较容易看懂了。因为希望辨别器认为融合图像是可视图像,同样也认为融合图像是红外图像,因此这里的d设置为1,这样训练之后的结果就会使得融合图像既像可视图像也像红外图像。

辨别器

辨别器的整体损失函数如下
在这里插入图片描述
从左到右依次为可视图像辨别的损失,红外图像辨别的损失和融合图像辨别的损失。

他们的作用是什么呢?

很清楚,可视(红外或融合)图像辨别的损失是帮助辨别器拥有更强的识别判断是否是可视(红外或融合)图像的能力,将这三者结合在一起,就会使得辨别器拥有更好的识别可视图像,红外图像和融合图像的能力。
在这里插入图片描述
先看下可视图像辨别能力的损失函数。这里你会发现咋又多了个函数,Pvis,Pir是啥,别急,其实Pvis就对应我们前面生成器提到的D(Ifuse)[1],Pir就对应D(Ifuse)[2].

现在思考一下,如果你希望辨别器提高识别可是图像的能力,是不是说你希望输入一个可视图像,输出的Pvis尽可能的接近1,而Pir尽可能接近0,如果你是这么想的话,那恭喜你,你想对了。这里的
a1就设置为1,a2就设置为0。
在这里插入图片描述
上面的损失函数是帮助辨别器提高辨别红外图像的能力,同上一个损失函数,这里的b1设置0,b2设置1,原因可以类比可以类比上一个可视图像识别损失函数。
在这里插入图片描述
最后一个损失函数就是帮助辨别器提高识别融合图像的能力。以辨别器的角度来看,图像被他分成了三类,分别是可视图像,红外图像和融合图像,但是上面的只有两个概率(图像为可视和红外图像的概率),那应该怎么判别图像为融合图像的概率呢?

这里试想一下,如果说辨别器处理一个图像之后输出的可视图像概率和红外图像概率都很小,是不是代表这个图像在辨别器眼里不是可视图像,也不是红外图像,而辨别器中的图像共有三类,不是那两类,那就是第三类了,也就是融合图像,这样的话,我们就晓得了,那么c就设置为0,即让辨别器认为融合图像既不是可视图像也不是红外图像,从而实现辨别融合图像的功能。

tips

这里注意下,在论文的参数设置那里提到了关于损失函数中的a1,a2,b1,b2和c的设置,这里采用软标签,即本来应设置为1的,设置为0.7到1.2之间的一个随机数;而本来设置为0,被设置为0到0.3之间的随机数。而前面设置为1或0,只是为了方便大家理解。

总结

同样又是一篇收获满满的文章,这里简要说一下

  • 提取纹理信息时不仅仅只关注可视图像,同样也关注红外图像的纹理信息
  • 提取对比度信息时不仅仅只关注红外图像,同样也关注可视图像的对比度信息
  • 辨别器生成多分类的概率

其他融合图像论文解读
读论文专栏,快来点我呀

【读论文】DIVFusion: Darkness-free infrared and visible image fusion

【读论文】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

【读论文】DDcGAN

【读论文】Self-supervised feature adaption for infrared and visible image fusion

【读论文】FusionGAN: A generative adversarial network for infrared and visible image fusion

【读论文】DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs

【读论文】DenseFuse: A Fusion Approach to Infrared and Visible Images

参考

[1] GANMcC: A Generative Adversarial Network With Multiclassification Constraints for Infrared and Visible Image Fusion

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/43005.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SCI 文章被拒是一种怎样的体验? - 易智编译EaseEditing

要明白论文被拒是喝凉水一般平常的存在,很多大牛的文章都是这么熬过来,即便世界经典名著最初也有被拒稿的时候,现在回过头来看编辑的拒稿评语,啪啪啪打脸不要太响。 约瑟夫海勒 《第二十二条军规》 退稿理由:“你到底…

文心一言 VS 讯飞星火 VS chatgpt (33)-- 算法导论5.2 5题

五、设A[1…n]是由n个不同数构成的数列。如果i<j且A[i]>A[j]&#xff0c;则称(i&#xff0c;j)对为A的一个逆序对(inversion)。(参看思考题2-4 中更多关于逆序对的例子。)假设A的元素构成(1&#xff0c;2&#xff0c;… &#xff0c;n)上的一个均匀随机排列。请用指示器随…

元宇宙太过火热往往伴随着极端的争议元宇宙太过火热往往伴随着极端的争议

有人憧憬元宇宙的美好未来&#xff0c;更不乏也有人怀疑元宇宙&#xff0c;但他们无法提出更好的社会发展方向。 在我看来&#xff0c;元宇宙是改造社会的最佳试验场&#xff0c;人们在元宇宙中工作&#xff0c;生活&#xff0c;协同实践&#xff0c;这些成果如果能让人们更幸福…

chatgpt赋能python:Python中文输入的SEO优化

Python中文输入的SEO优化 随着Python在国内的普及&#xff0c;越来越多的人开始使用Python作为自己的编程语言。但是&#xff0c;对于一些刚刚开始接触Python的人来说&#xff0c;中文输入仍然是一道难题。本文将针对这一问题进行介绍&#xff0c;并讨论如何对中文输入进行优化…

chatgpt赋能python:使用PythonAPI实现高效SEO优化

使用Python API实现高效SEO优化 随着互联网的发展&#xff0c;SEO已成为各种网站的重要推广手段。而对于Python工程师来说&#xff0c;使用Python API可以极大地提高SEO优化的效率。本文将为您介绍如何使用Python API实现高效SEO优化&#xff0c;并分享一些常用的Python SEO工…

chatgpt赋能python:Python做前端界面的SEO优化

Python做前端界面的SEO优化 众所周知&#xff0c;前端界面的优化是网站SEO排名的一个重要因素。而Python作为一种广泛应用于web开发的编程语言&#xff0c;在前端界面的优化上却往往被忽视。本文将探讨如何用Python实现前端界面的SEO优化&#xff0c;为网站获得更好的排名打下…

chatgpt赋能python:用Python做前端的SEO优化

用Python做前端的SEO优化 介绍 Python是一种高级编程语言&#xff0c;拥有广泛的应用领域&#xff0c;包括后端开发、数据科学、机器学习等。然而&#xff0c;Python也可以用于前端开发和SEO优化。在这篇文章中&#xff0c;我们将会讨论如何用Python来提高网站的SEO优化。 在…

chatgpt赋能python:Python如何使用Pi进行SEO优化

Python如何使用Pi进行SEO优化 在当今数字化的时代中&#xff0c;拥有一个强大的网络存在是非常必要的。搜索引擎优化&#xff08;SEO&#xff09;是实现这一目标的最重要组成部分之一。使用Python和Pi&#xff0c;可以实现自动化的SEO处理&#xff0c;提高网站的排名。 什么是…

chatgpt赋能python:如何使用Python进行SEO优化

如何使用Python进行SEO优化 在数字化时代&#xff0c;SEO已经成为一个广泛使用且需求不断增加的领域。虽然有很多工具和技术可以用于SEO&#xff0c;但Python是其中之一。Python是一种现代编程语言&#xff0c;通常用于处理大数据集、自动化任务、Web开发等特定领域。在SEO领域…

chatgpt赋能python:Python的SEO优化技巧

Python的SEO优化技巧 Python是一种高级编程语言&#xff0c;用于开发各种应用程序。它已经被广泛使用&#xff0c;尤其是在机器学习和数据科学领域。Python具有很多优点&#xff0c;包括易学易用、兼容性好、可移植性强、支持多种编程范式等等。但是&#xff0c;Python的SEO优…

【更改应用主题】

1. 准备工作 Material 是 Google 打造的设计系统&#xff0c;旨在帮助开发者针对 Android 和其他平台打造优质的数字体验。完整的 Material 系统包括关于应用视觉、动作和互动设计的设计指南&#xff0c;但此文章将重点介绍如何更改 Android 应用的颜色主题。 此文章使用 Emp…

Stardock Curtains v1.19.1 Windows主题美化软件中文直装版

前言 Stardock Curtains是一款适用于Windows系统的主题美化软件&#xff0c;软件由Windows工具开发商StarDock开发&#xff0c;可以帮助用户对系统的主题进行美化&#xff0c;可以修改系统的配色、背景等等内容&#xff0c;另外软件对高分屏也有很好的提升。 Stardock Curtai…

Typecho主题下载,关于Besking主题下载

Besking模版 for Typecho 简洁大方&#xff0c;多种布局可供选择,非常适合个人博客,兼容官方Typecho 1.1 (17.10.30) 演示地址 下载地址 gitee下载地址&#xff1a;https://gitee.com/hkq15/Besking 特性 -多种文章列表布局-个人中心类型头部&#xff0c;彰显个人博客特质…

Android 应用界面风格与主题(style and theme)

主题Theme就是用来设置界面UI风格&#xff0c;可以设置整个应用或者某个活动Activity的界面风格。在Android SDK中内置了下面的Theme&#xff0c;可以按标题栏Title Bar和状态栏Status Bar是否可见来分类&#xff1a; •android:theme"android:style/Theme.Dialog" …

typecho独一无二的后台美化主题模板

简介&#xff1a; typecho后台模板美化版 typecho的默认后台样式实在不忍直视&#xff0c;不但不美观&#xff0c;还操作不便&#xff0c;看久了默认的样式都会觉得不开心&#xff0c;为了让typecho用起来更舒服顺心&#xff0c;所以萌卜兔博客看不惯typecho的后台样式&#x…

Typora主题下载

1.0前言 Typora有很多主题可以使用&#xff0c;默认的主题很少&#xff0c;想要自己的主题更加个性化&#xff0c;可以去添加更多的主题来优化自己的使用体验 2.0下载主题 2.1 找到Typora主题的网站 1.打开一个typora文件此点击 2 进入偏好设置 3依次点击 4 点击如图 5 进入typ…

苹果手机的隐藏功能分享

今天跟大家分享苹果手机隐藏的功能&#xff0c;你们快来看看吧&#xff01; 其实这个隐藏功能就是语音转文字&#xff0c;你们不知道吧。首先我们需要打开苹果手机的【设置】&#xff0c;找到【通用】&#xff0c;再找到【键盘】&#xff0c;点击开启【启用听写】这个功能。 然…

苹果风波不断,Siri语音助手面临隐私诉讼

整理 | 祝涛 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 美国地方法院法官Jeffrey White裁定&#xff0c;针对苹果公司的一起诉讼将继续进行&#xff0c;该诉讼称苹果语音助手Siri侵犯了用户隐私&#xff0c;但驳回了根据加州《不公平竞争法》提出的一项指控…

苹果外包爆料:你手机里的Siri,听到了嘿嘿嘿的声音

郭一璞 发自 西四环 量子位 报道 | 公众号 QbitAI 你跟Siri的对话&#xff0c;不光会被录下来&#xff0c;还会被外包公司监听分析。 这就是今日曝出的苹果隐私大新闻。 据《卫报》得到的苹果外包公司员工爆料&#xff0c;这些包含Siri被误唤醒时的内容&#xff0c;都将被一一记…

内网渗透之代理转发

内网渗透之代理转发 内网渗透 酒仙桥六号部队 [](javascript:void(0)) 2020-09-09 8,815 文章目录 内网渗透之代理转发2.1正向代理(Forward Proxy)2.2反向代理(Reverse Proxy) 6.1 正向SOCKS5服务器6.2 反弹SOCKS5服务器6.3 二级网络环境(有公网IP)6.4 二级网络环境(无公网IP…