[CR]厚云填补_条件扩散模型用于SAR到光学图像转换

Conditional Diffusion for SAR to Optical Image Translation


Abstract

        合成孔径雷达(SAR)提供全天候、全天高分辨率成像,但其独特的成像机制往往需要专家解释,限制了其广泛的适用性。为了应对这一挑战,提出了一个生成模型,该模型连接了SAR和光学成像,促进了SAR图像转换为更容易被人类识别的光学航空图像。这有助于解释SAR数据,使其更容易识别。具体来说,我们的模型主干是基于最新的扩散模型,具有强大的生成能力。我们创新地定制了扩散模型框架,将SAR图像作为采样过程中的条件约束。这种自适应使得从SAR到光学图像的有效转换成为可能。我们在卫星GF3和SEN12数据集上进行实验,并使用结构相似性(SSIM)和Fréchet Inception Distance(FID)进行定量评价。结果表明,该模型不仅在定量评价方面超越了以往的方法,而且显著提高了生成图像的视觉质量。这一进展强调了该模型在增强SAR图像解释方面的潜力。 

1  Introduction 

        合成孔径雷达(SAR)是一项复杂的遥感技术,它将雷达原理与合成孔径方法相结合,以实现高分辨率成像。SAR是近年来发展迅速的一项前沿空间遥感技术,多极化、多基线、多频率、多角度、多通道等新型SAR系统和模式不断涌现,极大地提高了SAR图像质量。同时,在SAR图像处理和分析方法方面也取得了实质性进展。基于深度学习的SAR图像分类、分割、目标检测等技术不断创新和完善,扩大了SAR图像分析和应用的范围。此外,SAR具有全天候、全天候、穿透云雾等优点。这些特性使SAR成为各种领域的宝贵工具,包括气候变化研究和环境系统监测。 

        尽管有上述优势,由于SAR图像中的散斑噪声、几何畸变和辐射校正,SAR图像解译仍然具有挑战性,这些只能由训练有素的人员或领域专家进行解译。光学图像是另一种基于可见光或近红外波段的遥感图像,可以直观地反映地物的光谱和空间信息,易于人眼识别。然而,它容易受到云层覆盖和大气散射的影响,导致信息丢失或模糊。因此,引入一种将SAR图像转换成光学图像的方法来辅助SAR图像解译,可以降低理解SAR图像的难度,扩大SAR图像的应用范围。 

        SAR-to-optical图像转换是将SAR图像转换为相应的光学图像,可以提高SAR图像的可解释性和可用性。该任务是一种特殊的图像到图像(Image2Image)转换,涉及跨模态和跨域图像转换问题。传统方法依赖于机器学习和图像处理技术,需要对地物进行分类,构建分类转换知识库,并应用特征提取算法实现特征转换,获得各种物体之间的映射关系。这种方法成本高,依赖知识,难以应用于复杂多变的地面场景和细节。相比之下,深度学习的最新发展,特别是随着生成对抗网络(GAN)的出现,为SAR到光学图像转换带来了新的可能性。深度学习可以利用神经网络自动学习图像的高级语义特征,无需人工设计即可完成端到端的非线性映射。Fu等开发了一种基于GAN的SAR图像转换成光学图像的方法,利用多尺度鉴别器提高合成图像质量。然而,这种方法存在边界模糊和无法捕捉某些物体(尤其是建筑物)的几何特征的问题。此外,GAN还会遇到模式崩溃的问题,使其难以训练。 

        扩散模型最近成为一种主流的生成建模方法,在图像合成方面优于当前基于gan的生成模型。扩散模型由马尔可夫链参数化,马尔可夫链逐渐向数据中加入噪声,直到原始分布被破坏。在生成过程中,从随机高斯噪声开始,迭代去噪,生成干净的图像。扩散模型通过优化负对数似然的变分下界来训练,避免了GAN中经常发生的模式崩溃。 扩散模型已用于各种Image2Image转换任务,如超分辨率。受扩散模型卓越性能的启发,本文提出了一种基于扩散模型的SAR图像到光学图像的转换方法,该方法可以将SAR图像生成高质量的光学图像。我们利用其强大的架构,将SAR图像作为条件纳入模型的训练和推理过程,使模型能够从SAR图像中提取有用信息并将其转换为光学图像。 

        总之,本研究的主要贡献有以下两点:

  • 提出了一种新的条件扩散模型,用于SAR到光学图像的转换。该方法可以使目标信息有效保留在光学图像中,边界更清晰,并且比之前的方法更有效地解释SAR图像。 
  • 我们在GF-3和SEN12数据集上进行了实验,以直观地展示我们模型的转换性能。此外,我们将我们的模型与GF-3数据集上基于GAN的模型进行了比较,以证明我们的方法在定量和定性评估方面的优势。

2  相关工作 

2.1  扩散模型 

        扩散模型是最近提出的先进的生成模型,在许多计算机视觉任务中优于GAN。它们可以从噪声中生成高质量的图像。近年来,扩散模型作为一种强大的生成模型得到了迅速发展。它们在无条件图像生成方面表现良好,并且在各种条件生成任务上取得了重大进展。Dhariwal和Nichol改进了模型结构,提出了一种分类器引导的方法,可以使用预训练的分类器提供梯度作为生成目标类图像的指导。Choi等人提出了迭代潜变量细化(ILVR),该方法可以在生成过程中迭代地注入条件,在每个采样步骤无需额外训练的情况下,使用带噪声的参考图像对中间潜图像进行细化。与GAN相比,扩散模型具有多样性、训练稳定性和可扩展性等优点。本文提出的方法以SAR图像为条件指导生成过程。利用扩散模型卓越的图像生成能力,生成高质量的光学图像,实现了从SAR到光学图像的转换。

2.2  Image2Image的转换 

        I2I翻译的目的是生成与给定输入图像相关的输出图像,如将卫星图像转换为地图。该任务在计算机视觉中有广泛的应用,如风格迁移和超分辨率。最近,深度学习方法,特别是GAN,在这一领域取得了重大进展。基于GAN的通过对抗性训练有效地生成逼真的图像。如Zhu等人提出CycleGAN进行非配对I2I转换,改变图像中目标的属性。此外,Yang等人引入了ICGAN,采用融合低级和高级信息的并行特征发生器来提高光学图像轮廓的清晰度。在此基础上,他们随后的FG-GAN使用循环一致性损失推进了无监督图像翻译。FG-GAN采用非平衡结构生成器和多尺度高判别判别器,提高了模型的平移质量。还研究了I2I翻译任务的扩散模型,如UNIT-denoising扩散概率模型(DDPM)。我们认为SAR到光学图像的转换本质上是一个I2I任务。因此,受扩散模型的最新研究成果和优点的启发,我们提出了一种基于SAR图像引导的扩散框架的条件生成模型。 

3  方法 

        设计了一个基于扩散模型的生成式模型,可以在SAR图像作为条件下生成相应的光学图像。 

3.1  序论 

        大多数扩散模型都是基于DDPM框架构建的。DDPM由正向扩散过程和反向生成过程组成。如图1所示,这两个过程都被建模为马尔科夫链。 

        图1  概述原扩散过程,本质上是马尔可夫过程。前向扩散过程是指在原始数据中逐渐加入高斯噪声,直至其成为随机噪声。反向扩散过程是从随机噪声开始,逐步去除噪声,直至恢复原始数据。

        在正向扩散过程中,根据固定的方差调度\begin{Bmatrix} \beta _{1}, &\beta _{2}, &... &,\beta _{T} \end{Bmatrix},在T个扩散时间步长中逐渐加入高斯噪声λ,将原始图像x0转换为x_{T} \sim N(0,1)

\alpha _{t}=1-\beta _{t}\bar{\alpha} _{t}=\prod_{t=1}^{T}\alpha _{i},且x_{t}可以在任意时间步长T上采样: 

        在反向生成过程q(x_{t-1}\mid x_{t})中,逐渐去除噪声,重构原始数据。由于直接对后向扩散建模比较困难,DDPM学习参数化高斯变换p_{\theta }(x_{t-1}\mid x_{t})。本质上,DDPM预测高斯分布\mu _{\theta }(x_{t},t)的均值,逆向过程定义如下:

注意,在普通的DDPM中,方差\sigma _{t}是一个固定的超参数。 

        对于损失函数,Ho等提出了简化版本: 

其中\epsilon _{\theta }(x_{t},t)为模型预测均值参数化的高斯噪声。 

3.2  SAR引导的条件扩散 

        图2  SAR图像引导合成方案。给定一幅噪声图像x_{t}和相应的SAR图像c_{sar},在通道维数上串接,我们的方法将在SAR图像引导的方向上预测噪声,然后减去噪声,得到相应的光学图像。

        考虑到扩散模型在I2I转换任务中的优异表现,并针对GAN模型训练困难的问题,提出了一种基于扩散模型的SAR图像转换成相应光学图像的方法。本文提出的以SAR图像为条件的指导生成方法如图2所示,其基本架构为用于预测噪声的U-net网络。该方法基于具有T步扩散的原始DDPM模型。我们的关键思想是利用SAR图像来指导模型的推理过程。具体来说,对于正向扩散过程,我们使用干净的光学图像x_{0}作为输入,加入高斯噪声将其转换为x_{t},并将其与相应的SAR图像c_{sar}连接作为模型的输入。我们的模型被训练来预测在SAR图像条件下的每个扩散步骤中添加的噪声。后向生成过程从高斯噪声图像x_{T}开始,根据SAR图像逐步去噪,将其转化为清晰的相应光学图像。需要注意的是,每个扩散步骤的SAR图像条件都是无噪声的,这样做是为了使模型更加精确和一致。修改后的条件生成表示为:

训练损失函数与原始DDPM一致,所有概念遵循相同定义,SAR图像c_{sar}为条件: 

我们的训练和推理过程分别是算法1和算法2。 

4  实验 

4.1  数据集和指标

        我们使用GF-3数据集。其中,SAR数据主要来自中国GF-3空间SAR,分辨率为0.51 m。GF-3是中国首颗C波段多极化SAR卫星。该数据集覆盖城市/郊区,主要包含建筑物、道路和植被等地形表面。光学数据根据地理坐标从Google Maps下载,与相应的SAR图像相差不超过一个月。我们对图像对进行精确配准,并选择目标变化最小的场景,以确保SAR图像与光学图像之间的对应。

        我们首先将原始SAR图像的像素值归一化为[−1,1],之前没有进行其他特殊处理。我们首先确定合适的阈值,在不改变对比度的情况下对SAR图像进行归一化。归一化过程定义如下: 

式中x和\tilde{x}分别表示归一化前后SAR图像的像素值。\bar{x}是图像x的均值。然后我们将它们裁剪为256 × 256分辨率的大小。经过以上步骤,我们得到12850对样本。 

        此外,我们还在SEN12数据集上测试了我们的模型,以证明其性能。SEN12数据集由Sentinel-1和Sentinel-2分别获取的282384对SAR和光学图像组成。这些图像块是从地球陆地和季节的各个地点收集的,并经过人工评估,以去除配准不良的图像对。 

        为了定量评价,我们使用结构相似度(SSIM)[23]和 Fréchet inception distance (FID)来衡量生成的光学图像的质量。SSIM是比较两个图像中像素强度的局部模式并反映其SSIM的度量。SSIM测量图像相似性并评估亮度、对比度和结构方面。SSIM值越大,表示两个映像越相似。FID是一种度量,它计算由预训练的初始网络提取的两个特征分布之间的距离,并反映它们的感知相似性。 

4.2  实现细节

        在这项工作中,我们设置T = 2000。采用AdamW优化器进行\theta _{1}=0.9\theta _{2}=0.999的模型训练,伴随着热身和权值衰减。在最初的1000次迭代中,学习率从0到1e-4线性升温,然后在剩余的训练步骤中进行余弦衰减。我们在4 × 24 G NVIDIA 3090图形处理单元(GPU)上训练模型50000次,一批24次。 

4.3  实验结果 

        我们首先在GF-3和SEN12数据集上测试我们的模型。由于训练资源的限制,我们还没有在大规模场景上训练和测试我们的模型。图3是不同模型与我们方法的可视化对比,图4是我们模型的转换结果。如图4所示,转换结果表明,该模型能够准确恢复边界相对清晰的植被、道路等地物。对于稍微复杂一点的场景,比如建筑物,该模型成功地捕获了它们的轮廓,尽管有一些细节的损失,但它足以将它们与其他地面目标区分开来。此外,如图4所示,我们的模型熟练地重建了光学图像,证明了它在该领域的有效性。从人的视觉角度,可以很好地区分图像中的建筑物、绿地等一般特征,达到辅助解译的目的。 

        图3  不同模型的示例翻译图像。每一列图像表示。(a) SAR图像。(b) CycleGAN生成的结果。(c) NICE-GAN生成的结果。(d) CRAN生成的结果。(e)我们提出的模型的结果。(f)真实光学图像(地面真值)。

        图4  示例翻译图像。每一行图像为(a)作为条件的SAR图像和(b)我们的相应结果。(c)真实光学图像。前两列来自SEN12,后两列来自GF-3。

        为了评估该方法在现有图像翻译方法中的性能,我们与几种基于GAN的模型进行了比较分析。具体来说,我们选择CycleGAN和NiceGAN进行比较,这两种方法在I2I转换任务中已经取得了先进的性能。级联残差对抗网络(CRAN)是一种使用级联残差连接和混合L1-GAN损失的新型对抗网络,专门用于SAR到光学图像的转换。为了保证公平性,我们使用了它们的官方实现,并在GF-3数据集上进行了相同条件下的测试。如表1所示,我们提出的方法提高了SSIM和FID分数。它优于基于GAN的模型,达到了更高的性能,表明我们的条件扩散模型架构可以更好地学习从SAR到光学图像的映射规则。实验结果表明,该模型能够生成具有较高SSIM的高质量图像,并与真实光学图像具有视觉特征统计分布。

        表1  采用不同评价方法对不同方法的结果进行比较。 

        为了进行更直观的比较,我们进一步将GF-3数据集上不同场景下的翻译结果可视化,包括建筑物、道路等,与基于GAN的模型进行对比。如图3所示,我们的模型可以生成更加真实自然的光学图像,不同物体的边界更加明确。也可以看出,现有的模型在修复建筑物方面的表现都不是很好,但我们的模型具有最好的可识别性。然而,我们的方法存在整体颜色偏移的问题。CycleGAN采用一致性损失来保证生成图像的一致性,这也被后续基于GAN的模型所采用。将这种损失函数集成到我们提出的模型中尚未完成,这可能解释了与基于GAN的模型相比更严重的色移。通过将风格一致性损失集成到DDPM中来解决颜色变化仍然是一个未实现的目标,这将是未来工作的主要重点。此外,我们的目标是使我们的模型适应大型场景图像,增强其现实世界的适用性。这涉及到优化扩散模型,以减少参数和推理步骤,同时保持高质量的图像生成。为了缓解即时的色移挑战,我们使用对光学图像进行训练的着色模型来优化模型的结果,以生成更逼真的光学图像,这是实现实例感知着色的框架。

5  结论

        在本文中,我们提出了一种基于扩散过程的SAR到光学图像转换的新模型,该模型利用SAR图像作为制导将高斯噪声转换为真实的光学图像。它在生成光学图像方面优于当前基于GAN的模型,这些图像明显更清晰,并且显示更少的伪影。此外,我们的模型在训练中表现出显著的易用性,有效地规避了模式崩溃的常见问题。定量评估证实了其优越的性能,特别是在保持SAR和生成的光学图像之间的结构一致性方面。尽管取得了这些进步,但该模型仍然面临着挑战,比如颜色变化。未来的研究将集中于解决这一限制,并将模型扩展到更大的场景中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/443939.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何制作低代码开发的视频教程?

如何制作低代码开发的视频教程? 随着数字化转型的加速,越来越多的企业和组织开始采用低代码开发平台来加速应用程序的构建。对于许多开发者和业务人员来说,学习如何使用这些平台可以显著提高工作效率。因此,创建一份清晰、实用且…

JavaScript进阶--作用域-函数进阶

Javascript进阶 作用域 分类 局部 函数 >执行完变量被清空块 >用{}包住 >有可能被无法访问 【用var声明的变量】 全局 > 在script标签和.js文件最外层进行声明 作用域链 最底层的变量查找机制 > 在函数被执行时,会优先查找当前函数作用域中查找…

路径跟踪之导航向量场——二维导航向量场

今天带来一期轨迹跟踪算法的讲解,首先讲解二维平面中的导航向量场[1]。该方法具有轻量化、计算简便、收敛性强等多项优点。该方法根据期望的轨迹函数,计算全局位置的期望飞行向量,将期望飞行向量转为偏光角,输入底层控制器&#x…

【STM32单片机_(HAL库)】4-5-3【定时器TIM】【感应开关盖垃圾桶项目】项目实现

1.项目需求 以下几个事件触发时,垃圾桶自动开盖,并伴随蜂鸣器短响一声,同时 LED 灯闪烁一下,2秒后自动关盖: 检测到有人靠近检测到有震动按下按键 KEY1 2.硬件 STM32单片机最小系统震动传感器模块蜂鸣器模块&#…

CentOS 6文件系统

由冯诺依曼在 1945 年提出的计算机五大组成部分:运算器,控制器,存储器,输入设 备,输出设备。 1. 硬盘结构: (1)机械硬盘结构: 磁盘拆解图: 扇区,…

研发中台拆分之路:深度剖析、心得总结与经验分享

背景在 21 年,中台拆分在 21 年,以下为中台拆分的过程心得,带有一定的主观,偏向于中小团队中台建设参考(这里的中小团队指 3-100 人的团队),对于大型团队不太适用,毕竟大型团队人中 …

UGUI(六大UI根基组件)

Rect Transform 各种参数 是显示pos还是width/height 还是left/top/right/bottom之类巴拉巴拉,各种混合的展示baby,都是看anchor的设置 pivot的设置影响具体数值 至于blueprint mode ,就是用了之后框框不变,who wanna do thi…

理解PID(零)——什么是PID

PID控制器是一种广泛用于各种工业控制场合的控制器,它结构简单,可以根据工程经验整定参数Kp,Ki,Kd. 虽然现在控制专家提出了很多智能的控制算法,比如神经网络,模糊控制等,但是PID仍然被广泛使用。常见的PID控制器有位置…

开源全文搜索(搜索引擎)

吃水不忘挖井人,介绍Doug Cutting大牛是十分有必要的。 最早,接触到搜索引擎,知道有个Nutch(开源搜索引擎),于是开始查看Nutch相关的资料,发现了Nutch的创始人Doug Cutting,随着项目…

初创公司首选HR软件推荐与功能解析

初创企业需HR软件自动化招聘、文书、日常任务及合规管理,提升效率。ZohoPeople是理想选择,性价比高,版本多样,满足不同需求。 1、简化招聘流程 您一直在寻找杰出的人才,以助您的初创企业飞跃发展。您选择的HR软件应该…

Python数字图像处理实战——基于OpenCV实现多种滤波器(附完整代码和结果图)

Python数字图像处理实战——基于OpenCV实现多种滤波器(附完整代码和结果图) 关于作者 作者:小白熊 作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测…

极客兔兔Gee-Cache Day7

protobuf配置: 从 Protobuf Releases 下载最先版本的发布包安装。解压后将解压路径下的 bin 目录 加入到环境变量即可。 如果能正常显示版本,则表示安装成功。 $ protoc --version libprotoc 3.11.2在Golang中使用protobuf,还需要protoc-g…

LSTM时间序列模型实战——预测上证指数走势

LSTM时间序列模型实战——预测上证指数走势 关于作者 作者:小白熊 作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测,图像分类,姿态识别,…

影刀RPA实战:Excel排序、替换与格式

1.实战目标 今天继续介绍影刀RPA操作Excel的指令,内容替换,数据排序与单元格格式设置,这几个功能在日常工作中使用率还是比较频繁的。我们可以使用影刀来处理这些重复繁琐的工作。 2.内容替换 我们手动替换内容时 打开Excel文件&#xff1…

鸿蒙进入“无人区”:该如何闯关?

按照华为方面的说法,“打造鸿蒙操作系统是三大战役,目前已经完成了底座和体验两大战役,第三大战役则是生态。”生态固然重要,但要让鸿蒙与当今世界主流操作系统抗衡,乃至成为新一代操作系统中的翘楚,其实还…

上市四天暴涨又暴跌,扫描全能王背后公司坐上“过山车”

股价四天涨五倍,遇到回调跌一半,扫描全能王母公司——合合信息,一上市就坐上了“过山车”。 合合信息其实早在2021年就向科创板申请上市,并在2023年成功过会,但直到9月13日才开启申购,IPO之路一走就是三年…

springboot-网站开发-thymeleaf引擎报错找不到指定的页面模板文件

springboot-网站开发-thymeleaf引擎报错找不到指定的页面模板文件! 这种错误的情况,发生,一般都是因为,我们自己的html模板文件,存档位置并不是在默认的templates下面。而是我们自己新建的一个子目录里面。然后&#x…

又被Transformer秀到了!结合小样本学习发A会!

在有限的数据资源下,为了训练出高性能的机器学习模型,我们常会考虑Transformer小样本学习。 这是因为Transformer能从有限的数据中提取更多有用的信息,这样与小样本学习结合,可以更有效的帮助我们提高模型的性能,加速…

Vue84 vue3项目结构分析

打开main.js文件,发现和vue2不同 //引入的不再是Vue构造函数了,引入的是一个名为createApp的工厂函数 import { createApp } from vue import App from ./App.vue//创建应用实例对象——app(类似于之前Vue2中的vm,但app比vm更“轻”) const …

Chrome(谷歌)浏览器 数据JSON格式美化 2024显示插件安装和使用

文章目录 目录 文章目录 安装流程 小结 概要安装流程技术细节小结 概要 没有美化的格式浏览器展示 美化之后效果图 安装流程 下载地址 https://github.com/gildas-lormeau/JSONVue 点击下载 下载成功,如图所示 解压文件 添加成功,如图所示 通过浏览器…