用于相位解包的卷积和空间四向 LSTM 联合网络

原文:A Joint Convolutional and Spatial Quad-Directional LSTM Network for Phase Unwrapping
作者:Malsha V. Perera 和 Ashwin De Silva

摘要: 相位展开是一个经典的病态问题,其目标是从包裹相位中恢复真实的相位。本文,我们介绍了一种新颖的卷积神经网络(CNN),它结合了空间四向长短期记忆(SQD-LSTM)用于相位展开,通过将其构建为一个回归问题。结合SQD-LSTM可以克服典型CNNs固有的难以学习全局空间依赖性的困难,而这些依赖性在恢复真实相位时至关重要。此外,我们采用了针对问题特定的复合损失函数来训练这个网络。所提出的网络在严重的噪声条件下表现优于现有方法(信噪比为0 dB时的归一化均方根误差为1.3%),同时显著减少了计算时间(0.054秒)。**该网络在训练期间也不需要大规模数据集,**因此非常适合于需要快速准确相位展开的应用,而这些应用的数据有限。

关键词:相位展开,空间四向LSTM,卷积神经网络

引言:

相位展开是一个经典的病态问题,其目标是从包裹相位中恢复真实的相位。本文,我们介绍了一种新颖的卷积神经网络(CNN),它结合了空间四向长短期记忆(SQD-LSTM)用于相位展开,通过将其构建为一个回归问题。结合SQD-LSTM可以克服典型CNNs固有的难以学习全局空间依赖性的困难,而这些依赖性在恢复真实相位时至关重要。此外,我们采用了针对问题特定的复合损失函数来训练这个网络。提出的网络在严重的噪声条件下表现优于现有方法(信噪比为0 dB时的归一化均方根误差为1.3%),同时显著减少了计算时间(0.054秒)。该网络在训练期间也不需要大规模数据集,因此非常适合于需要快速准确相位展开的应用,而这些应用的数据有限。

相位展开问题在许多应用中非常普遍,例如磁共振成像(MRI)中的定量易感性映射(QSM)[1]、合成孔径雷达(SAR)干涉测量[2]、条纹投影技术(FPT)[3]和数字全息干涉测量[4]。其目标是从观测到的包裹相位信号中恢复真实的相位信号,该信号的范围在(−π, π]内。虽然在理想条件下从包裹相位恢复真实相位可能很方便,但在存在噪声、相位不连续和相位快速变化的情况下,相位展开问题变得具有挑战性。相位展开问题通常通过两种主要方法来解决:路径跟踪方法和最小范数方法。路径跟踪方法,如质量引导相位展开(QGPU)算法[5]和分支切割算法[6],通过沿选定路径集成相位来执行相位展开。尽管路径跟踪算法在计算上相对高效,但它们对噪声不鲁棒。基于最小范数的算法[7]对噪声具有鲁棒性,但它们的计算效率低于路径跟踪方法。

近年来**,深度学习算法在许多计算机视觉任务中取得了流行并实现了最先进的性能。遵循这一趋势,一些最近的研究[8, 9, 10, 11]尝试将深度学习应用于解决相位展开问题。在这些研究中,[8, 9, 10]将相位展开问题重新构建为语义分割任务,训练全卷积网络(FCNs)以预测每个像素的包裹计数。在这些方法中,Spoorthi等人的[8] PhaseNet 2.0,一个由密集块[12]组成的深度编码器-解码器架构**,具有最佳的相位展开性能。据我们所知,只有Wang等人[11]将相位展开视为一个回归问题,使用受U-NET[13]和ResNet[14]启发的FCN直接从包裹相位估计真实相位。这些基于FCN的相位展开方法在不同噪声水平下表现合理,同时与传统方法相比,计算时间显著减少。尽管有这些好处,这些网络需要大规模数据集,从而降低了它们在现实世界应用中的适用性。此外,仅基于FCNs的方法还面临另一个问题。典型CNNs执行的局部卷积和池化操作通常忽略了图像不同区域之间的全局空间关系。由于大多数现实世界相位图像包含某些空间结构,因此在学习从包裹相位到真实相位的映射时,建模这种全局空间关系至关重要。递归神经网络(RNNs)[15]是一种可以对时间序列中的上下文关系进行建模的神经网络类型。然而,不能直接将RNN应用于图像的特征图。ReNet[16]和C-RNN[17]介绍了将RNN应用于特征图的方法,受到它们的启发,Ryu等人[18]尝试使用卷积和递归网络的组合在MRI图像中执行相位展开。然而,这项工作没有提供任何定量结果,也没有考虑噪声对相位展开的影响。尽管传统的RNN可能会取得一些成功,但由于它们在建模时间序列的长期依赖性方面的限制,它们在建模从特征图中派生的长序列的空间关系方面可能不太适合。长短期记忆(LSTM)[19],一种能够建模长期依赖性的RNN,将更适合这种设置。为了解决这些缺点,在本文中,我们提出了一种编码器-解码器CNN架构,该架构结合了空间四向LSTM模块,结合了FCNs和LSTMs的力量,以执行准确和快速的相位展开,而无需在大规模数据集上进行训练。然后我们描述了一个针对问题特定的复合损失函数,由误差的方差和误差的总变化损失组成,用于训练这个网络。最后,我们报告了一项全面研究的发现,该研究比较了所提出的网络与PhaseNet 2.0、Ryu等人的方法和QGPU在不同噪声水平下的性能。这些发现证实,与其他方法相比,所提出的网络在执行相位展开时显示出对严重噪声条件的强大鲁棒性和高计算效率。

  1. 方法论

2.1. 数据生成 本研究中使用的数据库由包含随机形状的合成相位图像及其相应的包裹相位图像组成。这些随机形状是通过添加和减去具有不同形状和位置的几个高斯函数创建的。以这种方式混合高斯函数确保形成了不规则和任意的形状,而不是显式的模式,这反过来又使所提出的网络能够学习适用于任何一般模式的相位连续性。此外,还向这些合成相位图像沿垂直和水平方向随机添加选定的斜率,以纳入坡道相位。合成相位图像φ(x, y)的包裹相位图像ψ(x, y)的计算如下所示。 $\psi(x, y) = \angle \exp \left( j\phi(x, y) \right)$
其中,(x, y)是像素的空间坐标,j是虚数单位。按照此方法,创建了两个数据集,每个数据集包含6000个相位图像(256×256),其值范围从-44到44。其中一个数据集的相位图像在包裹之前随机添加了0、5、10、20和60 dB的高斯噪声水平,以模拟现实世界应用中包裹相位图像中普遍存在的噪声。我们将此数据集称为“噪声”数据集,另一个称为“无噪声”数据集。

2.2. 空间四向LSTM模块

设X = {xij} ∈ Rw×h×c为输入特征图,其中w、h和c分别是X的宽度、高度和特征维度。从X,我们可以推导出四个不同的序列,如下所示:

换句话说,x→、x←、x↓和x↑分别代表当从左到右、从右到左、从上到下和从下到上遍历X时获得的序列,如图1所示。设x是上述四个序列中的任意一个。那么x(s) ∈ Rc,其中s ∈ [1, ..., w × h]是描述原始图像中相应区域的特征向量。为了在这些四个序列内建模空间关系,我们使用LSTM,它们专门用于建模长期依赖性。简单来说,序列x的LSTM层的输入-输出关系可以写成如下形式: $y(s) = \text{LSTM} \left( x(s), y(s-1); W_x, u \right)$ 其中,y(s) ∈ Ru是s处的LSTM输出,Wx是统一的LSTM权重,u是层中的单元数。在我们的SQD-LSTM模块中,x→、x←、x↓和x↑由4个具有统一权重Wx→、Wx←、Wx↓和Wx↑的独立LSTM分别处理。通过重新排列来自4个LSTM的输出序列y→、y←、y↓和y↑,我们分别获得输出特征图Y→、Y←、Y↓和Y↑,每个特征图的大小为Rw×h×u。与水平(Y→、Y←)和垂直(Y↓、Y↑)方向相关的输出特征图如图1所示进行连接,并通过独立的3×3卷积层传递,每个层包含d个滤波器,以便探索从LSTM层获得的空间特征的局部关联。最后,通过两个卷积层的输出形成SQD-LSTM U ∈ Rw×h×2d的输出特征图,通过连接两个卷积层的输出特征图来完成。在本研究中,u和d分别设置为32和64。

3.3. 网络架构 所提出的网络架构如图2所示。总的来说,该架构由一个全卷积编码器-解码器网络组成,编码器的输出在送入解码器之前先通过所提出的SQD-LSTM模块。编码器的输出特征图能够表示输入图像的局部信息。将编码器输出送入SQD-LSTM模块,允许网络学习编码器输出中包含的局部特征之间的空间依赖性。随后,SQD-LSTM模块的输出被送入解码器网络,通过转置卷积操作提高输出的分辨率。此外,为了从解码器层和编码器层结合语义特征和局部特征,我们在图2中展示了添加跳跃连接的方式。以这种方式添加跳跃连接,确保了网络在后层中组装出更精细的输出。网络中的每个卷积块都包含一个3×3的卷积层,后跟一个批量归一化层和一个ReLU激活层。每个编码器卷积块后跟一个步长为2的2×2最大池化层,而每个解码器卷积块前都是一个步长为2的3×3转置卷积层。由于网络执行的是回归任务**,解码器层的最后一个卷积块后跟一个带有线性激活的1×1卷积层。**

3.4. 损失函数 由于我们将相位展开问题构建为一个回归任务,通常选择均方误差(MSE)损失函数。然而,我们的实验表明,当应用于所提出的网络时,MSE损失显示出不足的收敛性,导致相位展开性能差。根据(1),可以得出 ϕ+2πnϕ+2πn 对于所有的 n∈Zn∈Z 会产生相同的包裹相位 ψψ。因此,相位展开问题 ψψ 没有唯一解。由于MSE损失强制网络学习一个唯一解,所以它并不适合相位展开问题的特性。因此,需要一个损失函数,在收敛时允许其他解,同时增加预测相位 ϕ^ϕ^ 和真实相位 ϕϕ 之间的相似性。为了解决这些问题,我们采用了下定义的复合损失函数 LcLc

$\mathcal{L}c=\lambda_1\mathcal{L}{var}+\lambda_2\mathcal{L}_{tv}\quad$

$\mathcal{L}{var}=\mathbb{E}\big[(\hat{\phi}-\phi)^{2}\big]-\big(\mathbb{E}\big[(\hat{\phi}-\phi)\big]\big)^{2}\text{(4)}\\\mathcal{L}{tv}=\mathbb{E}\big[|\hat{\phi}{x}-\phi{x}|+|\hat{\phi}{y}-\phi{y}|\big]\text{(5)}$

λ1 和 λ2λ2 是分配给两个损失的权重,在训练期间经验性地设置为1和0.1。误差的方差损失 LvarLvar 允许在收敛时有其他解,而误差的总变分损失 LtvLtv 通过强制网络匹配它们的梯度来增加 ϕ^ϕ^ 和 ϕϕ 之间的相似性。

请注意,这是对文献方法论部分的直译,可能需要根据具体研究内容进一步调整以确保准确性。

好的,接下来是文献中“3. EXPERIMENTS AND RESULTS”部分的中文翻译:

3. 实验与结果

所提出的网络在Keras中实现,并分别在第2.3节提到的两个数据集上进行训练和测试。在两种情况下,模型都是使用学习率为0.001的ADAM优化器进行训练,并且在大约1.5小时内收敛于10个epoch。同样,Ryu等人的[18]网络、PhaseNet 2.0[8]和QGPU[5]也在两个数据集上实现并进行了测试。其中,Ryu等人的网络和PhaseNet 2.0在噪声和无噪声数据集上都进行了训练。此外,为了评估SQD-LSTM模块和损失函数Lc的重要性,我们训练并测试了两个单独的U-NET(其卷积架构类似于所提出的网络),一个使用MSE作为损失函数,另一个使用Lc,仅在无噪声数据集上进行。所有上述训练和测试都是在NVIDIA Tesla K80 GPU上进行的,每个数据集的固定训练-测试拆分为5000-1000。为了评估和比较这些方法,我们计算了展开相位图像的归一化均方根误差(NRMSE - 由相应真实相位图像的范围归一化)并测量了每种方法的输出平均计算时间。这些结果总结在表1中。图3中展示了每种方法得到的选定无噪声和噪声(10 dB和0 dB)包裹相位图像的展开相位图像,以及NRMSE随噪声水平变化的图表。

表1. 结果

方法无噪声噪声计算时间 (s)
UNET (MSE)14.24%23.40%-
UNET (Lc)2.75%26.20%-
Ryu et al.[18]2.23%3.84%0.687
PhaseNet 2.0 [8]9.41%17.53%0.234
QGPU [5]10−13%5.04%35.42
提出的方法0.84%0.90%0.054

表1显示,QGPU在无噪声图像的展开上几乎达到了完美的性能。然而,在噪声图像上表现不佳,并且与深度学习方法相比,其平均计算时间(35.42秒)非常高。另一方面,提出的方法在无噪声图像上达到了与QGPU相当的性能(NRMSE = 0.84%),在噪声图像上达到了最高性能(NRMSE = 0.9%),并且在比较的方法中平均计算时间最低(0.054秒)。从图3 (b)可以看出,所提出的网络能够准确地(NRMSE = 1.26%)展开高达信噪比SNR = 0 dB的严重噪声水平的包裹相位图像。还观察到,所提出的网络超越了目前持有最先进的基于深度学习的相位展开性能的PhaseNet 2.0。PhaseNet 2.0是一个比较深的网络,由密集块组成,因此其训练过程对数据量要求很高。然而,在本研究中,由于使用了相对较小的(5000个)训练数据集,其相位展开误差有所增加。尽管如此,仅在5000张图像上训练的所提出网络仍然在噪声数据中达到了考虑的方法中最高的相位展开性能,因此非常适合实际应用中数据有限的情况。正如表1所示,使用Lc的U-NET比使用MSE的U-NET有更好的相位展开性能。因此,很明显Lc是这个问题比MSE更适合的损失函数。同样,很明显提出的方法比使用Lc的U-NET表现更好。在实验中,我们还注意到所提出的网络比任何考虑的方法都更快地收敛。这些观察结果使我们得出结论,所提出网络的成功归功于SQD-LSTM模块和Lc损失函数。

图3. (a) 展示了不同方法得到的选定无噪声和噪声(10 dB和0 dB)包裹相位图像的展开相位图像。 (b) 展示了所提出的方法、Ryu等人的方法[18]、QGPU和PhaseNet 2.0相对于不同噪声水平的NRMSE的图表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/392720.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RAG前沿技术/解决方案梳理

RAG前沿技术/解决方案梳理 BenchmarkRetrievalAdaptive-RAGDR-RAGRichRAGGenRT Critique/ReasoningSelf-RAGCorrective RAGSpeculative RAGPlanRAGSelf-ReasoningReSP MemorySelfmemHippoRAG Query RewriteRaFe SummaryRefiner 个人理解 对当前RAG的学术研究(或者好…

SAP 接口PO(PI,XI)在ECC端日志记录及显示

在接口的处理中通常会需要记录日志,而如果是与PO(PI,XI)做的接口的话,可以使用事务码SXI_MONITOR – XI:消息监控,来查询日志,但对于一些有加密,或者在业务接口功能上想直接查询报文日志时,会在…

使用 MinIO、Langchain 和 Ray Data 构建分布式嵌入式子系统

嵌入子系统是实现检索增强生成所需的四个子系统之一。它将您的自定义语料库转换为可以搜索语义含义的向量数据库。其他子系统是用于创建自定义语料库的数据管道,用于查询向量数据库以向用户查询添加更多上下文的检索器,最后是托管大型语言模型 &#xff…

ES6中的Promise、async、await,超详细讲解!

Promise是es6引入的异步编程新解决方案,Promise实例和原型上有reject、resolve、all、then、catch、finally等多个方法,语法上promise就是一个构造函数,用来封装异步操作并可以获取其成功或失败的结果,本篇文章主要介绍了ES6中的P…

(免费领源码)java#SSM#MYSQL私家车位共享APP 51842-计算机毕业设计项目选题推荐

目 录 摘要 1 绪论 1.1 课题的研究背景 1.2研究内容与研究目标 1.3ssm框架 1.4论文结构与章节安排 2 2 私家车位共享APP系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据增加流程 2.2.2 数据修改流程 2.2.3数据删除流程 2.3 系统功能分析 2.3.1功能性分析 2…

原型图绘制技巧

针对于 Axure RP绘图软件。 1、拉辅助线 目的,确定画布大小尺寸从上面和左面的刻度尺上,点击鼠标,拖动,就可以拉出一条线。 2、画布底模设为组件 右键转换为母版,方便后续其他页面使用 3、按钮 按钮字体不要太大&am…

【嵌入式】STM3212864点阵屏使用SimpleGUI单色屏接口库——(2)精简字库

一 开源库简介与移植 最近一个项目需要用12864屏幕呈现一组较为复杂的菜单界面,本着不重复造轮子的原则找到了SimpleGUI开源库。 开源地址:SimpleGUI: 一个面向单色显示屏的开源GUI接口库。 SimpleGUI是一款针对单色显示屏设计的接口库。相比于传统的GUI…

SpringBoot集成阿里百炼大模型(初始demo) 原子的学习日记Day01

文章目录 概要下一章SpringBoot集成阿里百炼大模型(多轮对话) 原子的学习日记Day02 整体架构流程技术名词解释集成步骤1,选择大模型以及获取自己的api-key(前面还有一步开通服务就没有展示啦!)2&#xff0c…

CSS学习 02 利用鼠标悬停制造按钮边框的渐变方向变化

效果 页面背景为深灰色,使用Karla字体。容器内的按钮居中显示,按钮有一个彩色渐变的边框。按钮的背景为黑色,文字为浅灰色。当鼠标悬停在按钮边框上时,边框的渐变方向变化,按钮文字变为白色,并且按钮内边距…

简单猜谜小程序开发

了解小程序的结构 项目根目录 包含小程序的配置文件和其他资源。 页面目录 每个页面都有独立的目录,通常包含 .json、.wxml、.wxss、.js 文件: .json:页面配置文件,用于配置页面的窗口表现等。 .wxml:页面的布局文件…

JS等待所有方法执行完成在执行下一个方法,promise All

在工作中会遇到这样一个场景,前端需要拿到不同接口返回的结果在执行某个逻辑,当使用链式那样的方式去请求,等一个接口响应完在请求下一个接口,这种方法就会导致请求时间特别长。这个时候就可以使用promise all,同时请求…

Python酷库之旅-第三方库Pandas(067)

目录 一、用法精讲 266、pandas.Series.dt.second属性 266-1、语法 266-2、参数 266-3、功能 266-4、返回值 266-5、说明 266-6、用法 266-6-1、数据准备 266-6-2、代码示例 266-6-3、结果输出 267、pandas.Series.dt.microsecond属性 267-1、语法 267-2、参数 …

IDEA如何去掉编辑框右侧的竖线

打开 IntelliJ Idea 软件 依次找到 File—>Settings—>Editor—>General—>Appearance 去掉勾选 Show hard wrap and visual guides (configured in Code Style options)

PHP海报在线制作系统小程序源码

创意无限,设计零门槛! 🎨 一键解锁设计大师潜能 你还在为找不到合适的设计师制作海报而烦恼吗?告别繁琐沟通,拥抱“海报在线制作系统”!这个神奇的平台,让你无需任何设计基础,也能…

后台弱口令部署war包 漏洞复现

1.搭建好环境打开页面---点击右方的manager app 默认账号密码为tomcat 2.登录完成后滑到下面点击浏览 3.将你生成的jsp木马压缩为zip格式并将后缀名改为war 4.提交此war压缩包然后在目录中点击 5.点击完后在后面加lkj.jsp,访问成功证明注入成功 5.打开哥斯拉连接…

js获取近30天近60天时间区间

1.从今天往前推30天 handleSetTime(value) {//value传入自定义时间 30/60/90//因为这里要加上今天时间,所以开始时间-1const value1 value - 1const date new Date()const startTimestamp date.getTime() - value1 * (24 * 60 * 60 * 1000 * 1)const sDate new Date(startTi…

Unity实现屏幕黑边--游戏画面和UI异形屏处理(安全区渲染)

在手机上,如果想以黑边形式显示游戏画面,比如显示区域避开异形屏、水滴屏那一行。有很多种思路,最后觉得下面这种方法比较简单合适,下面分享一下。 方法:需要分别处理,游戏画面黑边、UI黑边: …

帮助网站提升用户参与度的5个WordPress插件

仅靠编写精彩的内容、设计精美的图像和创建简化的客户旅程不足以提高网站参与度。您需要让用户在首次访问后继续与您的网站互动并成为回访者,才能真正吸引您所追求的兴趣。 幸运的是,对于 WordPress 用户来说,有数百种工具可用于提高用户参与…

html实现好看的塔罗牌、十二星座运势网站源码

文章目录 1.设计来源1.1 十二星座1.2 所有界面效果图 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/deta…

java网络爬虫

前言 单一个项目的功能需要测试的时候,就需要使用大量的假数据做测试,但是这些数据又不能太假,必须合乎常理。于是我们需要爬虫爬取一些网站的一些允许爬取的数据,来做项目功能测试。 一.确认爬取目标 现在爬取下面三个网站的数据…