用于相位解包的卷积和空间四向 LSTM 联合网络

原文：A Joint Convolutional and Spatial Quad-Directional LSTM Network for Phase Unwrapping
作者：Malsha V. Perera 和 Ashwin De Silva

摘要： 相位展开是一个经典的病态问题，其目标是从包裹相位中恢复真实的相位。本文，我们介绍了一种新颖的卷积神经网络（CNN），它结合了空间四向长短期记忆（SQD-LSTM）用于相位展开，通过将其构建为一个回归问题。结合SQD-LSTM可以克服典型CNNs固有的难以学习全局空间依赖性的困难，而这些依赖性在恢复真实相位时至关重要。此外，我们采用了针对问题特定的复合损失函数来训练这个网络。所提出的网络在严重的噪声条件下表现优于现有方法（信噪比为0 dB时的归一化均方根误差为1.3%），同时显著减少了计算时间（0.054秒）。**该网络在训练期间也不需要大规模数据集，**因此非常适合于需要快速准确相位展开的应用，而这些应用的数据有限。

关键词：相位展开，空间四向LSTM，卷积神经网络

引言：

相位展开是一个经典的病态问题，其目标是从包裹相位中恢复真实的相位。本文，我们介绍了一种新颖的卷积神经网络（CNN），它结合了空间四向长短期记忆（SQD-LSTM）用于相位展开，通过将其构建为一个回归问题。结合SQD-LSTM可以克服典型CNNs固有的难以学习全局空间依赖性的困难，而这些依赖性在恢复真实相位时至关重要。此外，我们采用了针对问题特定的复合损失函数来训练这个网络。提出的网络在严重的噪声条件下表现优于现有方法（信噪比为0 dB时的归一化均方根误差为1.3%），同时显著减少了计算时间（0.054秒）。该网络在训练期间也不需要大规模数据集，因此非常适合于需要快速准确相位展开的应用，而这些应用的数据有限。

相位展开问题在许多应用中非常普遍，例如磁共振成像（MRI）中的定量易感性映射（QSM）[1]、合成孔径雷达（SAR）干涉测量[2]、条纹投影技术（FPT）[3]和数字全息干涉测量[4]。其目标是从观测到的包裹相位信号中恢复真实的相位信号，该信号的范围在(−π, π]内。虽然在理想条件下从包裹相位恢复真实相位可能很方便，但在存在噪声、相位不连续和相位快速变化的情况下，相位展开问题变得具有挑战性。相位展开问题通常通过两种主要方法来解决：路径跟踪方法和最小范数方法。路径跟踪方法，如质量引导相位展开（QGPU）算法[5]和分支切割算法[6]，通过沿选定路径集成相位来执行相位展开。尽管路径跟踪算法在计算上相对高效，但它们对噪声不鲁棒。基于最小范数的算法[7]对噪声具有鲁棒性，但它们的计算效率低于路径跟踪方法。

近年来**，深度学习算法在许多计算机视觉任务中取得了流行并实现了最先进的性能。遵循这一趋势，一些最近的研究[8, 9, 10, 11]尝试将深度学习应用于解决相位展开问题。在这些研究中，[8, 9, 10]将相位展开问题重新构建为语义分割任务，训练全卷积网络（FCNs）以预测每个像素的包裹计数。在这些方法中，Spoorthi等人的[8] PhaseNet 2.0，一个由密集块[12]组成的深度编码器-解码器架构**，具有最佳的相位展开性能。据我们所知，只有Wang等人[11]将相位展开视为一个回归问题，使用受U-NET[13]和ResNet[14]启发的FCN直接从包裹相位估计真实相位。这些基于FCN的相位展开方法在不同噪声水平下表现合理，同时与传统方法相比，计算时间显著减少。尽管有这些好处，这些网络需要大规模数据集，从而降低了它们在现实世界应用中的适用性。此外，仅基于FCNs的方法还面临另一个问题。典型CNNs执行的局部卷积和池化操作通常忽略了图像不同区域之间的全局空间关系。由于大多数现实世界相位图像包含某些空间结构，因此在学习从包裹相位到真实相位的映射时，建模这种全局空间关系至关重要。递归神经网络（RNNs）[15]是一种可以对时间序列中的上下文关系进行建模的神经网络类型。然而，不能直接将RNN应用于图像的特征图。ReNet[16]和C-RNN[17]介绍了将RNN应用于特征图的方法，受到它们的启发，Ryu等人[18]尝试使用卷积和递归网络的组合在MRI图像中执行相位展开。然而，这项工作没有提供任何定量结果，也没有考虑噪声对相位展开的影响。尽管传统的RNN可能会取得一些成功，但由于它们在建模时间序列的长期依赖性方面的限制，它们在建模从特征图中派生的长序列的空间关系方面可能不太适合。长短期记忆（LSTM）[19]，一种能够建模长期依赖性的RNN，将更适合这种设置。为了解决这些缺点，在本文中，我们提出了一种编码器-解码器CNN架构，该架构结合了空间四向LSTM模块，结合了FCNs和LSTMs的力量，以执行准确和快速的相位展开，而无需在大规模数据集上进行训练。然后我们描述了一个针对问题特定的复合损失函数，由误差的方差和误差的总变化损失组成，用于训练这个网络。最后，我们报告了一项全面研究的发现，该研究比较了所提出的网络与PhaseNet 2.0、Ryu等人的方法和QGPU在不同噪声水平下的性能。这些发现证实，与其他方法相比，所提出的网络在执行相位展开时显示出对严重噪声条件的强大鲁棒性和高计算效率。

方法论

2.1. 数据生成 本研究中使用的数据库由包含随机形状的合成相位图像及其相应的包裹相位图像组成。这些随机形状是通过添加和减去具有不同形状和位置的几个高斯函数创建的。以这种方式混合高斯函数确保形成了不规则和任意的形状，而不是显式的模式，这反过来又使所提出的网络能够学习适用于任何一般模式的相位连续性。此外，还向这些合成相位图像沿垂直和水平方向随机添加选定的斜率，以纳入坡道相位。合成相位图像φ(x, y)的包裹相位图像ψ(x, y)的计算如下所示。 $\psi(x, y) = \angle \exp \left( j\phi(x, y) \right)$
其中，(x, y)是像素的空间坐标，j是虚数单位。按照此方法，创建了两个数据集，每个数据集包含6000个相位图像（256×256），其值范围从-44到44。其中一个数据集的相位图像在包裹之前随机添加了0、5、10、20和60 dB的高斯噪声水平，以模拟现实世界应用中包裹相位图像中普遍存在的噪声。我们将此数据集称为“噪声”数据集，另一个称为“无噪声”数据集。

2.2. 空间四向LSTM模块

设X = {xij} ∈ Rw×h×c为输入特征图，其中w、h和c分别是X的宽度、高度和特征维度。从X，我们可以推导出四个不同的序列，如下所示：

换句话说，x→、x←、x↓和x↑分别代表当从左到右、从右到左、从上到下和从下到上遍历X时获得的序列，如图1所示。设x是上述四个序列中的任意一个。那么x(s) ∈ Rc，其中s ∈ [1, ..., w × h]是描述原始图像中相应区域的特征向量。为了在这些四个序列内建模空间关系，我们使用LSTM，它们专门用于建模长期依赖性。简单来说，序列x的LSTM层的输入-输出关系可以写成如下形式： $y(s) = \text{LSTM} \left( x(s), y(s-1); W_x, u \right)$ 其中，y(s) ∈ Ru是s处的LSTM输出，Wx是统一的LSTM权重，u是层中的单元数。在我们的SQD-LSTM模块中，x→、x←、x↓和x↑由4个具有统一权重Wx→、Wx←、Wx↓和Wx↑的独立LSTM分别处理。通过重新排列来自4个LSTM的输出序列y→、y←、y↓和y↑，我们分别获得输出特征图Y→、Y←、Y↓和Y↑，每个特征图的大小为Rw×h×u。与水平（Y→、Y←）和垂直（Y↓、Y↑）方向相关的输出特征图如图1所示进行连接，并通过独立的3×3卷积层传递，每个层包含d个滤波器，以便探索从LSTM层获得的空间特征的局部关联。最后，通过两个卷积层的输出形成SQD-LSTM U ∈ Rw×h×2d的输出特征图，通过连接两个卷积层的输出特征图来完成。在本研究中，u和d分别设置为32和64。

3.3. 网络架构 所提出的网络架构如图2所示。总的来说，该架构由一个全卷积编码器-解码器网络组成，编码器的输出在送入解码器之前先通过所提出的SQD-LSTM模块。编码器的输出特征图能够表示输入图像的局部信息。将编码器输出送入SQD-LSTM模块，允许网络学习编码器输出中包含的局部特征之间的空间依赖性。随后，SQD-LSTM模块的输出被送入解码器网络，通过转置卷积操作提高输出的分辨率。此外，为了从解码器层和编码器层结合语义特征和局部特征，我们在图2中展示了添加跳跃连接的方式。以这种方式添加跳跃连接，确保了网络在后层中组装出更精细的输出。网络中的每个卷积块都包含一个3×3的卷积层，后跟一个批量归一化层和一个ReLU激活层。每个编码器卷积块后跟一个步长为2的2×2最大池化层，而每个解码器卷积块前都是一个步长为2的3×3转置卷积层。由于网络执行的是回归任务**，解码器层的最后一个卷积块后跟一个带有线性激活的1×1卷积层。**

3.4. 损失函数 由于我们将相位展开问题构建为一个回归任务，通常选择均方误差（MSE）损失函数。然而，我们的实验表明，当应用于所提出的网络时，MSE损失显示出不足的收敛性，导致相位展开性能差。根据（1），可以得出 ϕ+2πnϕ+2πn 对于所有的 n∈Zn∈Z 会产生相同的包裹相位 ψψ。因此，相位展开问题 ψψ 没有唯一解。由于MSE损失强制网络学习一个唯一解，所以它并不适合相位展开问题的特性。因此，需要一个损失函数，在收敛时允许其他解，同时增加预测相位 ϕ^ϕ^ 和真实相位 ϕϕ 之间的相似性。为了解决这些问题，我们采用了下定义的复合损失函数 LcLc。

$\mathcal{L}c=\lambda_1\mathcal{L}{var}+\lambda_2\mathcal{L}_{tv}\quad$

$\mathcal{L}{var}=\mathbb{E}\big[(\hat{\phi}-\phi)^{2}\big]-\big(\mathbb{E}\big[(\hat{\phi}-\phi)\big]\big)^{2}\text{(4)}\\\mathcal{L}{tv}=\mathbb{E}\big[|\hat{\phi}{x}-\phi{x}|+|\hat{\phi}{y}-\phi{y}|\big]\text{(5)}$

λ1 和 λ2λ2 是分配给两个损失的权重，在训练期间经验性地设置为1和0.1。误差的方差损失 LvarLvar 允许在收敛时有其他解，而误差的总变分损失 LtvLtv 通过强制网络匹配它们的梯度来增加 ϕ^ϕ^ 和 ϕϕ 之间的相似性。

请注意，这是对文献方法论部分的直译，可能需要根据具体研究内容进一步调整以确保准确性。

好的，接下来是文献中“3. EXPERIMENTS AND RESULTS”部分的中文翻译：

3. 实验与结果

所提出的网络在Keras中实现，并分别在第2.3节提到的两个数据集上进行训练和测试。在两种情况下，模型都是使用学习率为0.001的ADAM优化器进行训练，并且在大约1.5小时内收敛于10个epoch。同样，Ryu等人的[18]网络、PhaseNet 2.0[8]和QGPU[5]也在两个数据集上实现并进行了测试。其中，Ryu等人的网络和PhaseNet 2.0在噪声和无噪声数据集上都进行了训练。此外，为了评估SQD-LSTM模块和损失函数Lc的重要性，我们训练并测试了两个单独的U-NET（其卷积架构类似于所提出的网络），一个使用MSE作为损失函数，另一个使用Lc，仅在无噪声数据集上进行。所有上述训练和测试都是在NVIDIA Tesla K80 GPU上进行的，每个数据集的固定训练-测试拆分为5000-1000。为了评估和比较这些方法，我们计算了展开相位图像的归一化均方根误差（NRMSE - 由相应真实相位图像的范围归一化）并测量了每种方法的输出平均计算时间。这些结果总结在表1中。图3中展示了每种方法得到的选定无噪声和噪声（10 dB和0 dB）包裹相位图像的展开相位图像，以及NRMSE随噪声水平变化的图表。

表1. 结果

方法	无噪声	噪声	计算时间 (s)
UNET (MSE)	14.24%	23.40%	-
UNET (Lc)	2.75%	26.20%	-
Ryu et al.[18]	2.23%	3.84%	0.687
PhaseNet 2.0 [8]	9.41%	17.53%	0.234
QGPU [5]	10−13%	5.04%	35.42
提出的方法	0.84%	0.90%	0.054

表1显示，QGPU在无噪声图像的展开上几乎达到了完美的性能。然而，在噪声图像上表现不佳，并且与深度学习方法相比，其平均计算时间（35.42秒）非常高。另一方面，提出的方法在无噪声图像上达到了与QGPU相当的性能（NRMSE = 0.84%），在噪声图像上达到了最高性能（NRMSE = 0.9%），并且在比较的方法中平均计算时间最低（0.054秒）。从图3 (b)可以看出，所提出的网络能够准确地（NRMSE = 1.26%）展开高达信噪比SNR = 0 dB的严重噪声水平的包裹相位图像。还观察到，所提出的网络超越了目前持有最先进的基于深度学习的相位展开性能的PhaseNet 2.0。PhaseNet 2.0是一个比较深的网络，由密集块组成，因此其训练过程对数据量要求很高。然而，在本研究中，由于使用了相对较小的（5000个）训练数据集，其相位展开误差有所增加。尽管如此，仅在5000张图像上训练的所提出网络仍然在噪声数据中达到了考虑的方法中最高的相位展开性能，因此非常适合实际应用中数据有限的情况。正如表1所示，使用Lc的U-NET比使用MSE的U-NET有更好的相位展开性能。因此，很明显Lc是这个问题比MSE更适合的损失函数。同样，很明显提出的方法比使用Lc的U-NET表现更好。在实验中，我们还注意到所提出的网络比任何考虑的方法都更快地收敛。这些观察结果使我们得出结论，所提出网络的成功归功于SQD-LSTM模块和Lc损失函数。