一种改进的U-Net相位解缠方法
2021-12-17梁峰谢先明徐有邈宋明辉曾庆宁
梁峰,谢先明,2,徐有邈,宋明辉,曾庆宁
(1.桂林电子科技大学 信息与通信学院,广西 桂林 541004;2.广西科技大学 电气与信息工程学院,广西 柳州 545006)
0 引言
干涉合成孔径雷达[1-2](interferometry synthetic aperture radar,InSAR)是合成孔径雷达与射电天文干涉技术相结合的遥感测绘技术。InSAR技术利用干涉图相位信息获取目标高程,已应用于地理信息系统构建、环境监测、地表形变监测等领域。干涉图相位解缠是InSAR测量技术中关键步骤,直接关系到InSAR高程测量精度。目前相位解缠算法包括以枝切法[3]与质量图引导算法[4]为代表的路径跟踪类算法、以最小二乘法[5]为代表的最小范数类算法、以网络流法[6]为代表的网络规划类算法、以卡尔曼滤波法[7]为代表的状态估计类算法等。路径跟踪类算法利用各种各样策略定义合适路径,并沿此路径积分获取其解缠相位,以尽量减少或避免相位解缠过程中误差累积效应。最小范数类算法首先在最小范数准则框架下构造一个解缠相位梯度与缠绕相位梯度之差的代价函数,随后利用各种方法得到代价函数最小的解。网络规划类算法把干涉图相位解缠问题转化为网络流代价函数的最小化问题。状态估计类算法把干涉图相位解缠问题转化非线性条件下的状态估计问题,几乎同时执行相位噪声抑制与相位解缠。上述各类算法均可在特定的应用场景中获得稳健的结果,然而路径跟踪类算法、最小范数类算法、网络规划类算法易受干涉相位噪声的影响,有时难以有效解缠噪声干涉图,且上述路径跟踪类算法与网络规划类算法均在一定程度上存在相位解缠精度与效率难以兼顾的问题。状态估计类算法具有较强抗相位噪声性能,通常能有效处理低信噪比干涉图的相位解缠问题,但时间耗费代价较大。
深度学习(deep learning,DL)是一种模拟人脑神经结构的机器学习方法,通过对数据进行表征学习来获取数据更高层次的抽象表示,能够自动从数据中提取特征,已在不同领域的许多问题中都取得了最佳表现,如语音识别、文本数据挖掘、文本翻译、人脸识别、图像分类与识别、图像分割等。随着DL技术应用的拓展,它已逐渐应用到合成孔径雷达(synthetic aperture radar,SAR)图像分类与分割[8]、SAR目标检测[9]、干涉SAR图像分割[10]、SAR图像配准[11]、逆合成孔径雷达成像[12]、InSAR干涉图相位解缠[13]等领域,有力促进了这些领域相关技术的发展。
2015年,Long等[14]把全卷积神经网络(fully convolutional networks,FCN)应用于图像语义分割。随后,一种编码-解码架构的像素级分类技术被提出。Ronneberger等[15]提出基于FCN的U-Net网络框架,成功应用于二分类的医学图像的分割。2019年,Zhang等[16]把FCN应用于干涉图相位解缠,提出基于FCN的相位解缠算法。该方法把干涉图相位解缠问题转化为多分类问题,网络模型前半部分沿用了VGG16网络模型对输入图像进行下采样,特征图经过卷积层和池化层后进入解码路径,最后对特征图进行上采样并输出分类结果。同年,Wang等[17]在U-Net框架基础上提出基于深度学习的干涉图相位解缠网络,缠绕相位经过完成训练后的网络直接得到解缠相位,该网络建立缠绕相位与真实相位之间的非线性映射关系,解缠效果提升显著。
把U-Net架构、空间金字塔池化(atrous spatial pyramid pooling,ASPP)网络[18]以及瓶颈残差网络[19]结合起来,提出一种改进的U-Net的相位解缠方法。不同于文献[17]所构建的网络模型,该方法利用ASPP模型结合多尺度信息和扩张卷积的优势,将不同扩张率的扩张卷积特征结合到一起来捕获丰富的上下文信息,能够在不牺牲特征空间分辨率的同时扩大特征接收野,有利于精确获取缠绕干涉条纹特征信息及位置信息,提高相位解缠算法的稳健性。此外,瓶颈残差单元可使网络模型在减小参数计算量的同时防止网络退化,提高网络训练精度与效率。模拟与实测干涉图解缠结果表明,本文方法可获得与其他同类方法相比更稳健的结果。
1 基于深度学习的相位解缠模型
在深度学习相位解缠中网络学习到的是缠绕相位图和解缠相位图之间的映射关系。在DL框架下通过选择与设计深度神经网络(deep neural network,DNN),包括选择恰当的网络层级数并为每一层选择合适的神经元个数、为每一层设计合理的权重和偏置系数、激活函数以及定义合适的损失函数,即可使DNN精确描述该映射关系。基于深度学习相位解缠模型如图1所示。其中,图1(a)为网络训练示意图,通过训练数据集建立缠绕相位和真实相位之间的非线性映射,获得训练好的网络模型。将待解缠的缠绕干涉图输入到已训练好的网络模型中即可得到解缠结果,如图1(b)所示。
图1 深度学习模型训练和预测
1.1 残差模块
在神经网络中添加层数可以提取更丰富的干涉图像特征信息,而增加网络深度会容易造成梯度弥散和梯度爆炸的现象。瓶颈残差网络如图2所示,其中,Conv为卷积层、BN为批量归一化、ReLU为该模块使用的激活函数。特征图先通过卷积核分别为1×1、3×3、1×1的卷积模块,再与初始输入结合通过激活函数得到输出,残差模块可使网络模型在减小参数计算量的同时防止网络退化。
图2 残差模块
1.2 ASPP模块
ASPP网络包括全局平均池化层以及采样率分别为1、6、12、18的扩张卷积(图3)。其中,全局池化层先对输入的特征图进行全局信息提取,再通过卷积核为1×1的卷积层上采样至输入特征图相同的尺寸。四种不同采样率的扩张卷积并行操作可以保证在网络计算量不变的同时,更好地保留干涉图中的结构特征,让ASPP网络可以更完整地对输入特征图进行多尺度信息提取。ASPP通过连接层把全局平均池化层以及四个不同采样率的扩张卷积层输出的特征图串接在一起,最后通过卷积核为3×3的卷积层调整通道数,作为ASPP模块的输出。
图3 ASPP模块
1.3 基于U-Net的改进相位解缠网络
把U-Net架构、空间金字塔池化网络以及瓶颈残差网络结合起来,构建一种改进的基于U-Net的相位解缠网络,如图4所示。该网络结合U-Net、残差神经网络和DeepLabv3+网络模型的特点,由编码路径、解码路径以及跳跃连接路径组成。在图4所示网络中,蓝色条形框表示特征图在网络各个阶段的分布情况;上方的数字为特征图通道数;条形框下方的数字为特征图大小;虚线框表示复制对应的编码路径输出层;右下角箭头标记表示网络中对应的操作。网络左边的编码路径的作用是通过六个单元模块由浅入深地逐层提取输入相位图特征信息,其中每个单元模块包括卷积模块(Conv层+批量归一化BN+激活函数Relu)、残差网络层、ASPP网络层、最大池化层(窗口为2×2)。右边解码路径的作用是通过反卷积操作恢复抽象信息和定位图像细节信息,各单元模块包括上采样层(窗口为2×2)、连接层、卷积模块和残差模块。其中,上采样层在放大特征图的同时通过卷积操作保证通道数与左侧的编码路径相同,使两侧路径的特征图可实现跳跃连接。
在图4中,单通道的缠绕相位图从输入层进入,经第一单元模块卷积层将图像通道数调整为8后通过残差网络层输出特征图,再通过ASPP网络层输出融合了不同尺度信息特征图,并通过最大池化层实现下采样。特征图进入后一单元模块再利用卷积操作将通道数加倍,然后类似重复第一单元模块中的操作,直到特征图进入编码路径后单元模块完成编码工作。随后再依次通过解码路径中各单元模块中上采样层、跳跃连接、卷积层和残差网络层执行解缠操作,其中解码路径中各单元模块依次减半图像通道数,最后由输出层输出解缠结果。
图4 深度学习相位解缠网络
1.4 网络训练及计算机参数配置
在网络训练中使用自适应矩估计(adaptive moment estimation,Adam)优化算法进行迭代反向传播,损失函数选用均方误差(mean squared error,MSE),以10-4的学习速率更新权重系数和偏置项,训练轮数为150,最小训练批次为16,训练时间为60 460 s,约16.8 h。数据集的制作基于MATLAB 2018b仿真软件,模型开发平台为python3.7,使用Tensorflow-1.13.0框架,Keras版本为2.3.0。用于网络模型训练和实验测试的计算机主要参数如下:NVIDIA GeForce RTX 2080Ti GPU、Xeon W-2145 CPU(3.7 GHz)+ 64 GB RAM。
2 InSAR数据集
目前针对深度学习相位解缠方面,尚无具有代表性的数据集提出。为此,分别构建了256像素×256像素的模拟InSAR数据和准实测InSAR数据,将生成的20 000组模拟数据与17 000组准实测数据进行混合,以组合成完整的InSAR数据集。
2.1 模拟InSAR数据
在创建InSAR数据集时,先产生InSAR真实相位值,再通过真实相位和缠绕相位对应的函数关系(推导过程见文献[4])计算出缠绕干涉相位。构建模拟InSAR数据集步骤如图5所示。
图5(a)、图5(e)、图5(i)分别为随机创建的2×2、5×5、10×10初始矩阵,初始值按照高斯分布在0到50之间;图5(b)、图5(f)、图5(j)分别为原初始矩阵的插值放大图;图5(c)、图5(g)、图5(k)为生成的真实相位图;图5(d)、图5(h)、图5(l)为含噪声缠绕干涉图。首先,按照图5的方式构建20 000个2×2~20×20的随机初始矩阵;然后,使用双三次插值法对初始矩阵进行扩展,插值放大到256像素×256像素,由此得到放大后的真实相位干涉图;最后,将生成的真实相位图转换成含不同信噪比的噪声缠绕相位。在网络训练过程中,把上述生成的真实相位图作为其相应的噪声缠绕相位图的标签图像。
图5 模拟InSAR数据集生成
2.2 准实测InSAR数据
利用UKF[20]算法解缠实测InSAR干涉图,获得其解缠相位与相应的重缠绕干涉图,随后把不同类型的相位噪声添加到重缠绕干涉图中,得到不同信噪比的噪声缠绕相位图。在网络训练过程中,把UKF算法获得的解缠相位作为其相应的噪声缠绕相位图的标签图像。图6(a)~图6(b)分别为滤波后的Enta火山干涉图以及某实测InSAR干涉图;图7(a)和图7(d)分别为利用UKF算法解缠图6(a)~图6(b)的解缠相位图;图7(b)与图7(d)为对应的重缠绕图。通过对大量实测InSAR数据进行分割、旋转、扩大、加噪操作,共产生17 000组准实测InSAR数据。图8(a)~图8(b)为对图7(b)做图像分割和旋转后获取的重缠绕图像;图8(c)~图8(d)为图7(d)分割和放大后得到的重缠绕图像;图8(e)~图8(h)分别为图8(a)~图8(d)的标签图像。图9为对干涉图添加不同强度噪声后得到的噪声干涉图,其中,图9(a)为解缠相位图(即标签图像);图9(b)为解缠相位的重缠绕相位图;图9(c)~图9(d)分别为对图9(b)添加不同噪声后的缠绕相位图。
图6 实测InSAR数据
图7 Enta火山干涉图以及某实测地形干涉图解缠相位及重缠绕结果
图8 图像分割与旋转构建训练数据集
图9 通过添加不同的噪声构建训练数据集
3 实验结果与分析
为了验证本文深度学习网络方法的性能,利用提出的网络对模拟干涉图与实测干涉图进行解缠,并与文献[16]以及文献[17]提出的深度学习相位解缠方法进行比较。
3.1 模拟干涉图解缠实验
图10(a)为Peaks真实干涉相位(256像素×256像素);图10(b)为Peaks缠绕干涉图(信噪比为7.4 dB)。分别利用文献[16]方法、文献[17]方法以及本文方法对图10(b)进行解缠,其解缠结果如图11~图13所示。
图10 Peaks干涉图
图11(a)、图12(a)、图13(a)分别为上述三种方法解缠相位;图11(b)、图12(b)、图13(b)分别为上述方法解缠相位误差;图11(c)、图12(c)、图13(c)分别为上述方法解缠误差统计直方图。从图11(a)~图11(c)可以看出,文献[16]方法解缠相位与真实相位明显不一致,因此该方法误差较大。尽管文献[16]方法获得的结果优于文献[17]方法获得的结果,然而该方法误差依然较大,如图12(a)~图12(c)所示。本文方法解缠相位与真实相位较为一致,故其相位解缠误差远远小于文献[16]方法和文献[17]方法。为测试各方法的抗噪性能,向缠绕相位中添加不同强度的噪声,用上述三种方法分别对不同信噪比的干涉图进行解缠,其均方根误差如表1所示。从表1可以看出,本文方法不仅在不同信噪比条件下解缠相位误差最小,而且随着干涉图信噪比的降低其相位解缠误差增加缓慢。表2列出了上述方法训练时间以及解缠单幅干涉图的平均时间,可以看出本文方法比上述其他两种方法在训练、模型加载和生成结果耗时稍长。原因在于本文提出方法具有更复杂的网络结构以及更多的模型参数,由于本文方法在解缠精度上明显高于其他方法,故耗时稍长也是可以接受的。
图11 文献[16]方法解缠结果
图12 文献[17]方法解缠结果
图13 本文方法解缠结果
表1 各方法均方根误差
表2 各方法运行时间表
3.2 实测数据实验
图14(a)为256像素×256像素的局部三峡某地区干涉图;图14(b)为经过均值滤波(窗口大小为3×3)后的干涉图。将滤波后的局部三峡干涉图输入上述三种深度学习解缠模型中,即可获得解缠相位。解缠结果与重缠绕结果如图14~图17所示。
图14 局部三峡某地区干涉图
图15(a)、图16(a)、图17(a)分别为文献[16]方法、文献[17]方法以及本文方法解缠相位图;图15(b)、图16(b)、图17(b)为上述三种方法重缠绕相位图。从图15(a)可以看出,解缠相位图中存在大量的不一致的区域,这表明文献[16]方法解缠结果不可靠。文献[17]方法解缠相位及其重缠绕结果如图16所示,可以看出该方法重缠绕相位图部分区域(已由白色方框框出)与原始干涉图条纹明显不一致,这表明该方法上述部分区域存在较大误差。本文方法解缠相位及其重缠绕相位如图17所示,可以看出本文方法解缠相位大致连续,其重缠绕相位图与原始干涉图条纹基本一致,且噪声斑点较少,这表明本文方法有效地去除了干涉图中的大部分噪声,并获得了较为可靠的结果。
图15 文献[16]方法解缠结果
图16 文献[17]方法解缠结果
图17 本文方法解缠结果
4 结束语
本文基于深度卷积神经网络的相位解缠方法,以U-Net架构为基础加入瓶颈模式残差模块和空间金字塔池化模块,构建出编码-解码网络进行相位解缠,利用模拟和准实测InSAR数据集进行网络训练。实验结果表明,与其他类型深度学习相位解缠方法相比,本文方法在模拟和实测数据解缠实验中均取得更好的效果,其均方误差相对较小、解缠精度相对较高、抗噪性相对较强。