最优方向耦合字典学习的遥感影像超分辨率重建

2018-04-08隋立春杨振胤康军梅

计算机工程与应用 2018年7期

关键词：低分辨率训练样本高分辨率

王　雪，隋立春，2，杨振胤，康军梅

WANG Xue1,SUI Lichun1,2,YANG Zhenyin3,KANG Junmei1

1.长安大学地质工程与测绘学院，西安 710054

2.地理国情监测国家测绘地理信息局工程技术研究中心，西安 710054

3.中国电建集团西北勘测设计研究院有限公司，西安 710065

1.College of Geology Engineering and Geomatics,Chang’an University,Xi’an 710054,China

2.Engineering Research Center,Geographical Conditions Monitoring National Administration of Surveying,Mapping and Geoinformation,Xi’an 710054,China

3.Northwest Engineering Corporation Limited,POWERCHINA,Xi’an 710065,China

1　引言

近些年来，随着计算机技术、空间技术和信息技术的进步，遥感传感器获取技术呈现出多平台、多传感器、多角度的发展趋势，高空间分辨率、高光谱分辨率和高时相分辨率的遥感影像日趋丰富[1]。遥感影像的空间分辨率越高，其识别地物的能力越强，因此可广泛应用于城市信息提取、精准农业以及军事测绘等方面。然而，在传感器获取影像的过程中，不可避免地受到光学成像系统、随机噪声和大气扰动等影响。相比于改良硬件设施提高影像空间分辨率的方法，超分辨率重建技术成本较低，且耗费周期短，提升空间大，因此，该技术已成为提高空间分辨率的一种切实有效的方法。超分辨率重建技术（Super-Resolution Reconstruction，SRR）是通过处理一幅或多幅具有互补信息的低分辨率（Low Resolution，LR）观测图像来重构一幅高分辨率（High Resolution，HR）图像，或者从多幅低分辨率观测图像获得高分辨率图像序列的一种技术[2-3]。目前，根据超分辨率重建方法的不同，主要分为：基于插值的方法、基于重建的方法和基于学习的方法。其中，基于重建的方法通过建立影像的几何形变、模糊和下采样模型，将多幅LR影像融合，生成HR影像。文献[4]等针对超分辨率重建模型中图像的保真项与正则化约束项，提出了一种使用分段函数自适应地求解最优范数解，在去噪和SRR中均取得较好的结果；鲜海滢等[5]将单独处理的图像序列差异信息融入最大似然估计的HR影像中，取得较好的结果。此类基于重建的方法虽获得较理想的结果，但针对遥感影像其同时刻、同地域的影像信息有限，不具有普适性，且当放大倍数较大时，LR影像提供的高频信息不足，故两种方法均无法满足实际应用需求。为了充分利用HR影像本身的先验知识，一些学者提出了基于学习的超分辨率重建方法。其中，Freeman和Kim等[6-7]提出了利用机器学习的基于样本的超分辨率重建方法。近年来，随着压缩感知理论与稀疏表示理论的成熟，其理论在超分辨率重建的应用逐渐广泛。Yang等[8-9]首次提出了基于稀疏编码的图像超分辨率重建方法（Super-resolution via Sparse Representation，ScSR），该方法通过联合学习高、低分辨率字典，对预估计每个LR输入图像块的高频信息，在字典学习阶段采用L1范数凸优化算法求解稀疏系数，采用Lee等[10]提出的拉格朗日对偶方法更新字典基。此方法在自然图像的超分辨率重建和人脸识别方面均取得了较好的效果，对于模糊噪声具有较强的鲁棒性，自适应能力强。潘宗序等[11]针对全局字典无法稀疏表示所有图像块的问题，提出了一种自适应多字典学习的单幅图像超分辨率重建算法。

在遥感影像的重建过程中，HR影像作为待估计影像是未知的，因此，若采用Yang[9]提出的联合字典超分辨率重建方法，将地物特征复杂、信息量大的遥感影像作为训练样本学习字典，需耗费大量时间，且由此得到的字典因所提供的高频信息不充分，无法对LR输入影像进行较好的超分辨率重建。针对上述问题，本文将用于自然影像超分辨率重建的基于稀疏编码方法引入到遥感影像的重建中，并进行了改进，提出了一种基于耦合字典对学习的遥感影像超分辨率重建方法。主要技术包括：（1）在数据预处理阶段，实现了训练样本数据的自动选取，同时保证样本库丰富的地物类型，可以提高数据预处理效率；（2）在字典学习阶段，将高、低分辨率两个字典单独进行学习，首先对LR影像块进行字典学习，得到LR学习字典及稀疏系数，将其引入至HR字典学习中，对高分辨率字典进行优化更新；（3）在低分辨率字典学习过程中，为提高字典学习的效率，采用经典的最优方向（Method of Optimal Directions，MOD）字典学习方法。实验表明，本文提出的方法字典学习效率得到明显提高，且重建质量均好于其他两种方法。

2　字典学习

2.1　单字典学习

由于图像本身存在冗余和自关联性，通常情况下，图像可以被特定的字典稀疏表示，即对于图像信号x∈RN，可以由字典 D=[d1,d2,…,dM]∈RN×M(M＞N)以及向量 α=[α1,α2,…,αM]T∈RM线性表示为：

其中，α为稀疏表示系数。

过完备字典的构造方法包括分析型和学习型两种。基于学习的字典主要采用机器学习的思想，通过对样本的学习，构造出学习字典使其能更加准确地对目标信号进行稀疏表示[12]。本文采用基于学习的方法构造过完备字典。式（1）可稀疏表示为：

其中，D 为学习字典，A=[α1,α2,…,αk]为稀疏系数阵，X为训练样本集，T为稀疏度。

由式（2）可知，字典学习过程即为已知X求解D和A的过程。该过程通常采用交替优化的方法分两步求解：第一，给定一个初始的冗余字典，通过优化算法求解稀疏系数，常用的优化算法有匹配追踪算法、基追踪算法等。本文采用收敛性较好的正交匹配追踪算法（Orthogonal Matching Pursuit，OMP）[13]。第二，采用字典更新算法对字典原子进行更新。常用的字典更新算法包括最优方向法（Method of Optimal Directions，MOD）[14]、主分量分析[15]、快速奇异值分解算法[16]及在线字典学习算法[17-18]等。考虑到算法的简洁性与有效性，本文采用MOD算法，该算法是通过求解样本图像块关于字典的表示和本身的误差最小获得字典，能够经过少量迭代而达到收敛，具有高效性。算法的具体过程如下所示。

2.2　改进的字典学习模型

基于学习的超分辨率重建方法是通过学习得到高低分辨率图像之间的关系，并用其估计得到高分辨率图像。为此，需分别通过高低分辨率特征块学习高低分辨率字典，并建立两种字典的关系。针对自然图像，Yang[9]提出了联合字典对的学习方法。给定训练样本图像块对 P={Xh,Yl}，其中，Xh={x1,x2,…,xn}表示HR影像块构成的训练样本，Yl={y1,y2,…,yn}表示由Xh下采样后得到的LR影像训练样本，其中，每个样本对(xi,yi)均由高低分辨率遥感影像特征块的列向量表示。为保证学习过程中高低分辨率字典具有相同的稀疏表示，定义其学习模型为：

其中，Dh和Dl分别表示高、低分辨率字典，它们具有相同的稀疏矩阵A，λ为正则化参数，用于平衡数据的保真性和解的稀疏性。将式（3）、（4）两式合并，且保持两者具有相同的稀疏系数，则有：

其中，N和M为HR图像块和LR图像特征块的向量维数。

然而，在上述联合字典学习过程中，先赋予稀疏系数初始值，然后经优化学习得到最终的字典及稀疏系数，但缺少先验信息的加入。针对此问题，本文采用MOD耦合字典的学习方法，先学习低分辨率字典得到稀疏系数，再将其作为先验信息引入至高分辨率字典学习过程中，提高了学习字典的质量。具体字典学习过程如下。

（1）MOD算法学习低分辨率字典Dl，目标函数为：

其中，A为低分辨率特征块关于Dl的稀疏系数阵。

（2）学习高分辨率字典Dh。将过程（1）获得的A作为高分辨率特征块的稀疏系数，从而保证高、低分辨率字典对具有相同的稀疏系数，则高分辨率字典学习的数学函数定义为：

然而，式（7）是一个局部模型，未考虑到高分辨率影像块之间的重叠。因此，在考虑整个高分辨率影像块的逼近误差时，还需考虑相邻块之间的匹配问题，对上式进行修改以获得更好的高分辨率字典[3]。最终得到如下模型：

其中，Fk为提取算子，X̂h为估计的高分辨率影像。

3　稀疏重建

基于稀疏表示的重建过程具体可分为三步：第一，对输入的LR遥感影像进行预处理；第二，由高低分辨率字典对每个特征块估计出初始的高分辨率影像块；第三，利用梯度下降算法优化初始高分辨率影像，得到最终的超分辨率重建影像。本文利用式（6）及式（8）的字典学习过程，分别得到高低分辨率字典Dh、Dl，重建详细步骤如下。

4　实验及结果分析

本文分别将高分一号（GF-1）PMS数据与TM5数据作为原始数据，实验过程中，在保证训练样本集地物类型丰富的基础上，采用IDL编程实现训练样本的自动截取，其选取的训练样本数量为100幅，通过本文提出的方法进行样本训练，得到学习字典。为了定量评价验证本文算法的有效性，待重建的低分辨率影像由高分辨率影像降采样所得，其降采样因子为3。同时以高分辨率影像作为参考影像，采用峰值信噪比PSNR、结构相似性指标SSIM及ERGAS（Erreur Relative Globale Adimensionnell de Synthèse）[19]作为定量评价指标，将本文方法的重建结果与插值方法及Yang提出的ScSR方法进行分析比较，以验证算法的有效性。其中，ERGAS反映影像的相对变化及绝对变化，与影像质量成反比，其理论最优值为0。

首先，将100幅高分辨率训练样本图像块作3倍降采样，得到与高分辨率影像对应的100幅低分辨率影像块，构成高、低分辨率影像库，再随机提取100 000个5×5像素的影像块对进行字典学习，其余参数设置与ScSR中的一致：字典大小2 048，像素重叠为4，重建过程中最大迭代次数为40。MOD字典学习过程中，迭代次数设置为40次。算法均只对亮度通道Y进行基于MOD耦合字典学习模型的超分辨率重建（以下简称MODSR算法），而对色度通道（Cb，Cr）仅作双三次插值处理。

实验中分别随机选取4幅不同位置、不同像素大小的GF-1影像和TM5影像作为测试数据。在字典学习过程中，本文方法较Yang的ScSR方法用时减少63 108 s，具有更快的字典学习速度，证明了本文算法的高效性。图1、2分别演示了GF-1数据在城市区域和乡村区域的重建结果图，图3给出了TM5数据在山区的重建结果图。由图1可看出，双三次插值图像中边缘模糊，视觉显示质量较差。ScSR重建结果与双三次插值方法相比，恢复了部分细节信息，具有较明显的视觉提高，但在建筑物的边缘，重建图像仍然较为模糊。相比之下，本文提出的MODSR方法恢复了更多的细节信息，在建筑物边缘上尤为明显，整体视觉质量高于双三次插值方法和ScSR方法。图2为乡村区域的重建结果图，由于乡村区域地物结构类型较简单，在视觉方面3种方法均有较好的重建结果，在农田的纹理方面，本文方法与ScSR方法优于双三次插值方法。图3为TM5山区影像的重建结果，由于其分辨率较低，3倍重建的效果均低于GF-1影像，但相比于其他两种方法，本文方法在视觉纹理上效果较好，例如左上方的山脊线。

对本文提出的重建方法进行了定量评价，表1列出了测试影像采用3种算法重建结果的PSNR、SSIM及ERGAS指标值，由表1可知，综合4幅GF-1影像求平均值，在PSNR值上，本文算法比双三次插值方法提高1.30，与Yang提出的ScSR方法相比提高0.92；在SSIM指标上，本文算法比双三次插值方法改善0.021，而与ScSR方法相比改善0.014 7；在ERGAS指标上，本文算法相比于双三次插值方法和ScSR方法均有明显改善。综合多幅图像的PSNR、SSIM和ERGAS的评价值，以及主观视觉评价发现，本文提出的方法均优于其他两种方法，证明了该方法的有效性。

图1　GF-1-01不同算法重建效果比较

图2　GF-1-04不同SR算法重建效果比较

图3　TM5-04不同SR算法重建效果比较

表1　不同算法重建结果

5　结束语

本文对用于自然影像的基于联合字典学习的超分辨率重建算法进行了改进和扩展，提出了一种基于耦合字典对学习的遥感影像超分辨率重建方法。在字典学习阶段，将高、低分辨率字典单独进行学习，首先采用速度更快的MOD字典算法进行低分辨率字典学习和训练，保证了训练样本在高、低分辨率字典中具有相同的稀疏表示；将LR影像样本块学习得到的稀疏系数作为先验信息引入至高分辨率字典学习中，对高分辨率字典进行优化更新。此外，针对遥感影像信息量大的问题，采用IDL语言编程，实现训练样本图像块自动选取，提高了数据预处理的效率。为了验证本文算法和模型的有效性，采用了两种不同分辨率的遥感影像进行了验证实验：一种是空间分辨率为2 m的高分一号影像；一种是空间分辨率为30 m的TM5影像。与传统的双三次插值方法及ScSR方法对比实验表明，本文算法在视觉效果上，其重建结果更加清晰，几何纹理结构更加明显；在定量评价中，PSNR、SSIM及ERGAS指标值均有改善，证明了本文算法有更高的空间分辨率提升能力。同时，本文算法在字典学习过程中所需时间远少于ScSR算法，证明了该算法的高效性。

参考文献：

[1]李德仁.论21世纪遥感与GIS的发展[J].武汉大学学报：信息科学版，2003，28（2）：3-7.

[2]钟九生.基于稀疏表示的光学遥感影像超分辨率重建算法研究[D].南京：南京师范大学，2013.

[3]沈焕锋，李平湘，张良培，等.图像超分辨率重建技术与方法综述[J].光学技术，2009，35（2）：194-199.

[4]Shen H，Peng L，Yue L，et al.Adaptive norm selection for regularized image restoration and super-resolution[J].IEEE Transactions on Cybernetics，2016，46（6）：1388-1399.

[5]鲜海滢，傅志中，万群，等.基于非冗余信息的超分辨率算法[J].电波科学学报，2012（2）：10-15.

[6]Freeman W T，Jones T R，Pasztor E C.Example-based super-resolution[J].Computer Graphics and Applications，2002，22（2）：56-65.

[7]Kim K I，Kwon Y.Single-image super-resolution using sparse regression and natural image prior[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2010，32（6）：1127-1133.

[8]Yang J，Wright J，Huang T，et al.Imagesuper-resolution as sparse representation of raw image patches[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC，USA：IEEE Computer Society，2008：1-8.

[9]Yang J，Wright J，Huang T S，et al.Image super-resolution via sparse representation[J].IEEE Transactions on Image Processing，2010，19（11）：2861-2873.

[10]Lee H，Battle A，Raina R，et al.Efficient sparse coding algorithms[C]//Advances in Neural Information Processing Systems，2006：801-808.

[11]潘宗序，禹晶，肖创柏，等.基于自适应多字典学习的单幅图像超分辨率算法[J].电子学报，2015，43（2）：209-216.

[12]李珅.基于稀疏表示的图像去噪和超分辨率重建研究[D].西安：中科院研究生院（西安光学精密机械研究所），2014.

[13]Tropp J A，Gilbert A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory，2007，53（12）：4655-4666.

[14]Engan K，Aase S O，Hakon Husoy J.Method of optimal directions for frame design[C]//Proceedings of IEEE International Conference on Acoustics，Speech，and Signal Processing，1999：2443-2446.

[15]Vidal R，Ma Y，Sastry S.Generalized Principal Component Analysis（GPCA）[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2005，27（12）：1945-1959.

[16]Aharon M，Elad M，Bruckstein A M.The K-SVD：An algorithm for designing of over-complete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing，2006，54（11）：4311-4322.

[17]Mairal J，Bach F，Ponce J，et al.Online learning for matrix factorization and sparse coding[J].The Journal of Machine Learning Research，2010，11：19-60.

[18]Mairal J，Bach F，Ponce J.Task-driven dictionary learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2012，34（4）：791-804.

[19]江铖.光学遥感影像空间分辨率提升的正则化方法研究[D].武汉：武汉大学，2015.