有监督多类字典学习的单幅图像超分辨率重建
2016-06-28吴从中胡长胜张明君谢珍珠
吴从中,胡长胜,张明君,谢珍珠,詹 曙
(合肥工业大学 计算机与信息学院,合肥230009)
有监督多类字典学习的单幅图像超分辨率重建
吴从中,胡长胜,张明君,谢珍珠,詹 曙
(合肥工业大学 计算机与信息学院,合肥230009)
针对目前基于字典学习的图像超分辨率重建算法重建效果欠佳或重建耗时较长的问题,本文提出一种基于有监督的KSVD多类字典学习算法和使用类锚定邻域回归方法来重建低分辨率图像。首先使用高斯混合模型对训练图像块进行聚类,然后使用KSVD算法,在生成子类字典的同时产生一个线性分类器;最后利用此线性分类器对输入的测试特征分类,根据相应的类字典,使用类锚定邻域回归方法来完成图像重建。实验表明,本文算法与一些经典的算法相比,在主观视觉和客观评价上都获得了更好的结果,且对人脸图像具有更好地适应性。
高斯混合模型;监督字典学习;超分辨率;稀疏表示
0 引言
图像超分辨率重建是指用数字图像处理的方法从一幅或多幅低分辨率观测图像中重建出一幅高分辨率图像[1]。在实际应用中,由于成像系统内在硬件设备的限制,人们常常无法直接获得高分辨率的图像,而通过改善硬件设备来获得高分辨率图像的做法代价往往很高。鉴于特定成像系统短期内很难克服一些技术难题,因此从软件方面来提高图像的分辨率意义重大,也是目前研究的热点之一。
基于学习的超分辨率重建方法是目前主要研究方向,它通过对训练集进行充分的采样,学习高分辨率图像和对应的低分辨率图像之间的统计学联系,来尽可能恢复丢失的图像细节信息。其最早是由Freeman等人[2]于2002年提出,他们指出利用马尔科夫网络的图像局部区域和场景之间的关系模型来重建图像。Chang等人[3]基于邻域嵌入方法(NE+LLE),假设低分辨率图像块和对应的高分辨率图像块之间在低维非线性流形中有局部几何相似性,使用流形学习的局部线性嵌入方法来重建高分辨率图像。Bevilacqua等人[4]则提出基于非负邻域嵌入(NE+NNLS)的方法,认为输入图像的每个低分辨率特征向量可以在字典中表示为K个最近邻的加权组合,对应的高分辨率特征在假定局部低分辨率嵌入被保留的情况下可以重建恢复。
近年来使用基于稀疏表达的方法来重建图像成为了一个研究热点[5-6]。2010年Yang等人[7]开创性的将稀疏表示用于图像的超分辨率重建(ScSR),其通过对低分辨率图像块字典和高分辨率图像块字典进行联合训练,强化低分辨率和高分辨率图像块对应真实字典稀疏表示的相似性,从而使低分辨率图像块的稀疏表示和高分辨率超完备字典联合作用重建出对应的高分辨率图像块。Zeyde等人[8]在Yang基础上进行改进,利用主成分分析对训练样本的特征进行降维,并使用KSVD[9]的方法进行字典训练,进一步提高字典训练的效率。Timofte等人[10]则在Zeyde的研究基础上提出锚定邻域回归(ANR)的方法,该方法在稀疏字典学习时结合邻域嵌入方法,使用锚定邻域回归的方法将低分辨率图像块结合KSVD训练后的字典进行重建,获得了较好的高分辨率图像。但是以上基于稀疏表示的字典学习算法对所有的图像块使用同一字典进行表示,缺乏灵活性,而且重建后的图像容易产生伪影。鉴于此,研究者们引入了分类的思想来解决上述稀疏字典学习算法的不足,例如,Dong等人[11]首先使用K-means算法对训练图像块进行聚类,然后通过自适应地选择图像的稀疏域,来重建高分辨率图像块,有效地提高了重建后图像的效果。
综合以上所述的优缺点,本文提出了一种基于分类字典的局部锚定邻域回归的超分辨率重建算法。首先对训练集图像块进行特征提取,经过PCA降维后,使用高斯混合模型将这些特征聚成K类,并产生对应的类标签矩阵,然后利用标签矩阵信息,将重建误差与分类误差结合形成一个统一的目标函数,经过KSVD算法优化后,得到了一个过完备字典(由K个小的子类字典组成)和一个经过优化的线性分类器,最后使用这个训练好的线性分类器对输入的测试图像的特征进行分类,确定输入低分辨率图像块所属的类字典后,使用局部锚定邻域回归的方法重建出对应的高分辨率图像块,最终将所有重建的高分辨率图像块合成,重建出高分辨率图像。
1 分类字典学习和图像重建
1.1 特征提取
特征提取会直接影响最终实验结果,文中使用通用的做法,先对训练集图像双三次插值后获得对应的低分辨率图像训练集,然后使用拉普拉斯梯度算子提取它们的一阶和二阶特征,并对其进行分块处理,组成特征矩阵xl。为了减小计算复杂度,对其进行PCA降维,生成新的低分辨率图像特征矩阵Xl,然后直接对原有的训练集进行相同的分块处理获得对应的高分辨率图像块特征矩阵Xh。
随后对低分辨率图像块特征矩阵Xl使用高斯混合模型进行聚类。假设经过聚类后得到K个子类,则这组样本数据由混合分布p产生,虽然样本的分布未知,但是可以用K个高斯密度函数加权和来近似表示:
其中:μk为第k类高斯分布的均值,Ck为协方差。我们用EM算法[13]对这个高斯混合模型进行参数估计,得到每个类的似然估计分布参数。然后根据式(2)分别计算Xl中每个图像块的特征向量对K个类别的似然概率,其中最大似然概率所属的类别即为该特征向量的所属类别。随后根据上述的分类结果生成了一个大小为K×M(其中M的大小和Xl或Xh矩阵列数相等,即M为训练集所产生的图像块/特征的数量)的标签矩阵表示Xl中第i列特征向量对应的标签。
1.2 字典训练
本文的目标是利用监督信息来学习一个兼具重建和分类作用的字典,因此字典中每个元素在理想情况下被认为可以表示一个类中的某个子集的训练信号。
结合Yang等人提出的基于稀疏表示的图像超分辨率重建模型和在基于字典学习的分类模型[13-14],我们将目标函数定义为
则式(3)的优化相当于解决以下问题:
这正是KSVD可以求解的形式(注:在KSVD求解之前本文有一个初始化Dnew的过程,详见1.1部分)。
1.3 特征分类
由于在对Dnew进行KSVD求解之前,先将Dl和W进行了基于l2的正则化。因此不能简单的直接将Dl和W带入到分类计算中,必须先进行以下处理:
对于输入的测试低分辨率图像,首先采用相同的方法对其进行特征提取及PCA降维,得到特阵矩阵。然后对yi使用正交匹配追踪算法[15](OMP)获得其对应的稀疏表示zi:
即类标签向量l中最大值元素所对应的位置即为该向量所属的类别。
为了验证使用的线性分类器的分类效果,在实验中也使用了最大似然概率作为参照对测试特征分类。即分别计算测试图像中每个低分辨率图像块yi与训练图像各个低分辨率图像块类别的似然概率,取最大值即为yi的所属类别:
1.4 超分重建
由1.3部分经过KSVD求解后得到一个字典对Dl和Dh,它们分别由K个大小相同的的类字典组成,对于每一个类字典,本文首先根据相关性计算每个类字典元素的N(N 求出投影矩阵后,对于每个输入的特征yki,根据线性分类器分类结果,首先找到其对应的类字典dlk和,然后计算该特征在对应的类字典(k类)中的最近邻字典元素,最后通过投影矩阵将它映射到对应的高分辨率空间中: 图1 本文算法流程框图Fig.1Flow chart of our algorithm 最后把所有的高分辨率图像块融合即得到最终的所需的高分辨图像,整个算法流程图如图1所示。 2.1 参数初始化 在使用KSVD算法对字典进行联合训练之前,需要使用KSVD算法分别对每一类特征进行数次迭代来获得每一类特征的D0和W0,然后将他们分别合并得到初始化的Dlinit和Winit,具体初始化算法: 1)初始化Dlinit,Winit; 3)对k=1,...,K; 结束k。 4)输出Dlinit,Winit。 本文采用Yang等人使用的91幅图像的标准数据集作为训练集,在综合考虑重建结果和训练时间消耗后,将训练图像块分成5个子类,每类的类字典大小为300,高/低分辨率图像块大小均为9×9,稀疏平衡因子λ=0.01,稀疏约束因子为S=3,扩展因子uupscale=3。由于人类视觉系统对亮度信息更为敏感,因此在实验中,对于彩色RGB类型图像,我们先将其编码为对应的YCbCr类型图像,然后选择Y亮度通道的图像作为输入图像进行超分辨率重建,对Cb、Cr通道图像直接进行插值放大。实验平台:Windows 10专业版(64位),Intel(R)Core(TM)i7-4790K-4.00 GHz,内存32 GB,Matlab 2014a。 2.2 实验数据及分析 为了验证算法有效性,本文分别在Set5和Set14标准测试集上进行实验(见表1和表2),评价标准为峰值信噪比(PSNR)和结构相似度(SSIM)。值得说明的是,本文属于基于字典学习的超分辨重建算法,因此在实验部分比较了经典的字典学习算法Yang的ScSR[7]以及基于邻域的NE+LLE[5]算法和NE+NNLS[6]算法,但是由于基于邻域算法的字典直接简单的使用训练块而没有进行字典学习,因此将NE+LLE和NE+NNLS算法的字典采用Zeyde[8]提出的KSVD方法进行训练,然后结合对应字典以及NE+LLE和NE+NNLS的思想进行图像重建。ScSR,NE+LLE以及NE+NNLS训练的字典大小均为1 024。 表1,表2中每项数据均为三次实验平均结果,黑体表示最佳结果。本文方法1使用线性分类器对测试特征进行分类,本文方法2使用最大似然概率对特征进行分类。表2同。 同时本文在Set5和Set14上做了另一组对比试验来说明算法的整体有效性,而不是仅通过使用优秀的重建算法(ANR)来提升重建质量与效果。具体方法如下:重新训练了一组类字典,每个类字典的大小为200(则整个字典大小为1 000),在图像重建时,未采用分类重建的方法,直接用ANR方法重建,然后与Timofte等人提出的ANR方法[10](字典大小为1 024)做对比,其中ANR方法在Set5和Set14上的平均PSNR(dB)/SSIM为31.91/0.896 6和28.66/0.879 3,我们算法的实验结果分别为31.93/0.896 9和28.68/0.8793,这也进一步说明本文的算法(ClassD+ANR)整体要优于文中所提其他算法。 表1,2的结果显示,本文的方法(Ours 1)重建的图像PSNR/SSIM值与所列方法相比整体均有所提高,尤其对于人脸图像,本文方法更为突出一些。同时与在相同的字典学习条件下高斯分类方法结果(Ours2)相比,可以看出本文训练的线性分类器的分类性能也获得了令人满意的结果。 表1 各方法在Set5测试集上的PSNR(dB)/SSIMTable 1PSNR(dB)/SSIM for Set5 using different methods 表2 各方法在Set14测试集上的PSNR(dB)/SSIMTable 2PSNR(dB)/SSIM for Set14 using different methods 图2展示部分测试集图像在各个重建方法下的视觉效果。从重建结果来看,Bicubic和ScSR方法重建的图像相较于其他三种方法重建后的图像存在着模糊现象,且对图像某些局部放大后观察,Bicubic和ScSR方法重建的结果也存在着明显的人工痕迹。比如baby,pepper和face图像在纹理信息丰富的区域均产生了锯齿效应。NE+LLE和NE+NNLS方法重建的结果显然改善了上述图像存在的模糊和人工痕迹现象。本文方法相较于上述算法重建的图像则更为清晰,对于某些纹理细节信息的恢复也更为丰富。比如对于baby图像本文方法消除了上述算法在眼睫毛处存在的伪影,而在face图像中本文的方法则更为清晰的恢复鼻尖附近边缘轮廓以及图像原本面部存在的雀斑等。 图2 Set5和Set14中的重建结果Fig.2Quality of reconstruction comparison for image baby pepper and face in Set5 and Set 14 本文提出了一种有监督的基于分类字典的超分辨率重建算法。算法首先对图像进行聚类处理,然后在KSVD字典训练阶段通过结合标签信息,在产生类字典的同时也产生了一个线性分类器;最后我们使用此分类器对输入测试图像块特征分类,并使用改善的类锚定邻域方法对各类测试特征块进行重建和融合来产生最终的高分辨率图像。实验表明本文的算法最终获得重建图像在主观视觉和客观评价上均优于文中所述的其他算法,同时本文提出的算法相较于其他基于分类字典算法的另一个优势是:当多类字典训练完成后,无需知道之前使用的聚类算法,因此图像重建过程是完全可以离线进行的。 后续的工作将从提高聚类算法聚类准确率以及提高分类器分类性能、改善字典训练算法、降低字典训练时间等多方面着手来进一步提高重建图像的质量以达到实时性要求。 [1]苏衡,周杰,张志浩.超分辨率图像重建方法综述[J].自动化学报,2013,39(8):1202-1213. SU Heng,ZHOU Jie,ZHANG Zhihao.Survey of Super-Resolution Image Reconstruction Methods[J].Acta Auto-matica Sinica(S0154-4256),2013,39(8):1202-1213. [2]Freeman T,Jones T R,Pasztor E C.Example Based Super-Resolution[J].IEEE Computer Graphics and Applications(S0272-1716),2002,22(2):56-65. [3]CHANG Hong,YEUNG Dityan,XIONG Yimin.Super-Resolution through Neighbor Embedding[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Washington,DC,USA,June 27-July 2,2004:275–282. [4]Bevilacqua M,Roumy A,Guillemot C.Low-Complexity Single Image Super-Resolution Based on Nonnegative Neighbor Embedding[C]//Proceedings of British Machine Vision Conference,Bristol,UK,Sept 9-13,2012:135.1-135.10. [5]李民,程建,乐翔,等.增强稀疏编码的超分辨率重建[J].光电工程,2011,38(1):127-133. LI Min,CHENG Jian,LE Xiang,et al.Super-Resolution Reconstruction Based on Improved Sparse Coding[J]. Opto-Electronic Engineering,2011,38(1):127-133. [6]蒋建国,陈亚运,齐美彬,等.基于自相似性和稀疏表示的图像超分辨率重建[J].光电工程,2015,42(12):74-81. JIANG Jianguo,CHEN Yayun,QI Meibin,et al.Image Super-Resolution Reconstruction Based on Self-Similarity and Sparse Representation[J].Opto-Electronic Engineering,2015,42(12):74-81. [7]YANG Jianchao,Wright John,HUANG Thomas,et al.Image Super-Resolution via Sparse Representation[J].IEEE Transactions on Image Processing(S1057-7149),2010,19(11):2861-2873. [8]Zeyde R,Elad M,Protter M.On Single Image Scale-up Using Sparse Representations[C]//Proceedings of the 7th International Conference on Curves and Surfaces,Avignon,France,June 24-30,2012,69(20):711-730. [9]Aharon M,Elad M,Bruckstein A.K-SVD:An Algorithm for Designing Over-complete Dictionaries for Sparse Representation [J].IEEE Transactions on Signal Processing(S1057-7149),2006,54(11):4311-4322. [10]Timofte R,Smet D V,Gool L V.Anchored Neighborhood Regression for Fast Example-Based Super-Resolution[C]// Proceedings of IEEE International Conference on Computer Vision,Sydney,Australia,Dec 3-6,2013:1920-1927. [11]DONG Weisheng,ZHANG Lei,SHI Guangming,et al.Image Deblurring and Super-Resolution by Adaptive Sparse Domain Selection andAdaptive Regularization[J].IEEE Transactions on Image Processing(S1057-7149),2011,20(7):1838-1857. [12]Dempster A P,Laird N M,Rubin D B.Maximum Likelihood from Incomplete Data via the EM Algorithm[J].Journal of the Royal Statistical Society Series B(S1369-7412),1977,39(1):1-38. [13]Soltani-Farani A,Rabiee H R,Hosseini S A.Spatial-Aware Dictionary Learning for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing(S0196-2892),2015,53(1):527–541. [14]JIANG Zhuolin,LIN Zhe,Davis Larry S.Label Consistent K-SVD:Learning a Discriminative Dictionary for Recognition[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence(S0162-8828),2013,35(11):2651-2664. [15]Pati Y C,Rezaiifar R,Krishnaprasad P S.Orthogonal Matching Pursuit:Recursive Function Approximation with Applications to Wavelet Decomposition[C]//Proceedings of 1993 Conference Record of the Twenty-Seventh Asilomar Conference on Systems and Computers,Pacific Grove,California,USA,Nov 1-3,1993,1:40-41. Single Image Super-resolution Reconstruction via Supervised Multi-dictionary Learning WU Congzhong,HU Changsheng,ZHANG Mingjun,XIE Zhenzhu,ZHAN Shu In order to overcome the problems that the dictionary training process is time-consuming and the reconstruction quality couldn't meet the applications,we propose a super resolution reconstruction algorithm which based on a supervised KSVD multi-dictionary learning and class-anchored neighborhood regression.Firstly,the Gaussian mixture model clustering algorithm is employed to cluster the low resolution training features;Then we use the supervised KSVD algorithm to generate each subclass dictionary and a discriminative-linear classifier simultaneously;Finally,each input feature block is categorized by the classifier and reconstructed by the corresponding subclass dictionary and class-anchored neighborhood regression.Experimental results show that our method obtains a better result both on subjective and objective compare with other methods,and has a better adaptability to face image. Gaussian mixture model;supervised dictionary learning;super-resolution;sparse representation TN919.81 A 10.3969/j.issn.1003-501X.2016.11.011 1003-501X(2016)11-0069-07 2016-02-24; 2016-05-27 国家自然科学基金面上项目(61371156);安徽省科技攻关项目(1401B042019) 吴从中(1965-),男(汉族),安徽芜湖人。副教授,主要研究工作是信号与信息处理。E-mail: 詹曙(1968-),男(汉族),安徽合肥人。教授,主要研究方向为人脸识别和医学图像处理与分析。E-mail:shu_zhan@hfut.edu.cn。2 实验结果与分析
3 总结与展望
(School of Computer and Information,Hefei University of Technology,Hefei230009,China)