基于在线多字典学习的矿井图像超分辨率重建方法
2020-09-27汪海涛于文洁张光磊
汪海涛, 于文洁, 张光磊
(1.中煤西安设计工程有限责任公司, 陕西 西安 710000;2.中国矿业大学 信息与控制工程学院, 江苏 徐州 221116)
0 引言
矿井图像能够直观展现煤矿场景,为矿井监控、行为识别、人员检测等煤矿智能分析提供输入信息。然而受图像采集设备性能限制,采集的低分辨率(Low-Resolution,LR)图像视觉效果不佳,使得煤矿智能分析的准确度下降[1-3]。图像超分辨率重建技术能够利用LR图像的特征、图像间的相似性或冗余性等先验知识重建出高分辨率(High-Resolution,HR)图像[4],因此研究适合矿井图像的超分辨率重建方法具有重要的实际意义。
传统的图像超分辨率重建方法有基于插值的方法[5]和基于重建的方法[6]。双三次插值方法[5]是一种经典的基于插值的方法,其利用插值三次函数计算待插像素值,从而重建HR图像,该方法实时性较好,但重建的图像边缘模糊,图像高频信息缺失。迭代反投影法[7]是一种基于重建的方法,其利用误差投影矩阵进一步迭代修正插值图像,直至满足迭代条件,该方法重建的图像恢复了较多的高频信息,但引入有效先验信息作为迭代条件比较困难,导致重建结果不具有唯一性,迭代可能无法收敛。
近年来,基于学习的方法[8]被广泛应用于图像超分辨率重建。W. T. Freeman等[9]提出基于实例的图像超分辨率方法,以图像块为重建单元,利用图像样本集学习LR图像和HR图像间的映射关系,并通过Markov网络计算最佳重建图像,从而抑制噪声影响,但图像块的冗余信息增加了计算复杂度,降低了LR图像和HR图像间映射关系的准确性。Chang Hong等[10]提出通过邻域嵌入进行图像超分辨率重建,根据流行学理论减少了图像块冗余信息,提高了LR图像和HR图像间映射关系的准确性,但邻域嵌入的特征表示能力有限,无法充分学习高频细节特征。Yang Jianchao等[11]首次将字典学习应用于图像超分辨率重建,提出一种基于稀疏编码的超分辨率重建(Sparse Coding for Super-Resolution,SCSR)方法,该方法根据稀疏表示理论学习LR图像和HR图像的字典,建立LR图像和HR图像稀疏表示的映射关系模型,将学习图像映射关系转化为学习图像稀疏表示的映射关系,进一步提高了高频细节信息的重建能力,但字典学习耗时较长,图像重建的计算复杂度高,且对于含有噪声图像的超分辨率重建易产生块效应和边缘锯齿效应。针对基于字典学习的图像超分辨率重建方法存在的问题,He Li等[12]提出联合字典学习方法优化字典学习过程,减少了字典学习时间,通过改进LR图像和HR图像字典学习的迭代求解方法,提高了图像稀疏表示的映射关系准确性。D. Glasner等[13]提出一种单幅图像超分辨率重建(Super-Resolution from a Single Image,SRSI)方法,将基于实例的方法与基于字典学习的方法融合,进一步提高了图像重建效果。程德强等[14]提出边缘融合的多字典超分辨率重建方法,通过训练多组小尺度字典来替代大尺度字典,降低了图像重建的计算复杂度。但上述改进的基于字典学习的图像超分辨率方法受字典的特征表示能力和稀疏系数求解的限制,对含有噪声且环境复杂的矿井图像重建效果不佳。本文提出了一种基于在线多字典学习的矿井图像超分辨率重建方法。一方面通过多字典学习增强字典的特征表示能力,即利用K-means聚类算法将图像训练集划分为多类矿井图像,并针对每一类矿井图像训练1组高低分辨率字典,保证字典对环境复杂的图像获得更完备的特征表示;另一方面优化稀疏系数求解,引入非局部约束项进一步约束稀疏系数的解空间,并通过在线字典学习获得优化字典,从而提高图像重建过程的抗噪声干扰能力。
1 基于字典学习的图像超分辨率重建方法
基于字典学习的图像超分辨率重建方法利用已有的大量图像作为图像训练集,通过字典学习获得具有较完备特征表示能力的高低分辨率字典,利用高低分辨率字典对LR图像进行超分辨率重建,从而得到HR图像。该方法主要包括字典学习阶段和图像重建阶段。
1.1 字典学习阶段
图像训练集包含M个LR图像块x1,x2,…,xM(大小为m×m),以及每个LR图像块对应的HR图像块y1,y2,…,yM(大小为n×n)。低分辨率字典DL和高分辨率字典DH可通过式(1)和式(2)进行优化求解[11]:
(1)
(2)
式中:αi为xi和yi的稀疏系数;λ为平衡αi保真性和稀疏性的参数。
1.2 图像重建阶段
根据稀疏表示理论,待重建的LR图像块x′的稀疏表示为
x′=DLα′
(3)
式中α′为x′的稀疏系数。
α′可利用L1正则化法近似估计:
(4)
由于待重建的LR图像块x′和HR图像块y′的稀疏系数相同[11],y′的稀疏表示为
y′=DHα′
(5)
2 基于在线多字典学习的矿井图像超分辨率重建方法
2.1 多字典学习
受煤矿井下复杂环境的影响,矿井图像间差异较大。基于字典学习的方法虽然能够重建图像的轮廓信息,但单一字典的特征表示能力有限,导致重建的HR图像出现边缘锯齿效应。因此,有必要根据图像特征信息学习多个高低分辨率字典,即多字典学习。多字典学习主要步骤:将图像训练集根据图像特征划分为多类含有不同特征的图像;针对每一类图像训练1组高低分辨率字典。
划分图像训练集时,根据图像块方向性结构特征[15-16]和纹理特征进行有监督的划分,无法充分挖掘图像块的特征信息。K-Means[17]作为一种无监督聚类算法,能够自主学习图像训练集内在特征,因此采用K-Means聚类算法对图像训练集进行划分,详细步骤如下。
(1) 从{x1,x2,…,xM}中随机选择K(K (2) 初始化{μ1,μ2,…,μK}所对应的簇{C1,C2,…,CK},使每个簇为空集,其中Cj表示第j(j=1,2,…,K)类LR图像块集合。 (3) 计算{x1,x2,…,xM}中每个图像块与各质心的欧氏距离,并将各图像块添加至最小欧氏距离的质心所对应的簇中。 (4) 更新每个簇的质心(式(6)),如果{μ1,μ2,…,μK}发生变化,则转至步骤(2),否则转至步骤(5)。 (6) 式中x为簇Cj中的LR图像块。 针对每一类图像训练1组高低分辨率字典。为简化字典学习过程,保证高低分辨率字典的稀疏系数具有一致性,采用联合训练方法[18]对字典进行训练: (7) 受煤矿井下煤尘影响,矿井图像常含有大量噪声。基于字典学习的方法虽然利用L1正则化法能够求解稀疏系数,但易受图像中噪声影响,导致稀疏系数误差增大,使重建的图像出现块效应,因此有必要增加稀疏先验约束,进一步优化稀疏系数求解。本文根据图像非局部自相似性[16]增加非局部约束项,进一步约束稀疏系数的解空间,并利用待重建LR图像的稀疏先验信息,通过在线字典学习对多字典学习阶段的字典进行优化,提高稀疏系数求解的准确性。 (8) 式中ωl为加权系数。 (9) 式中γ为ωl的正则参数。 由于同类图像块具有相同的字典,根据稀疏表示理论,式(8)可改写为 (10) (11) 式中η为平衡非局部约束项的参数。 (2) 通过在线字典学习获得优化字典。在线字典学习能够根据当前输入的LR图像进一步优化字典,提高稀疏系数求解的准确性,具体步骤:① 构造在线字典学习的图像训练集。将输入的LR图像划分为大小为n×n的图像块,作为在线字典学习的图像训练集中HR图像块;对输入的LR图像进行下采样(下采样因子为2),并将下采样图像划分为大小为m×m的图像块,作为在线字典学习的图像训练集中LR图像块。② 以字典学习阶段的字典为初始值,按照多字典学习步骤再次训练字典,获得优化字典。 为验证本文方法的有效性,使用Intel(R)Core(TM)i5-8400、2.8 GHz主频、16 GB内存的计算机进行实验。选取井下监控视频的图像进行超分辨率重建,通过主观评价和客观评价2种图像质量评价方法对SCSR,SRSI及本文方法进行对比,实验结果如图1和图2所示(第2行图像为第1行图像中局部区域(红框)的放大)。 从图1(a)和图2(a)可看出,经SCSR方法重建的图像基本能够分辨人脸的嘴鼻和佩戴眼镜的轮廓信息,指示牌中数字和圆形边界的轮廓基本可辨,但人脸五官和指示牌数字的边缘比较模糊,图像块效应和边缘锯齿效应较明显,严重影响视觉效果。从图1(b)和图2(b)可看出,经SRSI方法重建的图像清晰度有所提高,人脸及背景和指示牌白色区域的块效应有所减弱,但图像边缘锯齿效应未得到改善。从图1(c)和图2(c)可看出,经本文方法重建的图像清晰度显著提高,人脸五官细节信息更加丰富,指示牌中数字和圆形边界的边缘更加清晰,人眼视觉效果最佳。 采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)2种全参考图像质量评价指标:PSNR越大,表示图像失真越小,图像质量越好;SSIM越大,表示图像结构信息越丰富,视觉效果越好。以图1和图2中图像为例,客观评价结果见表1和表2。可看出与SCSR方法和SRSI方法相比,本文方法在抑制图像内容失真和重建图像结构信息方面均取得最佳效果。 (a) SCSR方法重建后图像(b) SRSI方法重建后图像(c) 本文方法重建后图像 (a) SCSR方法重建后图像(b) SRSI方法重建后图像(c) 本文方法重建后图像 表1 图像1客观评价结果Table 1 Objective evaluation results of image 1 表2 图像2客观评价结果Table 2 Objective evaluation results of image 2 基于在线多字典学习的矿井图像超分辨率重建方法通过K-means聚类算法将图像训练集划分为多类图像,并对多类图像进行多字典学习,从而增强字典对环境复杂图像的特征表示能力;引入非局部约束项进一步约束稀疏系数的解空间,并通过在线字典学习获得优化字典,优化稀疏系数求解,从而提高图像重建的抗噪声能力。实验结果表明,该方法能有效提高重建图像质量,抑制噪声引起的图像块效应和边缘锯齿效应,增加图像细节信息,使图像纹理和边缘更清晰。2.2 稀疏系数求解优化
3 实验结果与分析
3.1 主观评价
3.2 客观评价
4 结语