基于文本特征自适应正则化的文档图像超分辨率重建

2018-03-10刘阿建梁凤梅张梦霞杨健

山西大学学报（自然科学版） 2018年1期

刘阿建,梁凤梅,张梦霞,杨健

(太原理工大学数字图像处理实验室,山西晋中 030600)

Harris和Goodman在20世纪60年代首次推出超分辨率(SR)重建定义,但起初并未得到广泛认可,直到20世纪80年代初期,Tsai和Huang首次使用傅里叶变换进行卫星序列图像的重建[1],在SR重建中取得了突破性的进展。此后,图像SR重建一直是图像处理领域研究的热点。

近年来,国内外学者对SR重建做了许多研究。Ramy等[2]研究了多对焦的低分辨率(LR)图像的重建方法,根据图像的多对焦现象,提出一种基于局部自适应的正则化项使局部平滑,其中正则化参数由粒子群优化算法获得,通过不断更新正则化参数的值,重建最佳的SR图像。Pulak等[3]提出一种基于多尺度形态学的非线性正则化模型,该模型在SR图像重建中保留了更多的细节信息,并用布雷格曼(Bregman)迭代算法逆向解决SR重建中的去模糊问题。Chen等[4]提出一种基于随机正则化的多帧超分辨率重建算法,通过分析图像的退化模型,采用基于泰勒级数展开的迭代梯度法估计帧间位移,L1范数融合低分辨率结构的数据和去除异常值,基于BTV的重建技术提高收敛速度。Fan等[5]提出一种具有鲁棒性的单帧图像重建方法,用于改善相机拍摄的低质量图像。Nayef等[6]提出使用一种选择性的图像块处理技术提高SR步骤的效率,同时保持输出质量,在该方法中,仅仅将高方差的图像块进行高计算复杂度的SR步骤,剩余的图像块通过快速的双三次插值处理,实验结果表明,SR重建速度显著提高且没有损失精度。Kato等[7]提出一种根据多帧低分辨率图像重建HR图像的方法,该方法基于亚像素精度从低分辨率图像中观测每帧的相对位移,并估计与相应高分辨率图像间的稀疏表示关系。Panda等[8]采用迭代的自适应正则化项使用遗传算法进行超分辨率重建。但以上算法由于没有考虑文档图像的特征[9],在对文档图像进行超分辨率重建时效果不佳,目前,针对文档图像的超分辨率重建算法尚在少数,其中,Kumar等[10]提出一种基于稀疏表示的方法恢复退化的文档图像,由于文档图像的二元特性使得字典学习和编码技术不适合被直接使用,作者根据不同汉字拥有相似的笔画、曲线和边缘这一事实,学习文档图像块稀疏分解的字典,再通过字典训练出理想的高分辨率图像块,实验结果表明该算法提高了图像恢复的质量和文档图像的OCR性能。李展等[11]针对字符图像纵横和对角线方向的纹理特征,提出一种提取不同方向纹理及图像平滑度度量的新方法,该方法利用自适应可调模板作为卷积核,将字符区域的纹理特征引入先验模型,将超分辨率的重建问题转化为一个目标函数的最优化问题。Chen等[12]提出一种利用结构相似度和马尔可夫随机场(MRF)的文档图像超分辨率重建方法。Walha等[13]提出一种基于稀疏编码的方式提高文档图像的重建质量,首先,从聚类数据集中学习多耦合字典并且自适应地选择一个最好的重建方法,其次,自动收集训练集,该训练集包含从高质量字符图像中提取的书写模式,最后,提出一种新的局部特征描述符,适用于编写特定的训练数据库。

以上算法在文档图像超分辨重建中取得了一定的进展，但存在文字边缘信息不能充分重建的缺点。基于此，梁凤梅等[14]针对低分辨率文档图像中字符边缘和纹理走向复杂多变的问题，设计了结合双边全变分和Huber函数的正则化项，采用光流配准算法，利用字符结构特征的先验信息，使算法在重建过程中更加注重边缘细节与边缘方向信息。Liang等[15]为了解决现有的噪声模型不确定性问题，对边缘和低分辨率的文档图像纹理的复杂性和易变性，提出了一种基于凸集投影(POCS)的文档特征算法，在该框架下使用优化的尺度不变特征变换(SIFT)算法进行连续帧的配准，最后重构文档图像。本文在充分考虑文档图像特征的基础上，构造一种基于字符笔画局部宽度和方向信息的自适应BTV正则化项重建SR文档图像，克服了BTV以所有方向平滑图像而忽视图像纹理属性的缺点。首先，通过分析输入的LR图像得到近似于HR图像前景区域的局部笔画宽度，其次，可从中间插值图像中近似获取HR图像的局部笔画方向，将这些信息封装成正自适应的则化项，然后在最大后验概率(MAP)框架下通过梯度下降迭代方式最小化正则化项和保真项的线性组合重建SR文档图像。此外，本文结合梁凤梅等[14]提出用German&McClure范数代替原BTV项中的L1、L2范数以解决噪声模型单一的问题，进一步提高重建算法的鲁棒性。

1 图像退化及重建模型

通常,可将低分辨率图像序列看作由待重建高分辨率图像经过运动变形、模糊、下采样和叠加噪声等操作得到。则图像降质模型可描述为:

yk=XkBkMkf+nkk=1,2,3…

(1)

其中,k为序列图像帧数,f为原始高分辨率图像,设其大小为q1N1×q2N2,q1和q2分别表示垂直方向和水平方向的降采样因子,yk为第k帧LR图像,则其大小为N1×N2,Xk为下采样矩阵,即在成像过程中对高分辨率图像进行下采样操作,大小为N1N2×q1N1q2N2,Bk为点扩散函数(PSF)模糊矩阵,大小为q1N1q2N2×q1N1q2N2,Mk为第k帧低分辨率图像在成像阶段因为位置变化而产生的形变矩阵,大小为q1N1q2N2×q1N1q2N2,nk为加性高斯噪声。令Hk=XkBkMk,则公式(1)可简化为:

yk=Hkf+nk.

(2)

根据(2)式观测模型可知,图像超分辨率重建的过程就是根据退化模型从低分辨率图像重建高分辨率图像f的图像退化的逆过程,图像超分辨率重建观测模型如图1所示。

Fig.1 Observation model of image super-resolution reconstruction图1 图像超分辨率重建观测模型

2 正则化设计

在正则化超分辨率重建中,将正则化项引入代价方程中,可以对解空间加以约束,并使之转化为具有唯一解的良态问题。构造加入正则化项的目标方程:

(3)

N=q1N1×q2N2.

(4)

(5)

(6)

λ为正则化参数,平衡正则化项对抗数据保真项的力度。如果λ取值偏大,则会导致重建的结果趋于平滑,虽然有利于噪声的抑制,但不能突出边缘尖锐信息。λ取值偏小,可以保持边缘信息,但对噪声不能很好地抑制。经多次试验分析选取λ=0.7。Ψ(f)为正则化项,即中间插值图像f中每个像素点经过函数Ψ(f)的运算结果,在一些重建方法中,图像中所有的像素点都经过相同Ψ(f)运算,本文算法中根据每个像素自适应的调节Ψ(f)。

2.1 BTV正则化

正则化项有助于算法从最后的解中剔除伪解,加快迭代速率,补偿先验知识,双边全变分(BTV)正则化项的表达式(7):

(7)

(8)

将此目标方程采用最陡下降法求解最小值(9):

(9)

其中β为梯度方向上的迭代步长,初始阶段取较大值加快收敛速度,即将收敛阶段取偏小值保证重建精度。

2.2 文档图像特征

文档图像纹理特征有如下特殊的规律性：

(1)二值性：文档图像的灰度直方图呈双峰特征，分别对应前景和背景区域[16]。

(2)笔画宽度：文档图像的纹理由字符构成，其笔画宽度与文档图像的分辨率成正比[9]。

(3)笔画边缘像素值的突变性：即笔画边缘的像素梯度值最大[17]。

2.3 正则化项的构造

双边全变分(BTV)作为一个已知的正则化项在均匀平滑图像时沿所有方向进行平滑,然而,BTV以所有的方向平滑图像而忽视了文档图像的特殊纹理特征,本文提出一种基于笔画宽度和方向的总变分正则化项,它是BTV平滑正则化项的一种改进,基于字符笔画局部宽度和方向自适应地平滑文档图像。

2.3.1 从LR图像中计算笔画宽度

(10)

其中yi,j表示在梯度方向上扫描i行j列观测到的像素点灰度值,η1表示背景区域灰度级。文献[9]说明,如果W的测量方法准确,则它一定与图像的分辨率成线性比例关系,因此,对LR图像中的每个像素点,比如对一个笔画宽度为Wy(yr,c)上的像素点yr,c进行双三次插值,放大因子为q,则映射到与HR图像同型的中间插值图像中笔画宽度为式(11)的一个q×q邻域上,即

Wf(fqr-(q-1),qc-(q-1)tofqr,qc)=q×Wy(yr,c) .

(11)

Fig.2 Chart of computing stroke width图2 笔画宽度计算图

2.3.2 从中间插值图像中提取笔画方向信息

Fig.3 Image of bicubic interpolation of “dot”stroke图3 “点”笔画双三次中间插值图像

2.3.3 构造正则化项

利用Wf(f),Df(f),Tf(f)这三个矩阵建立正则化项:

(12)

每一个像素点的正则化表达式为:

ψ(fr,c)=…+α|m|+|l|cos(θl,m-∠Df(fr,c))·|Df(fr,c)|·|fr,c-fr-l,c-m|+…

(13)

首先一个沿着字符笔画方向∠Df(fr,c)的平滑元素fr,c-fr-l,c-m应该有较大的权值,反之亦然[18],因此,平滑文档图像时,用自适应权值cos(θl,m-∠Df(fr,c))对fr,c-fr-l,c-m进行加权。当θl,m=∠Df(fr,c)时,平滑元素沿着笔画方向平滑图像,权值达到最大值1。其次,平滑元素fr,c-fr-l,c-m的权值系数α基于笔画是否包含像素点fr,c和笔画局部宽度自适应地修改,本文中,像素点fr,c根据其到笔画谷底线的距离判定是否包含在笔画区,判定式(14)：

(14)

如果fr,c和它的邻域像素点fr-l,c-m在同一区域,即都在笔画宽度上或者都在背景区,根据2.2节文档图像特征(1),则平滑元素fr,c-fr-l,c-m的权值应该选较大值,如果它们在不同的区域,则权值应较小,因此,本文自适应地修改式(12)中的权重系数α,定义为(15)：

(15)

其中α1应该大于α2,当fr-l,c-m远离fr,c时,参数α|m|+|l|用来减小平滑元素fr,c-fr-l,c-m的权值,当fr-l,c-m与fr,c重合时,权值达到最大值1。示例将图3中间部分放大,把被讨论像素对应的谷底线处像素点的p=1邻域映射到图4中的虚线框像素区,被讨论像素放大为图4中的实线圆圈标记的像素,因为笔画宽度Wf(fr,c)=5.84,被讨论的像素点到笔画谷底线处像素点的距离为2个像素点。根据公式(14)可知,被讨论的像素在坐落在笔画宽度区之内,图4中被讨论像素点处的箭头长度表示对应平滑元素正则化项中的权值大小,沿着笔画谷底线上像素方向平滑图像,权重系数选α1,反之,由2.2节文档图像特征(5)可知,要保留边缘信息,选用平滑权重较小的α2,图中沿着笔画方向平滑权值最大。

Fig.4 Zoomed part of the intermediate image in Figure 3图4 图3中间放大部分

2.4 算法实现

算法流程示意图见图5,其中权值系数α自适应获取,且权值大小也是自适应获取。

Fig.5 Algorithm flow chart图5 算法流程示意图

采用最陡下降法求解式(16)的最小值:

(16)

3 实验结果与分析

本文实验在64位WIN10操作系统,独立显卡NVIDIA GeForce GTX 950M,Inter(R)Core i7处理器下,采用MATLAB R2013a仿真软件实现。实验选用的HR图像大小为512×512。对文档HR图像进行下采样、PSF模糊、旋转、加噪4步获取10帧LR图像序列,分别为:(1)下采样因子为2,(2)与核大小3×3,标准差为1的高斯模糊核卷积生成PSF模糊效果图,(3)调用imrotate函数对图像进行旋转,其中旋转角度为2到5之间随机产生,实现方法参数分别为bicubic、crop,(4)添加由均值为0,方差为0.025,即40分贝的高斯噪声和密度为0.025的椒盐噪声生成的混合噪声(为了下文方便讨论,将高斯噪声方差与椒盐噪声密度数值进行统一)。为验证算法的有效性,所有方法迭代次数设为50次。

3.1 光流配准

分别选择第一帧和第二帧作为参考帧和配准帧,然后将配准结果作为下一帧的参考帧[13],图6和图7分别为中英文的配准过程,其中(c)为配准融合LR图像信息之后的结果。

Fig.6 Registration of Chinese characters image图6 中文字符文档图像配准

Fig.7 Registration of English characters image图7 英文字符文档图像配准

3.2 重建效果分析

Fig.8 Reconstruction results of a little Chinese characters image图8 较少的中文字符LR文档图像重建结果比较

Fig.9 Reconstruction results of a little English characters image图9 较少英文字符LR文档图像重建结果

3.3 重建质量评价

Fig.10 Reconstruction results of a large number of Chinese characters image图10 较多中文字符LR文档图像重建结果

Fig.11 Reconstruction results of a large of English characters image图11 较多英文字符LR文档图像重建结果

质量评价中采用字符较多的中英文图10、图11,采用PSNR值、MSSIM值客观评价三种方法的重建结果质量，其定义如下。

(17)

其中L为灰度级256,单位为分贝(dB)。

SSIM(X,Y)=l(X,Y)·c(X,Y)·s(X,Y) ，

(18)

其中μX、μY分别为两幅图的均值,σX、σY为方差,σXY为两幅图的协方差,C1、C2、C3为常数。

本文利用滑动窗将图像分块,令分块总数为N,考虑到窗口形状对分块的影响,采用高斯加权计算每一窗口的均值、方差以及协方差,然后计算对应块的结构相似度SSIM,最后将平均值作为两图像的结构相似性度量(百分比),即平均结构相似性MSSIM,其安义如下。

(19)

其中N=8。由表1可以看出,本文算法重建结果的PSNR值与MSSIM值高于其他两种方法,说明本文方法重建结果更接近原始HR图像,为了测试不同算法对混合噪声模型的鲁棒性,在生成低分辨率图像序列时加入不同程度的混合噪声。图12为三种方法在不同程度的混合噪声下重建结果的PSNR值与MSSIM值。其中的PSNR值与MSSIM值分别为重建的较多中文字符图像与较多英文字符图像的平均PSNR值与平均MSSIM值。由图12可以看出,在不同程度噪声下,本文的PSNR值与MSSIM值都是最高的,说明本文算法能够应对不同的噪声模型,算法的稳健性较好。

表1 三种方法重建结果的PSNR值/MSSIM值、重建时间对比

Fig.12 Comparison of reconstruction quality of three methods under different levels of mixed noise results图12 不同程度混合噪声下三种方法重建质量比较

4 小结

本文提出一种基于Geman & McClure范数的文本特征自适应正则化文档重建方法。利用Geman & McClure范数来构造数据保真项,克服了L1范数、L2范数只能针对特定噪声模型的缺陷,利用文本特征信息构造了一种自适应平滑的正则化项,克服了BTV正则化方法不能充分保留笔画细节信息的缺陷。与原BTV重建方法和G&M范数的BTV重建方法结果进行对比,验证了本文方法能够充分利用字符特征,不仅有效地保持字符边缘细节信息,而且抑制多种噪声污染。在实际应用中具有较高的可行性。

[1] Tsai R Y,Huang T S.Multi-frame Image Restoration and Registration[J].AdvancesinComputerVisionandImageProcessing,1984,1:101-106.

[2] Bahy R M,Salama G I,Mahmound T A.Adaptive Regularization-based Super Resolution Reconstruction Technique for Multi-focus Low-resolution Images[J].SignalProcessing,2014,10(3):155-167.DOI:http:∥dx.doi.org/10.1016/j.sigpro.2014.01.008.

[3] Purkait P,Chanda B.Super Resolution Image Reconstruction Through Bregman Iteration using Morphologic Regularization [J].TransactiononImageProcessing,2012,21(9):4029-4039.DOI:https:∥doi.org/10.1109/TIP.2012.2201492.

[4] Chen Y,Jin W,Wang L,etal.Robust Multiframe Super-resolution Reconstruction based on Regularization[J].ComputerSymposium,2010,10:408-413.DOI:https:∥doi.org/10.1109/COMPSYM.2010.5685476.

[5] Fan W,Sun J,Naoi S,etal.Local Consistency Constrained Adaptive Neighbor Embedding for Text Image Super-Resolution[C]∥IAPR International Workshop on Document Analysis Systems.IEEE Computer Society,2012:90-94.DOI: https:∥doi.org/10.1109/DAS.2012.52.

[6] Nayef N,Chazalon J,Gomez-Krämer P,etal.Efficient Example-Based Super-Resolution of Single Text Images Based on Selective Patch Processing[C]∥Brazilian Symposium on Software Engineering.IEEE Computer Society,2014:227-231.DOI:https:∥doi.org/10.1109/DAS.2014.25.

[7] Kato T,Hino H,Murata N.Multi-frame Image Super Resolution based on Sparse Coding[J].NeuralNetworkstheOfficialJournaloftheInternationalNeuralNetworkSociety,2015,66(C):64-78.DOI:https:∥doi.org/10.1016/j.neunet.2015.02.009.

[8] Panda S S,Jena G,Sahu S K.Image Super Resolution Reconstruction Using Iterative Adaptive Regularization Method and Genetic Algorithm[J].IndianJMedRes,2015,60:19-27.DOI:https:∥dx.doi.org/10.1007/978-81-322-2208-8-62

[9] Ramírez-Ortegón M A,Märgner V,Rojas R,etal.An Objective Method to Evaluate Stroke-Width Measures for Binarized Documents[C]∥International Conference on Document Analysis and Recognition.2013:175-179.DOI:https:∥doi.org/10.1109/ICDAR.2013.42.

[10] Kumar V,Bansal A.Sparse Document Image Coding for Restoration[C]∥12th International Conference on Document Analysis and Recognition(ICDAR),2013:713-717.DOI:https:∥doi.org/10.1109/ICDAR.2013.146.

[11] 李展,陈清亮,彭青玉，等.基于MAP的单帧字符图像超分辨率重建[J].电子学报,2015,43(1):191-197.DOI:http:∥dx.chinadoi.cn/10.3969%2fj.issn.0372-2112.2015.01.030.

[12] Chen X,Qi C.Document Image Super-resolution using Structural Similarity and Markov Random Field[J].IETImageProcessing,2014,8(12):687-698.DOI:https:∥doi.org/10.1049/iet-ipr.2013.0412.

[13] Walha R,Drira F,Lebourgeois F,etal.Resolution Enhancement of Textual Images Via Multiple Coupled Dictionaries and Adaptive Sparse Representation Selection[J].InternationalJournalonDocumentAnalysisandRecognition(IJDAR),2015,18(1):87-107.DOI:10.1007/s10032-014-0235-6.

[14] 梁风梅,邢剑卿,罗中良,等.基于 Huber 函数双边全变分的多帧文档图像超分辨率重建[J].中山大学学报自然科学版,2014,53(4):74-78.

[15] Liang F,Xu Y,Zhang M,etal.A POCS Algorithm Based on Text Features for the Reconstruction of Document Images at Super-Resolution[J].Symmetry,2016,8(10):102.DOI:http:∥dx.doi.org/10.3390/sym8100102.

[16] Thouin P D,Chang C I.A Method for Restoration of Low-resolution Document Images[J].InternationalJournalonDocumentAnalysisandRecognition(IJDAR),2000,2(4)：200-210.DOI: 10.1007/PL00021526.

[17] Banerjee J,Jawahar C V.Super-Resolution of Text Images Using Edge-Directed Tangent Field[C]∥The Eighth Iapr International Workshop on Document Analysis Systems.IEEE Computer Society,2008:76-83.DOI:http:∥doi.ieeecomputersociety.org/10.1109/DAS.2008.26.

[18] Abedi A,Kabir E.Stroke Width-based Directional Total Variation Regularisation for Document Image Super Resolution[J].ImageProcessingIET,2016,10(2):158-166.DOI:10.10491/iet-ipr.2014.1021.