基于SVM 的藏文古籍版面分割
2021-11-03任方针王秀友时如梦王胜波刘华明
任方针,王秀友,朱 弋,时如梦,王胜波,刘华明
(阜阳师范大学 计算机与信息工程学院,安徽 阜阳 236037)
藏文古籍作为承载藏族文化的载体,对于藏族文化的传承至关重要,因此对藏文古籍保护的研究较有意义,当前古籍数字化保护已经成为了主要的古籍保护方式。古籍数字化通常包括古籍拍照或扫描、古籍图像版面分割、古籍图像版面描述、古籍图像内容识别等步骤,古籍版面分割作为古籍数字化中的重要步骤,对古籍版面分割的研究是很有必要的。
版面分割是古籍数字化中关键的一步,是后续操作的基础,在版面分割方面也有不少研究。在过去的几十年中,国内外的研究者针对印刷或手写的古籍文献提出了许多不同的版面分析方法。张利等[1]利用游程平滑算法(Run length Smearing Algorithm,RLSA,RLSA)对英文文档进行版面分割。于明等[2]改进了传统基于连通域的版面分析方法,对文本图像进行单个字体的区域扩充,使后续的连通间距统计更为准确和方便,再通过连通间距的统计对图像进行模糊整合,进行文本图像的连通区域分割,效果更好。Chen 等[3-5]提出了基于颜色和纹理特征的历史手写文档图像页面分割方法、基于卷积自编码的历史文档图像页面分割方法、基于无监督特征学习超像素分类的历史文档图像页面分割方法,在历史文档页面分割上取得了不错的效果,降低了复杂度且提升了分析效果。逯瑜娇等[6]针对复杂版面分割问题,将相位一致性统计特征和改进灰度共生矩阵的纹理特征相结合,得到一种新的组合特征向量。将该组合特征向量作为训练样本,最终得到基于支持向量机的复杂图像分割算法,该方法在版面分割任务中表现出了较好的召回率与准确率,能有效区分复杂图像中的各类不同区域,但对于图形区域的分割准确度有所降低。魏传义[7]提出一种分列投影的版面分割算法。该方法继承了投影法本身计算速度快的特点,同时还可以避免图像弧度对版面分割的影响。在藏文古籍版面分割方面的研究相对其他文档的少一些,Liu 等[8]提出一种基于边界信息的藏文历史文献的版面分析方法,该方法在藏文古籍版面分析方面取得了较好的结果。张西群等[9-10]介绍了一种基于卷积降噪自编码器的藏文历史古籍版面分析方法。该方法能够对藏文历史文献的不同版面元素进行有效的分离,但其结果比较依赖聚类结果。
但当前的处理思路没有充分考虑到古籍各区域的特征,也没有从多个特征层次上考虑图像内容的差异。本文从灰度、纹理、颜色3 个方面对古籍图像进行特征分析,采用基于统计的方法提取古籍图像灰度、纹理、颜色18 维的特征向量作为分类特征。通过对图像分块后提取特征向量作为样本训练SVM,再对待分割图片分块后对图像块进行分类预测,得出粗略的版面分割结果,再结合投影法获得更精确的版面分割结果,为藏文古籍版面分割提供了一种可行的思路,由于本文工作是为后续对藏文文本的切分、提取等工作做准备,因此主要关注藏文区域的分割。
1 古籍图像特征分析与提取
从藏文古籍图片上可以看出,其主要包含图像区、文本区、背景区等区域,且不同区域具有不同的特征,从颜色特征上分析,图像区的颜色信息比较丰富,文本区的颜色信息比较单调,通常只有两种颜色,而背景区的颜色则通常只有一种;从纹理特征上分析,图像区的纹理具有多种纹理,层次比较丰富,文本区则具有文字的纹理特征,具有较多水平及垂直纹理,而背景区的纹理则较单一,不具有多种纹理;从灰度特征上分析,图像区的灰度层次较丰富,对比度也较大,文本区和背景区灰度层次较少,对比度也较小。通过对古籍图像特征的分析,决定使用灰度特征、纹理特征、颜色特征作为图像的特征来表达各区域的信息特征。
1.1 灰度特征提取
对古籍图像灰度特征分析,将灰度平均值、灰度方差、灰度熵、灰度能量、灰度对比度组成5 维向量来表达每一图块的灰度特征。
图像的灰度均值是各个像素点的灰度值的平均值,可以在一定程度上反映图像的灰度特征,将其作为灰度特征之一。
灰度方差表示图像中各个像素的灰度值与整个图像平均灰度值的离散程度。记iˉ为灰度均值,H(i)为灰度图中灰度值为i的像素个数,L为灰度图的灰度级数,灰度方差δ2为
图像熵表示图像中平均信息量的多少,灰度熵Hz为
灰度能量反映了图像中灰度值的大小,灰度能量Hp为
灰度对比度说明图像中最大灰度与最小灰度的差值,f(a,b)为(a,b)位置像素的灰度值,灰度对比度contrast 为
运用以上灰度均值等5 个值来表达每块图像的灰度特征。
1.2 纹理特征提取
基于灰度共生矩阵(gray-level co-occurrence matrix,GLCM)提取纹理特征的方法是一种典型的统计分析方法,GLCM 纹理提取方法具有较强的适应能力和稳健性,近年来已越来越多地用于图像的检测和分类。本文提取基于GLCM 的对比度、熵、二阶矩、逆方差4 维向量来表达图像的纹理特征。
对比度反映了图像的清晰度和纹理沟纹深浅的程度。纹理的沟纹深,其对比度大,效果清晰;反之,对比度小,则沟纹浅,效果模糊[11]。纹理对比度Con 为
式中:m,n表示灰度值,P(m,n)表示距离与角度选定后灰度值m与n同时出现的频度。
二阶距反映了图像灰度分布均匀程度和纹理粗细程度。二阶矩Asm 为
当Asm 大时,纹理粗,能量大;反之,Asm 小时,纹理细,能量小[12]。熵表示图像中纹理的非均匀程度或复杂程度。若纹理复杂,熵值大;反之,若图像中灰度均匀,共生矩阵中元素大小差异大,熵值小,熵Ent 为
逆方差反映图像纹理的同质性,度量图像纹理局部变化的多少。如果灰度共生矩阵对角元素有较大值,Idm 就会取较大的值[13]。因此连续灰度的图像会有较大Idm 值。逆方差Idm 为运用以上基于GLCM 的二阶矩等4 个值组成的4 维特征向量来描述每块图像纹理特征。
1.3 颜色特征
颜色特征是一种全局特征,述了图像或图像区域所对应的事物的表面性质。采用颜色矩来表达图块的颜色特征。颜色分布信息主要集中在低阶矩中,因此仅采用颜色的一阶矩、二阶矩和三阶矩就足以表达图像的颜色分布[14]。
第x(x=1,2,3)通道上一阶颜色矩Ex、二阶颜色矩δx和三阶颜色矩Sx分别反映图像的整体明暗程度、图像颜色的分布范围和图像颜色分布的对称性。其计算公式为
式中:Pxy表示第y个像素第x通道上的颜色值。
通过3 个颜色通道上的前三阶颜色矩组成的9 维特征向量来表达图像的颜色特征。
2 基于SVM 的版面分割
本文提出的版面分割方法流程图如图1。首先对图像滤波,滤波后将图像分为150×150 像素的图像块,再提取这些图像块的特征并标注,70%的样本用于训练,剩余30%用于测试。使用SVM可以得到版面粗略分割结果,再用投影法处理后得到精确的版面分割结果。
图1 基于SVM 版面分割流程图
2.1 基于SVM 的粗略版面分割
基于结构风险最小化原则的支持向量机(support vector machine,SVM)理论能够适用于小样本集学习的情况,具有很强的泛化能力,不过分依赖样本的数量和质量。基于SVM 的粗略版面分割步骤如下:
ⅰ将所有图像进行均值滤波并将所有图像分成150×150 像素大小的图像块;
ⅱ对每个图块提取灰度特征、纹理特征、颜色特征共计18 维的特征构成特征向量并进行归一化,归一化采用离差标准化方式;
ⅲ人工标注每个图像块,1 标记为文本区,0标记为非文本区;
ⅳ使用训练集训练SVM,并进行参数调整;
ⅴ将待版面分割图像分割为与训练集同样大小的图块,提取特征向量并归一化;
ⅵ使用训练好的SVM 对待版面分割图像所提取的特征向量进行分类;
ⅶ根据分类后的图块得到粗略的文本区坐标,得到大致版面分割结果。
本文以分类结果作为版面分割的依据,将分类为文本区的第一个图像块左上角坐标作为起始坐标,分类为文本区的最后一个图像块右下角坐标作为终点坐标,从而获得整个文本区的粗略坐标并框出来。因此非常依赖分类结果,并且若第一幅或最后一幅图像块分类错误将导致最终文本区坐标误差较大。为解决由于个别图像块分类错误导致分割结果较差的问题,结合图片分块后其文本区图像块连续的的特点,参考图块分类结果附近的两幅图块分类结果,只有连续3 个图像块分类为文本区才认定为文本区。这样基本解决了由于个别图像块分类错误导致最终版面分割结果误差较大的问题,从而获得文本区的粗略坐标,版面粗略分割结果如图2。
图2 粗略版面分割结果图
2.2 基于投影法的精确版面分割结果获取
由于获得粗略版面分割结果既有文本区又有非文本区的图块通常分类为非文本区,因此粗略文本区坐标通常小于实际文本区坐标,为使版面分割结果更加精确,利用投影法结合古籍图片特点来获得更精确文本区坐标,该类型古籍文本区边框较明显,合理二值化[15]。后边框位置一般均为黑像素,因此边框位置投影后的投影值通常都是最大的。根据这个特点结合上文得到的粗略文本区坐标,在一定范围内投影便可获得精确文本区坐标,其流程图如图3。具体如下:
图3 基于投影法的精确版面分割结果获取流程图
ⅰ将古籍图像灰度化,得到灰度图;
ⅱ将灰度图二值化,得到二值化图;
ⅲ对粗略文本区坐标左边框坐标到该坐标左侧两幅图块即300 像素的位置进行垂直投影,将投影值最大的坐标作为文本区精确左坐标;
ⅳ对粗略文本区坐标上边框坐标到该坐标上方一幅幅图块即150 像素的位置进行水平投影,将投影值最大的坐标作为文本区精确上坐标;
ⅴ对粗略文本区坐标右边框坐标到该坐标右侧两幅图块即300 像素的位置进行垂直投影,将投影值最大的坐标作为文本区精确右坐标;
ⅵ对粗略文本区坐标下边框坐标到该坐标下方一幅幅图块即150 像素的位置进行水平投影,将投影值最大的坐标作为文本区精确下坐标;
ⅶ以上述四个坐标作为文本区精确坐标对古籍图像进行版面分割,得到精确版面分割结果。
由于图像区也存在边框,若投影范围过大,投影值最大的位置将会是图像区边框位置。因此左右投影范围在两幅图像块大小较好,上下范围在一幅图像块大小较好。
本文采用SVM[16,17]对图像块分类得到粗略版面分割结果,再结合投影法得到古籍精确版面分割结果,分割效果较好,精确版面分割结果如图4。
图4 版面精确分割图
3 实验结果与分析
本文对不同核函数在训练集和测试集上的正确率及召回率进行测试。经测试,高斯核函数具有最高的正确率及召回率,因此本文采用高斯核函数。
本文对34 幅古籍藏文图片进行了测试,34 幅图片切分后共有13 283 幅图像块,分类错误数为140 幅,图像块的分类正确率为99.79%。使用本文方法对这34 幅图片进行版面分割,准确分割出文本区的共28 幅,因此分割准确率为82.35%。以上正确率均为图块识别正确数目与图片切分数目比值,该结果仍然可以通过调整样本集来改善正确率。
采用投影法[18,19]对版面分割结果进行改善后,一些图像块分类错误也不影响版面分割结果,鲁棒性更强。
采用了分段投影法[20]进行版面分割的方式对同样的34 幅做了测试,由于该方法解决中文文档图像的版面分割问题,而中文文档与本文古籍图像特点不同,因此对其作了一些改动来使其更适用于藏文古籍图像的版面分割。该方法对图像本身特点依赖较强,且阈值选取直接影响到整个分割结果,且不同的图像阈值也不同。以人工框出文本区面积与算法框出文本区面积比值作为分割率,两种方法分割率比较结果如表1 所示。可以看出本文提出的方法对该类别古籍版面分割效果比多段投影法好。
表1 不同方法实验结果
4 小结
本文提出了一种基于SVM 分类的版面分割方法,首先将图像滤波,然后切分为图像块,对这些图像块提取特征后训练SVM,然后用SVM 对待分割图像中的图像块进行分类,根据分类结果得到粗略版面分割结果,在粗略版面分割结果的基础上结合投影法获得精确版面分割结果。对该类型的古籍图像块分类正确率较高。