基于灰度直方图与改进Hu不变矩的维吾尔文关键词图像二次检索∗
2022-06-04宋志平朱亚俐徐学斌吾尔尼沙买买提库尔班吾布力
宋志平,朱亚俐,徐学斌,吾尔尼沙·买买提,库尔班·吾布力,2†
(1.新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830017;2.新疆多语种信息技术重点实验室,新疆 乌鲁木齐 830017)
0 引言
随着文档图像规模越来越大,对于英文和中文的光学字符识别[1](Optical Character Recognition,OCR)技术已经十分成熟.在OCR识别技术的带动下,人们对于少数民族文字研究也越来越广泛,其中印刷体维吾尔文文档图像检索的研究可以加快维吾尔文数字图书馆的建设与发展,对促进我国少数民族文化的发展具有极其重要的意义.
在文档图像领域中Manmatha等[2−3]第一次提出一种基于词图像匹配的关键词检索算法,在对手稿图像进行词图像分割的基础上实现了手稿图像的检索,在接下来的研究工作中,该团队提取了手写体单词图像的多维轮廓特征,并用动态时间扭曲(Dynamic Time Warping,DTW)算法对单词图片进行检索.Rothfeder等[4]在检索中对样本图像提取Harris角点序列,对查询词也提取同样的特征,度量值设置为像素灰度差的平方和(Sum of Squared Differences,SSD)的计算值.Vadivukarassi等[5]提出了一种提取关键图像特征的HOG-SIFT算法,最后利用子空间聚类算法从图像数据库中提取目标图像.Niaz等[6]提出了一种基于索引和检索的英语文档索引系统,将含有英文文本的文档图像分成连接词,每个文本用一组特征表示,分别提取图像的DCT和DWT特征,然后利用欧氏距离进行关键词检索.黄祥琳等[7]提出一种不经过ORC识别情况下,将中文文档图像分割成单个中文字符图片,再对中文字符图像的笔画特征数据进行提取,最后利用WMHD进行关键词检索.魏宏喜等[8]建立了基于词定位法的蒙古文图像检索系统,系统中图像通过文字轮廓、投影特征和笔画的交集来表达,将视觉特征集成到BOVW[9]模型中并用于检索任务.
目前关于维吾尔文文档图像的研究进展迅速,例如周文杰[10]用形态学梯度算法对维吾尔文文档图像进行单词切分,并通过切分后单词图像的LBP特征实现检索.李静静等[11]提出层级匹配方法实现对关键词进行精确检索.本文设计了一种由粗到细层次匹配的维吾尔文关键词图像二次检索框架,该方法主要包括4部分:文档图像采集与预处理、单词切分、粗略检索、二次检索,具体框架如图1所示.首先,对预处理后的印刷体文档图像进行单词切分生成单词数据集,并使用灰度直方图特征对单词图像进行粗略检测,过滤掉无需检索的单词.其次,在粗略检索的基础上,使用Hu不变矩特征对粗略匹配检索回的候选单词图像库进行二次精确检索.
图1 基于关键词的文档图像系统检索框架
1 基于印刷体关键词检索研究
1.1 文档图像采集与预处理
本文通过扫描维吾尔文版《马列主义经典著作选编》书籍,构建了1 000张纯文本文档图像数据库,随机抽取了115张文档图像进行试验.在将纸质书籍文本扫描成电子文档图像的过程中,由于噪声、设备及其它因素的干扰,降低了文档图像的质量,从而影响了图像特征有效信息的提取.因此本文通过图像预处理方法来增强图像质量,预处理操作包括:灰度化(加权平均法)、二值化(Otus)、噪声去除(中值滤波)及倾斜校正(Hough变换).预处理前后效果如图2(a)、图2(b)所示,可以看出预处理后图形中的字迹相比处理前更清晰,内容结构也比较容易辨识,这说明预处理后的图像要比灰度图像的特征更加明显.文献[12]采用连体段的特征聚类方式,将图文混合布局的维吾尔文文档图像进行单词切分,由于本文使用的数据集是纯文本版面,因此本文采用周文杰等[13]提出的基于形态学分析和像素积分投影算法对维吾尔文文档印刷图像的单词进行切分,效果如图2(c)所示.
图2 文档图像预处理
1.2 特征提取
1.2.1 灰度直方图
灰度直方图[14](gray histogram)是灰度级的函数,它表示图像中处于该灰度级具有的像素数量.直方图曲线的横轴是图像的像素灰度等级,纵轴表示该灰度级出现的概率,计算公式如下:
其中:i表示灰度级,L表示灰度级种类数,n表示图像中具有灰度级i像素的个数,N表示图像总的像素数.
1.2.2 灰度直方图性质
在图像检索算法中,灰度直方图算法是最简单的算法之一,该算法容易实现,运算速度快,具有旋转、比例和位移不变性,检索结果不会漏掉相似图像[15].但该算法也存在缺陷,在图像中各像素的灰度值都是具有二维位置信息的,而直方图只统计某一灰度值像素的多少和其在图像中的比例,对具有同一灰度的像素在图像中的位置信息无法确定.这会导致不同的图像具有相同直方图,如图3 (a)、图3 (b)、图3 (c)所示.
图3 不同图像具有相同直方图
1.2.3 Hu不变矩
Hu不变矩(invariant momcnts)是Hu[16]在1962年首先提出用来描述图像的形态特征,该特征具有旋转、缩放和平移不变性,因此被广泛用于图像特征提取.假设图像f(x,y)是分段连续的,其(p+q)阶笛卡儿系几何矩与几何中心矩µpq定义为:
归一化的(p+q)阶中心矩ηpq定义为:
其中:γ=(p+q+2)/2,p+q=2,3,···.图像的中心距具有平移不变性和缩放不变性的特点.几何中心矩可用于描述区域的形状.
二维不变矩理论是在笛卡儿坐标系下,通过归一化中心矩ηpq从而推导出的7个不变矩,并被证明其对平移、缩放和旋转具有不变性,这为图像的不变矩研究奠定了理论基础,使其广泛的应用在图像处理上,7个二维不变矩的计算公式如下:
1.2.4 改进的Hu不变矩
Hu不变矩是基于图像区域且与图像的灰度相关,其计算量大所以Hu矩也称为区域矩.然而维吾尔文文字构成笔画简单且很多主体笔画相同,其宽度和高度相互之间不等、书写形式与一般字母不同,多由一些弧线和曲线所组成,属于非区域结构.因此原始的Hu不变矩不能很好地对其边界信息进行有效描述,主要是因为µ00是与区域相关的面积比例因子,然而对于边界像素的计算使得µ00因子失效,不满足边界矩的不变性.为了得到适用于区域封闭和不封闭结构的统一矩公式,本文利用矩之间的比值来消掉比例因子µ00,从而使不变矩与面积或结构的比例缩放无关仅与几何形状有关.改进的Hu矩计算公式如下:
其中:Ψ1代表了形状特征的曲率半径,当区域形状为直线特征时曲率半径为1.当区域形状为圆时曲率半径为0.为了提高相对矩对形状的描述能力,本文在Hu不变矩中加入离心率特征:
其中:离心率Ψ8表示形状特征最大轴与最小轴的比值,满足形状特征的集合不变性.
2 实验结果分析
本文实验在Windows10环境下展开,处理器型号为Intel Core I5-8300,运行内存8 GB,具体程序是在python3.7开发环境下编程调试,并借助OpenCV-3.4.2.16开发平台实现.文档图像数据库源于《马列主义经典著作选编》维吾尔文版书籍,为模拟不同办公环境,采用不同打印机,将纸质文档扫描为文档图像,尺寸为716×1 011,300 dpi.建立了1 000张文档图像,随机选取了115张文档图像并切分成24 460张单词图像,然后在其中选取10个具有丰富意义的关键词图像作为查询关键词图像,并在数据库中进行检索实验.检索性能的评价指标有准确率(precision)、召回率(recall)、F值,TP(True Positive):检索为关键词,实际也为关键词;FP(False Positive):检索为关键词,实际是非关键词;TN(True Negative):未被检索到的关键词,实际是非关键词;FN(False Negative):未被检索到的关键词,实际是关键词,指标计算公式如下:
2.1 基于灰度直方图的粗略检索实验
本文首先在维吾尔文单词数据集上,评估了灰度直方图算法在维吾尔文文档数据集上的性能,通过调节阈值过滤掉不相关单词图像,在保持召回率的同时尽可能准确地定位目标关键词.
表1展示了灰度直方图特征的检索结果,其检索平均准确率为47.35%,而这些正确的关键词图像占所标注关键词图像总个数的91.33%,F值平均值为61.99%.由表1可知,第5个关键词准确率与F值在这10个查询关键词中最高,分别为60.52%、69.69%,即表示共检索回76个单词图像,其中目标关键词包含46个.相反也有准确率较差的关键词,第8个关键词准确率在这10个查询关键词中最差,为36.36%,即共检索到55个单词图像,其中目标关键词图像仅包含20个.召回率效果最好的是第2、第9两个关键词,为100%.表示标注关键词均被召回;而召回率最差的是第5个关键词,为82.14%,即从56个标注关键词图像中成功召回46个目标关键词图像.
表1 基于灰度直方图的粗略匹配结果
经分析得出,粗匹配阶段准确率普遍偏低,召回率较高.这是因为该阶段是关键词初步筛选的过程,未对关键词图像提取有效的特征而直接使用像素信息进行匹配,该阶段仅仅对数据库中一些不相关的词图像和切分错误的单词图像进行过滤,以保证尽可能多地召回目标词.目的在于如果对图像库中所有单词图像均进行特征提取、匹配,明显会增加检索复杂度,做许多无意义的匹配.因此本文通过阈值的设置,过滤一部分无需匹配的单词构成候选单词集合,并通过中间阈值的设定,在保证召回率的情况下尽可能准确检索到目标关键词.
2.2 基于Hu不变矩的二次检索实验
本节前三组实验是在没有粗略检索的基础上,比较了改进Hu不变矩与原始的Hu不变矩算法在维吾尔文文档图像数据库上检索性能.表2中数据为使用Hu不变矩算法在维吾尔文文档图像中的匹配结果,其中准确率平均值为39.79%,召回率的平均值为44.21%,F值平均值为36.82%.其中第5个查询关键词的检索准确率最高,为55.81%.即共检索到43个单词图像,其中目标关键词包含24个.准确率最差的是第7个查询关键词,为28.20%,即共检索回39个单词图像,其中正确单词图像为11个.对于召回率而言,第8个关键词图像召回率最好,为65.21%,表示共标注23个关键词图像,其中有15个目标关键词被召回.第3个关键词图像召回率最低,为32.14%.即共标注56个关键词图像,其中召回18个.表3是采用本文改进后的Hu不变矩算法的检索结果,其准确率平均值为54.22%,召回率平均值为54.27%,F值平均值为53.86%.其中第6个查询关键词检索准确率最高,为62.79%,即表示共检索回43个单词图像,其中关键词图像包含27个.而第7、第8两个关键词图像召回率在10个查询关键词中最高,均为65.21%.即表示共标注23个关键词图像,其中15个目标关键词被召回.
表2 基于Hu不变矩的关键词检索结果
表3 基于改进的Hu不变矩的关键词检索结果
由表3可知,本文改进后的Hu不变矩算法相较于表2中原始的Hu不变矩算法,在准确率和召回率上均有大幅提升.为进一步验证本文方法的有效性、同时考虑实际扫描中可能存在的问题,通过对数据库图像进行随机旋转、随机缩放、随机遮挡之后的检索效果进行对比,选择以上3种变换的原因是考虑到存在书籍扫描发生倾斜、字体大小不一致和书籍破损与字迹不清等情况,为了模拟以上情况选择了旋转、缩放、遮挡3种变换,其检索效果如图4所示.
图4 基于几何变换下的实验结果对比
由图4可知,在经过几何变换后,本文改进后的Hu不变矩算法相对于原始Hu算法在检索准确率和召回率上都有明显提升,从图4左图可以看出经过缩放后的准确率要优于旋转和遮挡,从图4右图可以看出经过旋转后的召回率要优于其它两种变换,而遮挡变换后的检索效果是最差的,这是由于改进后的Hu矩能有效地描述图像的边界和一些不封闭的结构特征信息,可以过滤掉很多相似的图形使得检索准确率更高.但其整体上效果并不理想,原因在于其特征维度较低未能完全表示出关键词图像的全部图像信息,难免会检索回与目标关键词无关的图像.因此,可以看出单一特征对图像的表达都具有局限性,无法从不同角度衡量图像,但对不同特征进行融合可以很好地解决这一问题.因此本文在灰度直方图粗略匹配的基础上,使用改进后的Hu不变矩对粗略匹配检索回的候选单词图像库进行二次精确检索,其效果如表4所示.
表4 基于灰度直方图+改进的Hu不变矩的关键词检索结果
由表4可知,采用二次检索的准确率平均值为78.36%,召回率平均值为81.68%,F值的平均值为78.59%.其中第1个查询关键词图像准确率在这10个查询关键词中效果最好,为97.05%,即共检索回34个单词图像,其中检索正确的关键词为33个.而对于召回率而言,第2个关键词检索效果最好,为100%,即标注关键词均被召回.
该阶段是关键词图像的二次精确检索,将灰度直方图特征与Hu不变矩特征进行分层次融合,可以有效地描述图像的边界和空间几何信息,其次能有效地弥补灰度直方图不能描述图像空间位置信息的缺点,通过在粗略匹配形成的候选单词图像集合中进一步实现对关键词的精确检索.相比表1中灰度直方图粗略匹配效果,其平均准确率提升了31.01%,召回率降低了9.65%.而相比表3中改进的Hu不变矩的检索结果,其在准确率和召回率上分别提升了24.14%、27.41%.相比第一阶段的粗略匹配,需要进行特征提取和匹配的单词图像数量已大幅度减少,能有效降低系统复杂度,提高检索效率.
2.3 与现有方法对比
为进一步验证本文提出方法的性能,在相同数据库上和已有的Hu+MB-LBP+OSVM[10]关键词检索方法与模板匹配+HOG+OSVM[11]关键词检索方法做了比较,3种方法的准确率、召回率对比情况见表5.由表5可知,基于Hu+MB-LBP+OSVM检索方法的平均检索准确率为86.70%,平均召回率为78.30%.基于模板匹配+HOG+OSVM关键词检索方法的平均检索准确率为91.74%,平均召回率为79.31%.本文方法在维吾尔文文档图像关键词检索中的平均准确率为78.36%,平均召回率为81.68%.相较Hu+MB-LBP+OSVM关键词检索方法,本文方法在准确率上降低了8.34%,召回率提升了3.38%.而相较模板匹配+HOG+OSVM关键词检索方法,本文方法在准确率上降低了13.38%,召回率提升了2.37%.相较前两种关键词检索方法,本文方法在召回率上有大幅提升,在准确率上还有较大的提升空间.
表5 基于维吾尔文文档关键词图像检索结果对比
3 结论
针对维吾尔文单词图像的特点提出了一种特征分层融合的关键词图像二次检索方法,首先利用灰度直方图特征简单快速地过滤掉部分不需要检索的单词图像,其次采用改进的Hu不变矩特征对粗略匹配检索回的单词图像库进行二次精确检索.通过在粗略检索召回率略有损失的情况下极大提高图像检索的准确率,并通过实验证明该方法的有效性.
随着对关键词检索研究的深入,维吾尔文文档图像的关键词检索依然是一个具有挑战性的研究方向,尤其是关键词图像特征选取的研究,因此我们下一步工作将更加深入分析维吾尔文单词图像的特点并通过寻找新的特征进行融合来提高检索效果.本文的研究主要是建立在纯文本的印刷体维吾尔文文档图像上,而现实中的文档图像还包含表格、图片等信息,因此,需增加具有复杂布局的文档图像以及手写体的文档图像,同时单词切分方法也有待改进提高,实验中的测试关键词数目以及文档图像规模还会继续扩大,进而降低偶然因素对检索结果的影响.