APP下载

融合字符及字符排列特征的铭牌识别方法

2016-12-26尹远余正涛

现代电子技术 2016年22期
关键词:字符识别

尹远+余正涛

摘 要: 传统铭牌字符识别主要通过计算铭牌字符图片的灰度平均值来判定,由于铭牌字符具有笔画方向特征、轮廓特征,同时字符之间存在着一定的排列特征。提出融合字符及字符排列特征的铭牌识别方法,首先对铭牌字符图片分别进行横、竖、撇三个方向上的小波变换,求出三个方向上的小波平均能量,再提取出字符的边缘方向直方图,以小波平均能量和边缘方向直方图构成特征向量,用支持向量机分类器训练并构建候选字符识别模型,得到候选字符,然后利用铭牌字符排列特点和铭牌的样本数据训练构建N阶马尔科夫字符排列模型,借助于模型对候选字符进行约束获得铭牌识别结果,最后对电力设备铭牌进行识别实验。结果表明,提出的方法表现了很好的效果,比OCR软件识别的准确率提高了12.6%。

关键词: 设备铭牌; 字符识别; 笔画方向特征; 轮廓特征; 字符排列特征

中图分类号: TN919?34 文献标识码: A 文章编号: 1004?373X(2016)22?0006?03

0 引 言

铭牌字符不同于具有白色背景的普通文档字符,它一般出现在彩色背景中,字符可能出现倾斜,而且字符数量远远少于普通文档,一般同时包含文字、数字和字母,识别这种字符对于设备的管理具有重要意义[1]。目前的铭牌字符识别是提取字符特征建立模版,利用模版匹配来进行字符识别。其中,字符特征的提取和匹配是最关键的部分。对于特征的提取,Yang等人提出以字符的孔洞数[2]、字符每一行由白到黑跳变的像素个数以及字符经过Gabor[3]变换之后的纹理特征来作为字符的识别特征;Chen等人提出以字符的小波能量[4]作为字符识别特征的方法,其中小波能量是一种细节特征,可以较好地体现字符在不同笔画方向上的频谱能量[5];Wei等人利用字符的开闭环特征[6]训练BP神经网络[7]来进行字符的识别,通过判断字符的形状有没有构成封闭的区域,以构成不同类型的封闭区域作为字符的识别特征。对于铭牌字符模版的匹配,传统方法是将字符分割成很多小块,然后计算出所有小块的灰度平均值[8]来进行匹配,字符中的汉字、数字和字母笔画弯折的部分具有丰富的笔画方向特征[9],通过小波变换可以把字符笔画方向的变化这一局部细节信息反映在频谱的高频部分,同时铭牌字符的轮廓线条存在着很多方向突变,具有丰富的形状轮廓信息,边缘方向直方图[10]可以体现字符的整体形状轮廓信息。铭牌上的内容一般是某一领域的相关术语,字符只有通过固定的排列才能构成这些术语,通过N阶马尔科夫方法[11]构建的字符排列模型可以体现出字符之间的特定排列特征。所以本文将它们融合在铭牌识别的特征提取和结果匹配中,提高铭牌字符识别的准确率。以电力设备铭牌识别实验为例,其结果也验证了本文提出方法的有效性。

1 铭牌字符预处理

在进行铭牌字符识别之前,需要对铭牌上的字符做预处理,包括字符图像的二值化、字符图像的去倾斜、以及字符图像的分割。设备铭牌的图像通常是彩色的,为了方便对字符的分割以及识别,首先要对字符图像进行二值化,本文采用全局最大方差阈值法来确定对字符图像进行二值化的灰度阈值K。设灰度图像的灰度级区间为[0,M],某一灰度级K将该区间分为两组,分别为[0,K]和[K+1,M],记为C0和C1,则这两个灰度区间之间平均灰度的方差为:

[δ2K=ω0μ0-μ2+ω1μ1-μ2=(μω(K)+μ(K))2ω(K)(1-ω(K))] (1)

式中:μ0和μ1分别为C0和C1的平均灰度;ω0和ω1分别为C0和C1所占像素点数量与总像素点数量的比值。在[0,M]之间不断变换K的值,直到求出式(1)中δ2(K)为最大值时的K值,这个值就是对字符图像进行二值化的灰度阈值K。到此,完成了设备铭牌上字符的灰度二值化。

由于拍摄角度的原因,设备铭牌上的字符会与水平线之间存在一个微小的夹角θ。为了方便特征的提取,需要对字符图像进行去倾斜。由于铭牌上的字符是横排书写的,即从左往右书写,对字符图像分别进行x轴和y轴方向上的投影,其投影长度分别为L1和L2,然后检测y轴上灰度值为1的起始点的坐标,其到x轴的距离记为L3,设字符图像的去倾斜角度为θ,则:

[θ=arctan L2-L3L1] (2)

对于设备铭牌上的字符,如果最左侧字符的y轴投影坐标大于最右侧字符的y轴投影坐标,则将整个字符的投影区域逆时针旋转去倾斜角θ即可,反之,则顺时针旋转去倾斜角θ即可。在进行字符图像的二值化和去倾斜之后,接下来进行字符图像的分割和归一化。设备铭牌字符的分割可分为行分割与字间分割,首先进行的是铭牌字符的行分割,对铭牌字符进行y轴方向的投影,可以得到铭牌字符在y轴方向的像素分布,在像素分布图中有一些地方为零,它们对应两行之间的空白,可以根据y轴方向的像素分布来计算每一行的宽度以及行与行之间的距离,在进行字符图像的行分割之后,再进行每一行字符图像的字间分割。与行分割类似,只需要对某一行字符图像做x轴方向的投影,可以得到铭牌字符在x轴方向的像素分布,在像素分布图中有一些地方为零,它们对应两个字之间的空白,可以根据这个空白的距离对一行字符做字间分割。对于字符图像,本文将采用线性归一的方法将其压缩为32×32的像素点阵,在归一化的过程中,若某一个方向先归一化达到32点阵,另一个方向的归一化即停止,这样可以使得在归一化的过程中不会造成字形的破坏。

2 候选字符的识别与排列

本文选取小波能量和边缘方向直方图作为铭牌字符识别的特征,它们对字符的细节、纹理、频谱有较好的表现能力,并使用这些特征训练支持向量机(SVM)分类器,通过被训练的分类器得到识别出的候选字符,并对候选字符进行排列得到最终的铭牌识别结果。

2.1 候选字符的识别

本文将预处理之后的字符图像进行小波分解,获取其在横、竖、撇这三个方向上的平均能量。将字符图像的平均能量记为Eav,则:

[Eav=1MNx=0M-1y=0N-1f(x,y)2] (3)

式中:f(x,y)表示某个字符的图像;[fx,y]表示该图像像素值的绝对值;M和N表示该图像的宽和高。设经过小波分解后得到的低频分量图像为A(f),它包含了字符的轮廓信息,高频分量图像为Bd,j(f),则它们的平均能量为:

[Af: Eav(A(f))=1MNx=0M-1y=0N-1A[f(x,y)]2] (4)

[Bd,jf: Eav(Bd,j(f))=1MNx=0M-1y=0N-1Bd,j[f(x,y)]2] (5)

式中:d=1,2,3表示横、竖、撇三个方向;j=1,2,3表示进行小波分解的次数。这样,高频分量图像就有9个能量特征,再加上低频分量图像的能量特征,就得到了一个字符图像的10维能量特征向量,即:

[EavEavAf,EavB1,1f,EavB1,2f,EavB3,3f] (6)

提取字符图像的边缘方向直方图需要先提取字符的边缘形状。本文提取字符的边缘图像使用的是Canny算子。Canny算子的实现是一个多阶段的处理过程,首先对于图像进行高斯平滑,然后对于平滑后的图像用Roberts算子进行变换,对变换后的图像,将360°的角度空间均分为72级,计算图像中边界点处法向量的方向角分别落在这72级空间中的频率,这样就得到了字符图像的边缘方向直方图向量。提取字符图像的特征之后,本文构建并训练支持向量机分类器来识别候选字符。设训练字符图像为B,其小波能量特征向量为B=(B0,B1,B2,…,B9),边缘方向直方图向量为Y=(Y0,Y1,Y2,…,Yn),待识别的字符图像为A,其小波能量特征向量为A=(A0,A1,A2,…,A9),边缘方向直方图向量为X=(X0,X1,X2,…,Xn),T1和T2为设定的阈值,则当:

[DX,Y=i=0n(Xi-Yi)2

同时成立时,字符B被识别为字符A的一个候选字符,候选字符可能有多个。下一步就需要对候选字符做正确排列,得到最终的铭牌识别结果。

2.2 候选字符的排列

根据铭牌所用的领域术语,构建字符排列模型,通过模型对候选字符进行正确的排列。设由k个候选字符组成的排列(m1,m2,...,mk)组成术语S的概率为P(S),根据N阶马尔科夫模型,术语S出现的概率仅仅与前面n-1个术语有关,则:

[PS=P(m1,m2,...,mk)=i=1kN(mi-n+1,...,mi)N(mi-n+1,...,mi-1)] (8)

式(8)即为N阶马尔科夫字符排列模型。其中N(mi-n+1,...,mi)和N(mi-n+1,...,mi-1)分别表示候选字符排列(mi-n+1,...,mi)和(mi-n+1,...,mi-1)在所有候选字符排列中出现的次数。对这k个候选字符,根据式(8)求出其按不同排列组成不同术语的概率,并将这些概率从高到低排列,然后将组成概率最大的那个术语作为最终的铭牌识别结果。

3 实验与结果分析

本文以电力设备铭牌字符识别实验为例,选取了360张电力设备的铭牌图片作为实验样本,其中有120张为纯汉字铭牌图片,120张为包含汉字、字母、数字的铭牌图片,120张为包含字母、数字的铭牌图片。在实验样本中与OCR识别软件的对比实验结果如表1所示。

从表1可以看出,本文的方法在识别铭牌字符的综合准确率上比OCR软件提升了12.6%。为了进一步说明本文提出的方法的有效性,设计了两个实验,用一款OCR文字识别软件的实验结果作为对比。

实验一:识别字符数较少的设备铭牌实验(铭牌内容为“110 kV下仓线端子箱”)。

实验二:识别字符倾斜的设备铭牌实验(铭牌内容为“电池组Ⅱ”)。

从两个实验结果可以看出,本文方法可以正确识别出设备铭牌上的字符,而传统的OCR软件在实验中不能得到识别结果。

4 结 论

本文提出的设备铭牌字符识别方法,以字符的小波能量和边缘方向直方图作为其特征向量,用支持向量机分类器来构建候选字符判定模型,通过字符排列模型对候选字符进行最优排列,得到最终的铭牌识别结果。相比传统OCR识别软件,识别的准确率得到了提高,更适合用于设备铭牌字符的识别。

参考文献

[1] WANG Dahan, LIU Chenglin. Learning confidence transformation for handwritten chinese text recognition [J]. International journal on document analysis and recognition, 2014, 17(3): 205?219.

[2] PAL Arpan, CHATTOPADHYAY Tanushyam, SINHA Aniruddha. Context?aware television?internet mash?ups using logo detection and character recognition [J]. Pattern analysis and applications, 2015, 18(1): 191?205.

[3] CHIANG Yaoyi, CRAIG A. Recognizing text in raster maps [J]. GeoInformatica, 2015, 19(1): 1?27.

[4] NAMANE A, GUESSOUM A, SOUBARI E H. CSM neural network for degraded printed character optical recognition [J]. Journal of visual communication and image representation, 2014, 25(5): 120?127.

[5] CHANG J K, RYOO Seungteak, LIM Heuiseok. Real?time vehicle tracking mechanism with license plate recognition from road images [J]. The journal of supercomputing, 2013, 65(1): 353?364.

[6] RYU Sangjin, KIM In?Jung. Discrimination of similar characters using nonlinear normalization based on regional importance measure[J]. International journal on document analysis and recognition, 2014, 17(1): 79?89.

[7] ELAGOUNI Khaoula, GARCIA Christophe, MAMALET Franck. Text recognition in multimedia documents: a study of two neural?based OCRs using and avoiding character segmentation[J]. International journal on document analysis and recognition, 2014, 17(1): 19?31.

[8] PORWAL Utkarsh, SHI Zhixin, SETLUR Srirangaraj. Machine learning in handwritten arabic text recognition[J]. Handbook of statistics, 2013, 31: 443?469.

[9] MATEI O, POP P C, V?LEAN H. Optical character recognition in real environments using neural networks and K?nearest neighbor[J]. Applied intelligence, 2013, 39(4): 739?748.

[10] 王恺,李成学,王庆人,等.异态汉字识别方法研究[J].软件学报,2014,25(10):2266?2281.

[11] BERTOLDI Nicola, SIMIANER Patrick, CETTOLO Mauro. Online adaptation to post?edits for phrase?based statistical machine translation[J]. Machine translation, 2014, 28(3/4): 309?339.

猜你喜欢

字符识别
一种改进深度学习网络结构的英文字符识别
车牌识别系统的设计与实现
基于深度学习法的视频文本区域定位与区别
一种基于OpenCV的车牌识别方法
仪表字符识别中的图像处理算法研究
一种实用的金融票据框线去除算法
纸币冠字号提取的方法研究
基于CUDA和深度置信网络的手写字符识别
机加工件点阵字符识别研究