APP下载

概率神经网络在手写汉字识别中的应用

2016-09-14刘朝阳李少博

电子设计工程 2016年2期
关键词:手写特征向量图像处理

刘朝阳,陈 以,李少博

(桂林电子科技大学 广西 桂林 451004)

概率神经网络在手写汉字识别中的应用

刘朝阳,陈 以,李少博

(桂林电子科技大学 广西 桂林451004)

针对手写汉字的多样性和复杂性,及识别困难的问题,提出了基于概率神经网络的手写汉字识别方法.概率神经网络学习过程简单,学习速度快,分类准确,吸收了径向基神经网络与经典的概率密度估计原理的优点,与传统的前馈神经网络相比,在模式分类方面尤其具有较为显著的优势.为提高识别的准确性和识别速度.在识别前,需要对待识别的汉字图像进行预处理,为识别提供准确的汉字特征向量.而后通过概率神经网络对所提供汉字特征向量进行训练识别.通过对具有代表性几组汉字样本进行试验.证明了方法的有效性.

概率神经网络;手写汉字识别;特征提取;图像处理

随着我国的国际地位的提升,综合国力的提高,特别是文化软实力的提升显得尤为重要。而汉字作为中国悠悠五千年历史的见证者,手写汉字识别随着科学技术的发展有了进一步提升的空间。不同于西方文字,汉字有其独特的结构特征,即是由偏旁部首组成,且汉字的数量庞大,因此汉字识别有着必然的困难性和复杂性。鉴于光学字符识别系统OCR主要对印刷体汉字有着良好的识别能力;汉字识别方法有很多种,近年来,新的神经网络算法不断被提出,对汉字识别提供了新思路。概率神经网络(PNN)是由D.F.Specht在1990年提出的。PNN吸收了径向基神经网络与经典概率密度估计原理的优点,与传统的前馈神经网络相比,在模式识别分类方面具有较为显著的优势。本文提出了基于概率神经网络的手写汉字识别方法。

1 识别原理

本实验使用HCL2000汉字库通过图像处理及神经网络模式识别算法对汉字图像进行识别,具体步骤如图1所示。

图1 识别流程图Fig.1 Flow chart of recognition

1.1图像预处理及特征向量提取

为了对待识别汉字进行良好的识别,必须对读取到的数字矩阵图像进行预处理,从而得到易于机器处理的清晰、特征明显的图像。利用图像处理的各种算法对待处理的汉字图像进行预处理,其步骤包括灰度化、二值化、去噪、细化及归一化.经过以上5步骤得到用于提取特征向量的64×64的矩阵.通过对待识别图像的网格特征和笔划特征的提取得到其特征向量矩阵。

1.2概率神经网络

图2是概率神经网络的结构图.概率神经网络PNN是径向基网络的一个分支,是前馈网络的一种。它是一种有监督的网络的分类器,基于概率统计思想,由Bayes分类规则构成,采用Parzen窗函数密度估计方法估算条件概率,进行分类模式识别。

PNN的结构模型如图2,共分4层:输入层、样本层(又称模式层)、求和层和决策层(又称竞争层输出层).对应网络输入X=[x1,x2,…xm]T,其输出为Y=[y1,y2,…,yL]T,输入向量为m,待匹配的类别数为L。

概率神经网络的学习算法如下:

第一步,归一化:训练样本矩阵,得到的归一化矩阵即学习样本;

第二步,将归一化好的m个样本送入到网络输入层中;

第三步,计算样本矩阵与学习矩阵中相应元素之间的距离;

第四步,模式层高斯函数的神经元被激活;

第五步,假设样本有m个,那么一共可以分为c类,并且各类样本的数目相同,设为k,则可以在网络的求和层求得各个样本属于各类的初始概率和;

第六步,计算概率,即第i个样本属于第j类的概率。

图2 PNN网络结构Fig.2 PNN network structure

2 实 验

本实验采用Windows XP操作系统和MATLAB 2009b平台.其实验窗口如图3所示。

图3 实验窗口Fig.3 Experiments window

选用的样本汉字是上下结构、左右结构、全包围结构、简单字和复杂字的具有代表性的手写汉字。图4(a)为预处理前的手写标准汉字样本,图4(b)为预处理后的样本图像。

对实时输入的所有待识别汉字进行同样的特征提取,作为输入样本的特征向量。其中输入汉字“叭”及其网格特征见图5所示。

图4 图像处理前后的汉字库Fig.4 The Chinese character library before and after image processing

图5 图像处理前后的样本汉字Fig.5 Character image sample before and after treatment

经过上述处理得到模板特征向量,即图4中64×64的0、1矩阵逐一通过PNN算法进行运算,得出训练后的概率神经网络结构。然后将输入样本的特征向量,输入概率神经网络进行识别,以手写汉字“叭”为例的识别结果如图6所示。

图6 识别结果Fig.6 Results of recognition

概率神经网络的优点是网络学习过程简单,学习速率快,分类更准确。其学习速率比BP神经网络快5个数量级,比RBF神经网络快2个数量级。

对100个待识别样本“叭”字经概率神经网络的训练后进行识别,待识别汉字的识别结果如表1所示,包括待识别样本的识别率及运行时间。

从表1中结果来看,运行时间主要用在图像处理及特征向量的提取,且利用概率神经网络进行汉字识别时间比较短,识别率高。

表1 识别的示例Tab.1 Examples of recognition

3 结束语

文中提出了基于概率神经网络的手写汉字识别方法。由于其学习速率高,在汉字识别上相对于BP神经网络有一定的优越性.本实验选用6组比较有代表性的汉字进行识别,得到了较好的识别效果。

本文实验所使用的是HCL2000汉字库.所挑选的待识别汉字都是书写标准规范的汉字。识别汉字的数量有限,复杂程度有限,对书写不规范的汉字的识别效果有待提高。随着样本数量的增加,对实验所需的时间、存储空间造成一定的影响,识别算法也需要改进优化,在以后的研究中,可以用遗传算法对进行概率神经网络进行优化,必要时可以增加汉字特征,在后续研究中在识别率及识别时间中找到平衡。

[1]赵蓉.基于神经网络的联机手写识别系统研究与实现[D].西安:西安电子科技大学,2011.

[2]Fujisawa H.Forty years of research in character anddocument recognition:An industrial pperspective[J].Pattern recognition,2008,41(8):2435-2446.

[3]Basu S,Das N,Sarkar R,etal.A hierarchical approachto recognition of handwritten Bangla characters[J].Pattern Recognition,2009,42(7):1467-1484.

[4]Leung K C,Leung C H.Recognition of handwritten Chi-nese characters by critical region analysis[J].Pattern Recognition,2010,43(3):949-961.

[5]Wang Anna,Yuan Wenjing,Liu Junfang,etal.A novel pattern recognition algorithm:Combining ART network with SVM to reconstruct a multi-class classifier[J].Computers and Mathematics with Application,2009,57(11/12):1908-1914.

[6]许宜申,顾济华,陶智.基于改进BP神经网络的手写字符识别[J].通信技术,2011(5):106-109.

[7]金铁江.基于过程神经网络的脱机手写体汉字识别方法研究[D].合肥:合肥工业大学,2009.

Application of probabilistic neural network in Chinese handwritten character recognition

LIU Chao-yang,CHEN Yi,LI Shao-bo
(Guilin University of Electronic Science and Technology,Guilin 451004,China)

For the diversity and complexity of Chinese handwritten characters,and the identification difficult problem,a Chinese character recognition model based on probabilistic neural network is proposed.Probabilistic neural network learning process is simple,fast learning,classification accuracy,absorb the advantages of RBF neural network and classical probability density estimation.In order to improve recognition accuracy and recognition speed,before recognition,the Chinese characters should be processed,to provide accurated character feature vectors for recognition.Then character feature vectors that provided will be trained recognized by probabilistic neural network.In the experiment,representative samples of several groups of characters were used.The results show that the recognition of the shape changed Chinese characters among the provided samples is reliable and accurate.

PNN;Chinese handwritten characters;feature extraction;image processing

TP183

A

1674-6236(2016)02-0032-03

2015-03-10稿件编号:201503134

刘朝阳(1988—),男,河南漯河人,硕士研究生。研究方向:智能控制理论。

猜你喜欢

手写特征向量图像处理
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
我手写我心
抓住身边事吾手写吾心
基于ARM嵌入式的关于图像处理的交通信号灯识别
基于图像处理的机器人精确抓取的设计与实现
机器学习在图像处理中的应用
基于集成学习的MINIST手写数字识别
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用