导出核学习算法及其在手写体汉字识别上的应用
2017-01-11喻方元
喻方元
(湖北汽车工业学院 理学院,湖北 十堰 442002)
导出核学习算法及其在手写体汉字识别上的应用
喻方元
(湖北汽车工业学院 理学院,湖北 十堰 442002)
介绍了基于神经反应的导出核学习算法,以金连文汉字字库为例,将学习算法运用于手写体汉字识别,取得了较好的识别效果。
导出核;神经反应;金连文汉字字库
1 问题的提出
2008年11 月,美国著名数学家、数学诺贝尔奖——菲尔兹数学奖与沃尔夫数学奖双料得主、加利福尼亚大学steve smale教授发表了题为mathemat⁃ics of neural response的文章,首次提出了导出核算法。这一研究成果与人们对灵长类动物视觉皮层的解剖学与生物学研究结果是一致的。研究表明:灵长类动物的视觉过程具有分级结构,层次越高神经元的感受野以及它们的最佳刺激的复杂性增大,认识对象的精度也在不断提高。
近年来各国学者做了很多研究工作,学者们将这一研究思想编成算法,应用到字符串的识别,得到了较高的识别率。
脱机手写汉字识别被认为是模式识别领域最后的堡垒。其用途十分广泛。常用于信函分拣、银行支票识别和统计报表处理等。
手写汉字脱机识别困难最根本的原因是汉字字形复杂,相似性太强,手写汉字的字形自由度高,变化大。正所谓:“人心不同,字如其面”。可以说,不同的人书写的字是千差万别。识别的准确性同时依赖于识别算法以及汉字特征提取。
虽然各国学者做了很多研究工作,提出了许多思路和方法。但是目前还没有哪一种方法能够完全解决自由书写的汉字识别问题。
2 解决的主要问题
本文中以金连文汉字字库为例,将基于神经反应的导出核学习算法应用于脱机手写体汉字识别上,取得到了较好的结果。
2.1 基于神经反应的导出核算法的基本思想
对于人类来说,观察视觉对象是否相像,是通过视觉神经反应传递到大脑皮层从而做出判断的。一般灵长类动物都有这个能力。具体过程可以认为是先看到视觉对象的某个局部,然后逐渐放大直到整个图像,最后做出像与不像的判断。希望用数学的方法来描述人类的这种视觉皮层的神经反映过程。
构造基于待识别对象的各级神经反应,通过由小到大逐级构造待识别汉字的神经反应与导出核,达到识别汉字的目的。这种汉字识别的分层学习算法,符合人类视野逐步开阔的视觉反应特征。
基于神经反应导出核学习算法的关键是模仿灵长类动物的这一视觉习惯,先定义最低级的神经反应,在此基础上定义1级相似度,在1级相似度的基础上,定义2级神经反应,然后定义2级相似度,类推,定义3级相似度。对于一般视觉对象,分成3级比较合适。
导出核就是神经反应的内积。它可以用于图像的相似度。神经反应以及导出核的定义采取循环递归的形式,从局部到整体的分层结构,可以解释人类的视觉习惯。在每一个层面上,导出核是由上一层定义的神经反应的内积所得。在图像的情形,导出核考虑了图像的子块、中间块和全部图像3层结构。在字符串情形,导出核在某第m个字符作为子字符串。从学习理论角度,导出核的构造并不奇怪,导出核最终可用于解决监督学习和非监督学习等任务。
2.2 内积与再生核函数
给定集X,称函数K∶X×X→R是一个再生核函数,若K对称正定:
总假定K(x,x′)≠0,核函数标准化得
2.3 基于神经反应的导出核算法
将视觉对象看成3层分层结构,如图1所示:u⊂v⊂sq。
图1 视觉对象分层结构
做有限平移变换集:
取有限模板集:
本文中的再生核是内积核:
所谓f在t上的神经反应为
式中:t是u到v的平移变换集合,t∈Tu;f的神经反应是空间的一个向量;|Tu|是T的基数。基于神经反应的导出核为
重复上述步骤得到2级神经反应及其导出核。
将上述算法用Matlab编程,得到具体算法。
2.4 脱机手写体汉字识别问题
1)非特定人群手写体汉字识别问题 由于汉字字形结构复杂,相似字形较多,手写体书写自由度大,特征不明显等造成手写体汉字特别是脱机手写体汉字识别问题难度较大。
2)非特定人群手写体汉字字库 现在国内常见的用于研究非特定人群手写体汉字库有Hcl2004汉字库(北京邮电大学开发)、4MSL汉字库(中科院研发)、SCUT_IRAC金连文手写体汉字库(华南理工大学开发)。
3)金连文汉字字库及其识别 金连文手写体汉字库是具有一定书写能力的人手写的汉字字库,收集常用汉字近6 000个,具有一定代表性。常用金连文手写汉字举例:本文中提取金连文汉字字库中20余个汉字,标准化为64×64灰度值矩阵,按列排序成4 096维的列向量,每个汉字取40~60个,取其中15个左右作为学习的模板,其它作为待识别对象,运用导出核学习算法,分3层识别过程,取得了较好的识别效果。
3 亟待研究的主要问题
1)汉字的特征提取 汉字的特征提取方法很多,对于提高识别精度有直接作用,将汉特征提取与本导出核算法结合,可以进一步提高识别精度。
2)平移变换推广到旋转变换 本算法主要针对平移算法,研究推广到旋转变换。
3)算法推广 本算法可以平行推广到其他识别问题,如汽车牌照识别、人脸识别等,特别是人脸识别在智能识别方面有广泛应用。
[1]V Vapnik.Statistical Learning Theory[M].New York: John Wiley&Sons Inc,1998.
[2]S Smale,T Poggio,A Caponnetto,J Bouvrie.Derived Dis⁃tance:Towards a Mathematical Theory of Visual Cortex[J].CBCL paper,MIT,2007.
[3]A Caponnetto,Tomaso Poggio,Steve Smale.On a Model of Visual Cortex[J].CBCL Paper,MIT,2007.
[4]S Smale,L Rosasco,J Bouvrie,et al.Mathematics of Neu⁃ral Response[J].CBCL Paper,MIT,2008.
[5]高学,金连文,尹俊勋,等.基于笔划的手写体汉字方向分解特征提取方法[J].华南理工大学(自然科学版):2003(3):11-14.
[6]金连文,覃剑钊.手写汉字识别弹性网格Gabor特征提取方法的研究[J].计算机应用研究,2004,21(12):163-165.
[7]张凯,王建文.基于混合核函数的脱机手写汉字识别[J].计算机与数字工程,2007(12):25-27+61+160.
Derived Kernel Learning Algorithm and Its Application in Recognition of Handwritten Chinese Characters
Yu Fangyuan
(School of Sciences,Hubei University of Automotive Technology,Shiyan 442002,China)
The derived kernel learning algorithm based on the neural response was introduced.Taking Jin Lianwen Chinese characters font as an example,the learning algorithm was applied to recognition of the handwritten Chinese characters,and the practice shows it gets good results.
derived kernel;neural response;Jin Lianwen Chinese characters font
TP181;O29
:A
:1008-5483(2016)04-0074-03
10.3969/j.issn.1008-5483.2016.04.017
2016-04-07
喻方元(1961-),男,湖北黄冈人,教授,从事应用数学及学习理论研究。E-mail:635731997@qq.com