APP下载

模糊聚类算法下的手写体数字识别

2016-04-11姜琴

电脑知识与技术 2016年4期
关键词:手写体算法

姜琴

摘要:在对数字样本进行筛选的过程中,需要使用到手写体数字识别的过程,用聚类源的形式来对筛选的结果进行归纳,再经过对模糊关系矩阵的构建,就能够开始时模糊聚类了。实践证明,该方法具有非常搞得有效性,能够对外界的干扰有很强的抵制作用,不仅准确率和识别率都有所提高,而且还消除了传统算法下单因子因素带来的局限性的影响,具有非常高的实践意义。

关键词:模糊聚类;算法;手写体;数字识别

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)04-0175-02

在针对模式识别的研究领域中,无约束手写体识别一直是长久以来一直研究的一个话题,在传统的形式下,手写数字能够提供的样本库太少,一直成为了研究突破的一个瓶颈,运用无约束手写体数字识别一直是评判算法质量及效果的一个非常具有影响力的检测方式。国内外的科研人员对这类问题开展可研究工作,也有着不同的算法建议。不过以最终结果来看,被广泛应用的识别算法有统计法、神经网络法、聚类分析法。这些算法具体来说,有Bagging算法、Adaboost算法、误差反向传播算法、支持向量机。自组织映射和径向基函数。经过实践证明,这些算法在实践过程中给用户带来了完美的影响,具有非常高质量的识别效果。然而,这些算法也存在这局限性,如果在其他领域例如对支票、统计报表、银行票据等文件的识别当中,它们的质量和精确率就很难得到保证,难以完成识别目的。

1 识别系统的构建

模糊聚类是目前采用率最高的一种的一种手写体识别方法,但是在实践过程中,也有着自己的优势和局限,优势就是它的模糊性和容错率非常高,对识别质量有一定的保障,但是它的劣势也比较突出,在实践应用中出现了下列一些问题。例如,第一,在对模糊关系矩阵进行识别的过程中,具有难确定的基本特点。第二,模糊聚类在识别过程中,其识别对象往往异常庞大,这就造成了在模糊关系矩阵当中,存在的阶数较高,导致了其识别过程选哟非常高的计算量。针对这一局限性,一般在模糊聚类的手写体数字识别过程中,会采用BP神经网络来进行辅助识别,它的原理是在模糊聚类识别过程中,BP神经网络协助其对特征因素也进行筛选,有些不符合的条件被排除开外,降低了计算幅度,这就提高了计算速度,对聚类的效果和质量有了极大的保证。之所以会取得如此明显的变化,这是因为BP神经网络自身就有着非常高的对外界的适应能力,在对样本进行筛选的练习中能够对样本进行分析,最终得出相应的规律,如果识别因素具有交叉性,那么BP神经网络模式下的模糊聚类识别就具有非常高的筛选作用,其提供的数据能够很好地指导以后的模糊聚类识别。一般情况下,高效率的模糊聚类都是与BP神经网络进行有效的联系,其原理就是,第一步:先给出一定的数字样本,BP网络对给出的样本进行训练。第二步,模糊聚类分析方法的使用俩完成对矢量数据的归类工作。通过这两步,可以完成数字识别的具体工作。识别系统流程是先输出样本,再对样本进行预处理,BP神经网络在处理过程中提取这些样本的特征,然后在其学习下提取标准特征完成特征筛选工作。这些标准特征完成模糊关系矩阵之后,进行模糊聚类,最后进行识别输出。

2 模糊聚类条件下的手写体数字识别方法

1)预处理

由于识别方法的不同,预处理的项目和要求也会不尽相同,具有一定的差异性,在设计识别系统的过程中,预处理的过程一共由三部分组成,依次是二值化、归一化、平滑。第一步,在识别之前,要对样本的整体阈值进行确定,因此可以采用阈值法来确定阈值,阈值法是在灰度直方图的基础上建立起来的。第二步,需要对数字或文字的尺寸进行规定,规定的方法主要是采用外框归一化,按照一定的比例,将数字的外界边框缩小或者是放大,以满足文字的规定尺寸。第三步,也就是平滑的过程,也就是对二值数字点进行扫描,一般都采用三乘三的辅助矩形进行扫描工作。平滑过程还需要做到一步工作,就是将矩阵最重型的被平滑的像素X0从“0”变成“1”,或者是从“1”变成“0”。这一工作主要是根据辅助矩阵中的像素0,1的分布来完成的。

2)特征提取

通过模糊聚类与BP神经网络的结合来完成特征提取,就首先需要进行定义并提取出6种基本特征,依次为端点、分店、交叉点、直线、弧和圆。采用一定的结构特征组合。如果规定起始点只有一种,那就是端点,线段有两种,那就是直线和弧;终点有三种,那就是端点、分点和交叉点。按照这种逻辑对线段的结构特征进行分析,可以发现结构特征具有6各组合,以此是第一种,端点加直线加端点;第二种,端点加弧加端点;第三种。端点加直线加交叉点;第四种是端点加弧加交叉点;第五种低端点加直线加分点。第六种是端点节哀弧加分点。这时候我们需要增加一个定义,那就是V,它来对这些组合进行表示,它包括{0,1,-1,2,-2,3,-3},当v是零的情况下表示这个区域内没有图像信息。下一步,我们把图像分为三乘三的区域,对特征矢量进行构造S1,S1包含着九个不同的特征向量,他们的端点位置特征都具有不同性,端点的位置特征有这几种情况{0,1,-1,2,-2,3,-3}。这就表示在不同的位置具有一条与其位置相似的一条曲线。直线和弧在交叉点的指向上具有四种不同的方向,依次是上下左右四种。

3)BP识别器特征筛选

BP神经网络作为一种学习算法,具有反向传播的特性,它主要被应用于前向多层神经网络。通过对其特征的选取的过程进行总结会得出结论,造成这些特征的因素很可能是其中存在着一定的相互交叉现象。因为BP网络在多层的情况之下会具有一些特点例如自动学习的特性、容错性、分类能力较强并能够并行处理,将它作用于对手写体数字识别训练具有非常高的现实意义。在本文当中,BP网络一共有三层,输入层具有十五个输出点,与特征矢量的十五个分量一一对应。它的输出层也具有十个输出点。在BP网络对数字样本进行训练之后,可以将学习的结果归纳入聚类源,通过公式Y=f(x)=(1-e-x)-1来对BP神经网络进行训练,这个公式是输入输出的转化公式,具有一定的实践意义。另一方面,设置N是每次修正权值的步长,权值的取值要符合一定的标准,必须得经过严格的控制,

当取值太小或者取值太大都会影响结论的正确性。如果取值太大的话,在网络的输出过程中会出现震荡现象,在最终收敛的过程中会出现阻碍作用。如果取值太小的化,会导致训练的时间太长,如果当前网络状态的变化在误差曲面的平坦区域内,可能会导致训练的时间更加长。

4)模糊聚类分析

模糊聚类分析主要由两个阶段组成一个是构造模糊相似矩阵,另一个则是聚变。在构造模糊相似矩阵过程中,设论域U={u1,u2,u3……un},其中有n个待识别的手写体数字,这些数字每一个都有不同的向量值边式与其一一对应,当ui={ui1,ui2,ui3……uim}(i=1,2,3,……n)。通过对这些取值进行标准化存放,可以得到一个矩阵,这个矩阵有n行m列。通过数量积法对矩阵标准化可以得到模糊相似矩阵R(rij)nxm,其中可以得出

当相似矩阵构造完成后就是聚类,可以应用直接聚类法,通过从模糊相似矩阵出发,可以求出聚类图。第一步,是构建相似类,第二步是得出等价分类,第三步将所有的样本归为一类。

3 结果分析

通过对某印刷体的测试片段进行提取,按照以上的方式来对每一个手写体数字进行特征提取特征向量,可以得出U={u1,u2,u3,u4,……,u115}的论域,论域中包含着一百一十五各待识别手写体数字,这些数字中,它们每一个的特征矢量都是十五位,将这些待识别的手写体数字作为输入样本,将它通过BP神经网络学习之后,可以得到一个十维的输出向量,将这些向量中的每一个数字的特征矢量进行模糊聚类分析。如下图所示,利用该BP神经网络,我们将n的初始值设为0.15,为了达到分析识别目的,需要对初始值的值进行不断的调减,让初始值逐渐变小,而调减的方法是利用退火函数n(1)=Cx(1-t/tm)、通过调减之后,可以将定势态因子进行调整,将其定值为0.175,BP神经网络学习结束的条件是网络的均方根ERMS=0.1。提供参数M=50.0,可以得出标准模式相似矩阵,通过模糊聚类之后,可以得出三十九种分类结果。当取值为0.135时,分类效果最好。

4 总结

通过实验结果,可以发现模糊聚类条件下的手写体数字识别具有非常高的正确率,能够达到百分之九十八,识误率可以达到百分之一点六,拒误率是百分之一点七,具有百分之九十六的可靠程度。因此,我们可以得出结论,利用模糊聚类来对手写体数字识别结合BP神经网络能更加的增加识别的有效性,与传统的统计识别比起来,可靠性、正确率有了明显的提高。

参考文献:

[1] 叶佩,江涛. 基于BP特征筛选的模糊聚类手写体数字识别[J]. 武汉理工大学学报,2007(6):128-130.

[2] 洪沛霖,张佑生,邢燕. 基于改进模拟退火算法的手写体数字识别[J]. 计算机技术与发展,2007(9):15-17+20.

[3] 柳回春,马树元,吴平东,等. 基于结构特征的手写体数字识别算法[J]. 计算机工程,2002(11):28-29.

[4] 黄心晔,王茂祥,富煜清,等. 基于结构分析的手写体数字识别算法[J]. 电子工程师,1999(11):23-25.

[5] 陈军胜. 组合结构特征的自由手写体数字识别算法研究[J]. 计算机工程与应用,2013(5):179-184+194.

[6] 王松,苏辉,夏绍玮. 无约束手写体数字识别的预处理算法[J]. 模式识别与人工智能,1997(3):243-250.

[7] 盛积德,常胜江,陈戍,等. 用于手写体数字识别的视觉与神经网络混合算法[J]. 光电子·激光,2001(12):1280-1283.

[8] 李云峰,胡文平. SVM多类分类算法及其在手写体数字识别中的应用[J]. 物流工程与管理,2012(7):131-134.

猜你喜欢

手写体算法
哐当(外一首)
哐当(外一首)
西夏文楷书和草书手写体探微
基于大数据下的手写体识别的设计与研发
披着书法外衣的手写体
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于增强随机搜索的OECI-ELM算法
一种改进的整周模糊度去相关算法