基于级联分类器的手写体数字识别研究
2016-08-19黄晨曦郝泳涛
黄晨曦++郝泳涛
摘要:以手写体数字的识别为研究中心,研究了针对手写体数字的特征提取和特征识别。利用像素点统计特征,图像结构交截特征,小波分析特征提取出了多维特征。介绍了级联分类的思想,引入拒识率的概念。提出了基于改进BP神经网络和支持向量机级联的手写体数字识别系统。实验验证,该方法能有效提高字符分类的识别率。
关键词:特征提取;小波分析;神经网络;支持向量机;级联分类
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)20-0180-03
ABSTRACT:Taking handwritten numeral recognition as the research center, the feature extraction and feature recognition of handwritten numerals are studied. Based on the statistical characteristics of pixels, the cross section characteristics of image structure, the feature of wavelet analysis the feature is extracted. This paper introduces the idea of cascade classification, and introduces the concept of rejection rate. A handwritten numeral recognition system based on improved BP neural network and support vector machine cascade classifiers is proposed. Experimental results show that the proposed method can effectively improve the recognition rate of the character classification.
Key words: feature extraction , wavelet analysis, neural network , support vector machine , cascade classify
1 概述
手写数字识别是光学字符识别的一个重要组成部分,是模式识别的一个经典问题。其目的是将手写的阿拉伯数字扫描入计算机中,再通过所建立的模式识别系统,自动识别出所对应数字。手写体数字识别涉及多个学科,包括模式识别,统计决策,图像处理等等,是结合基础研究与应用研究的一门综合性技术。
2 手写体数字分类训练测试集的准备和评价指标
2.1 实验准备
本文的实验数据是基于 MNIST 手写数字图像集。该数据集是当前比较热门的,共包含 60,000 训练样本和 10,000 个测试样本。数据集中所有的手写数字图片的尺寸都标准化到 28×28 像素的大小,图像类型是 bmp 图片。提取出来的图片分别装在训练集和测试集两个文档里面,以备方便实验进行。但考虑到计算机的内存和性能问题,在训练集中我们分别对0到9个数字选取500张图片,共5000张图片;而在测试集中我们分别对0到9个数字选取200张图片,共计2000张图片。本文实验所使用的编程工具是 matlabR2011b 版本,基于 OpenCV(Open Source Computer Vision Library)视觉库开发。
2.2 评价指标
一般对分类性能的评价指标有正确识别率和误识率,两者相加应得到100%
(1)识别率:
识别率=正确识别样本数/全部样本数*100%
(2)误识率:
误识率=误识样本数/全部样本数*100%
3 预处理和特征提取
3.1 基于像素点的粗网格统计特征的提取
所谓的粗网格特征,我们把图像划分成n×n的网格,然后计算每个n*n的网格内白像素的个数,网格特征就用我们得到的这个数值来表示。传统的字符特征提取方法是将字符分割后的图像一次性地分为n×n的网格,然后分别统计出每个网格中字符所占像素点个数与网格像素点总数之比,最后得到n×n维的统计向量,将得到的n×n维统计量作为神经网络的输入量。由于不同的网格划分方式划分出的网格图像大小不同,造成网格图像有重叠,利用这种重叠特点对网格逐一进行特征提取,充分利用网格中字符所占像素点在网格中的分布位置特征,从单一字符图像中提取到更多的字符特征信息。本文对64×64的像素点的图片分别采用三种粗网格进行提取出70个粗网格统计特征。
3.2 基于图像结构交截结构特征的提取
字符图像的交截特征分为横向交截特征和纵向交截特征,以及对角线交截特征。所谓交截特征即是指交截线和字符像素点的交点个数,这是一种基于像素点结构的特征。对字符的交截特征,我们分别提取了竖直中线的交点数,竖直1|4处的交点数,竖直3|4的交点数,水平中线的交点数,水平1|4处的交点数,水平3|4的交点数,以及图像的主对角线和次对角线,共得到8个基于图像结构的交截特征。
3.3 基于小波分析的特征提取
在利用小波提取特征向量的方法中,提取的特征其实是统计特征和结构特征的综合,小波分析能够实现字符图像的结构分析,小波的分解子图能够从不同的角度把字符图像中的像素点之间的跳跃变化反映出来,在这里我们采取的是小波分解算法。
多分辨分析只对低频空间进行进一步的分解,使频率的分辨率变得越来越高。这里我们主要采取提取数字的低频系数作为它的特征向量。
首先我们以0数字为例分别提取出它一级小波和二级小波的低频系数,水平高频系数,垂直高频系数,对角线高频系数得到一级和二级小波的分解图如图:
从 64×64 的图片中提取的特征矩阵为10×10,这样我们就得到了100个基于小波的特征向量。
综上所述,经过基于像素的粗网格统计特征我们提取了70个特征,基于交截线的结构特征我们提取了8个特征,基于图像小波分解的特征我们提取了100个特征,然后我们对上述70,8,100个特征进行融合得到178维的特征向量作为后续神经网络和机器学习分类器的输入量。
4 基于级联分类器的手写体数字识别系统
4.1 级联分类的思想
单级的分类器无法做到识别率和识别速度的兼顾,因而在使用推广上,就有必要加以完善针对这种情况。其次不同的分类器级联能够互相弥补单个分类器上的弱点,有效提升分类准确率。我们在熟知各个分类器性能的基础上提出一种基于级连分组网的手写数字识别的新方法。这里我们将系统分为两个级别。第一级根据拒识率和确信度的值选取出较难识别出的字符将其输出到拒识出口。被拒识的字符进行第二级的精确分类。精确分类可以牺牲相对应的时间而获取较大的准确识别率。因为进入细分类的字符个数已经很少了。本文提出建立了基于BP神经网络与支持向量机的二级手写体数字识别系统
4.2 拒识模式的概率统计
在这里我要引入两个概念即确信度和拒识率,所谓确信度就是我们在神经网络中输出的向量中我们选择最大值的位置作为输出,但是较易误识的图像往往是最大值和次大值相差较小的,所以这里我们设定一个相差值的阈值作为确信度。这个确信度应能让拒识率控制在25%左右,也就是有25%的字符能输出到精确分类器中。在本系统的识别阶段,改进的BP神经网络分类器作为两级分类器的粗分类器,其输出结果根据预先设置的确信度r,来决策是否最终识别结果输出或者是否需要进入支持向量机分类器来进行二类分类,即如果两个最大概率结果之差小于确信度,则需要经过细分类器的二级识别,反之,系统将粗分类器的最大识别结果作为最终结果输出。这个确信度,就是根据神经网络学习训练过程中的训练结果和随机森林分类器的训练结果来预先设置的。
4.3 基于改进BP神经网络和支持向量机级联的手写体数字识别系统
我们得知BP神经网络分类器能达到80%的分类效果且在时间上较短,而支持向量机能达到89%但是时间较长,于是本文采取先利用BP神经网络进行粗分类。在BP神经网络的输出值中我们是采取对输出的列向量取其中的最大值并返回它所处位置的情况来判断其值大小的,分析可知绝大多数的分类失误率都出现在最大值不明显的位置上。因此本文拟采用先用sort函数对其大小进行排序然后选取其最大值和次大值,并进行相减,并通过事先设置的阈值来判定是否对他进行分离出来进行支持向量机强分类。阈值的设定既不能太大也不能太小。太大了会导致在第一级拒识的数量太大,增大下一级支持向量机的分类压力,从而增加了所用时间,而太小了的话则会导致第二级分类器的样本较少,从而降低分类准确率。经过本文的实验当阈值设定小于0.2时,测试数据的拒识数达到974个,而当阈值设定小于0.1时时,测试数据的拒识数为523。所以我们设定的阈值为0.1。接着我们将被BP神经网络拒识的数据输入到支持向量机中,利用网格参数寻优方法对其进行分类,最后综合比较级联的分类效果。
二级分类器实验步骤分为训练阶段和实验阶段。
训练阶段:
BP神经网络:
①将5000个包含178维特征向量的实验数据输入到BP神经网络训练网络的权重。
②将测试数据输入到训练好的BP神经网络里,分析分类错误的数据从而确定好拒识率的阈值。
支持向量机:
将较小的训练数据集输入到其中进行训练,得到训练好的支持向量机。
测试阶段:
①将2000个包含178维特征向量的实验数据输入到BP神经网络中进行测试;
②分析BP神经网络测试后的输出值,挑选阈值小于0.1的测试数据分流到下一级分类器中;
③将分流走的测试数据输入到支持向量机中再进行分类;
④将级联分类的测试结果综合分析得到最后测试数据集的分类结果。
4.4 实验结果对比分析
本章节采用二级级联分类系统进行分类,我们可以看出采用BP神经网络和支持向量机的分类系统能够得到88.3%的分类准确度,高于单独使用BP神经网络的80%的识别率实验证明本文提出的引入拒识率的二级级联分类系统相比传统单一的分类器性能要好。
5 结束语
针对分割后的字符,本文重点研究了手写体字符识别。首先通过对基于统计,交截,小波,矩的四个特征进行提取,并对它们特征提取出的效果进行分析,最后以其中三个特征融合组成178维的特征向量作为分类器的输入向量。并根据各种分类器的性能提出了二级级联分类器,利用了BP神经网络分类器分类速度快的特点,引入拒识率的概念,在第一级中拒识出大概25%的数据进入到拥有强分类能力的支持向量机中,实验证明通过两级级联的分类器比通过单一分类器的识别率有较大提升,能达到95%的识别率。
参考文献:
[1] 陈军胜.组合结构特征的自由手写体数字识别算法研究[J].计算机工程与应用,2013,49(5):179-184,194.
[2] 金忠,胡钟山,杨静宇,等.手写体数字有效鉴别特征的抽取与识别[J].计算机研究与发展,1999,36(12):1484-1489.
[3] 赵万鹏,古乐野.基于 Adaboost的手写体数字识别[J].计算机应用,2005,25(10):2413-2414,2417.
[4] 王有伟,刘捷.手写体数字识别中一种新的倾斜校正的方法[J].计算机工程,2004,30(11):128-129,137.
[5] 吴茹石,彭力.基于量子神经网络的手写体数字识别方法研究[J].计算机工程与设计,2007,28(18):4462-4465.
[6] 李琼,陈利,王维虎,等.基于SVM的手写体数字快速识别方法研究[J].计算机技术与发展,2014,(2):205-208.
[7] 钟乐海,胡伟.手写体数字识别系统中一种新的特征提取方法[J].四川大学学报:自然科学版,2007,44(5):1000-1004.
[8] 娄震,胡钟山,杨静宇,等.基于轮廓分段特征的手写体阿拉伯数字识别[J].计算机学报,1999,22(10):1065-1073.