特征提取在图像处理中的应用
2015-10-08马金定
马金定
【摘 要】特征在图像处理中起着非常重要的作用。利用特征提取技术来提取图像的特性,通过这些特征可以快速的对字符图像进行分类和识别。我们通过对不同类型的特征和特征提取技术分析,研究在不同的特征类型中哪些特征提取技术最适合的,整个分析研究以字符识别为基础来进行。
【关键词】特征提取;字符识别;模式识别
特征是描述了一幅图像中关于形状的信息,通过对图像的特征提取和处理,使得对图像的分类很容易实现。在模式识别和图像处理中,特征提取是一种特殊的降维处理,主要目的是从原始数据的低维度空间信息表达方式中获得相关的信息。对数据处理算法来说,输入数据处理时间太长,我们认为是数据是冗余的,为了提高处理速度,将着输入数据将转化为精简的一系列特征表达方式(如特征向量),这个过程称为特征提取。常用的特征提取方法有模板匹配、图像转换、图形描述、直方图、几何不变矩、Zernike矩、样条曲线逼近、傅里叶描述、梯度特征和Gabor特性[1]。文中以字符识别为基础进行特征与特征提取技术的研究。
1 特征提取
特征提取尽可能判别和获得特征,而对于特征选择,对原有的特征集的一个子集选择,特征提取重要的一步是分类器的建设,旨在提取每一类特征的相关信息,在这一过程中相关特征从对象、字母中提取出来构成特征向量。然后使用这些特征向量分类器识别输入单元和目标输出单位。特征提取的过程是从原始数据检索最重要的数据,找到特定的一系列参数,这些参数对一个字符来书来说是精确描述并且是独一无二的形状特性的。在特征提取阶段,字符是由特征向量表示。特征提取的主要目标是提取一组特征,实现用最少的特征实现最大化的识别率和对各种各样的相同的符号实例生成类似的特征集。
2 特征选择
特征选择的主要思想是:通过删除弱或无预测信息的特征来选择输入变量的一个子集同时保持分类精度,约翰等人描述了强和弱相关特征的关联性,强相关特征意味着在不损失分类精度情况下是不能被删除。弱相关的特征意味着对分类精度影响不大[2]。
选择最有意义的特性集合是在分类问题处理过程中的至关重要的一步,良好的特征集包含可以从其他对象区分出特定对象的识别信息。特征可分为局部特征和全局特征,局部特征通常是几何特性(凹、凸部分,端点数量、分支、节点等)。全局特征,全局特征,通常拓扑特性(连通性、投影特性等)或统计特性(不变矩等)。
笔迹识别包括宏观和微观两个类型的笔迹特性。宏观特性主要有:基于灰度值的宏观特性(阈值,黑色像素),基于轮廓的宏观特性(内部和外部轮廓),基于斜率的宏观特性(水平,积极的,垂直的),笔划宽度、倾斜度和高度。字符的凹凸特性通过捕捉主要的拓扑和几何特征。微观特性发现不同的作家的笔迹,微观特征有:纵横比,终点数,节点数,形状大小和圈数,宽度和高度的分布,倾斜,形状,平均曲率和梯度特征。
3 特征提取方法的研究
3.1 傅里叶描述
傅里叶变换广泛应用于形状分析,傅里叶变换的系数构成图形的傅立叶描述,这些描述是在频域中表示图形的特征,描述符包含的低频信息表示图形的一般特征,而高频率信息表示图形细节部分。虽然傅里叶变换的系数的数目往往很大,但是该系数的一个子集足以捕捉图形的整体特征。
假设一个特定图形的边界有K个像素,编号从0到K-1,沿着图形轮廓的第K个像素的位置为(xk,yk)。因此,我们可以用两参数方程来描述的图形:
x(k)= xk,y(k)= yk,我们认为,(x,y)的坐标点不在直角坐标系,而是在复平面,表达方式如下:
3.2 主成分分析(PCA)
主成分分析是一种数学方法,采用一个正交变换将一组可能相关的变量转换为一组不相关变量,这些不相关的变量叫做主成分,他们是数据的中心X,计算的协方差矩阵C,获得特征向量和协方差矩阵的特征值U,P,在特征空间的原始数据P=UT·X。
主成分个数小于或等于原始变量的数目,这种转变的方式为,第一主成分尽可能多地具有较高的方差(也就是说,占据尽可能多的数据变化),主成分的数量小于或等于原始变量的数量。这种转变中定义,第一主成分尽可能高方差(即占尽可能多的数据的变化),并且每一个成功的成分又有尽可能高的方差,在与前面计算出的数据正交(不相关的)的约束情况下,步骤计算出PCA变换的数据矩阵X。只有当数据是满足正态分布时,主成分的保证是独立的。
3.3 Gabor滤波器
在空间域和频域中伽柏滤波器具有最佳的定位特性,依据给定的系数矩阵Gabor滤波器提出了一种多分辨率分析的方法[3],在这种方法中,用一个二维Gabor滤波器进行特征提取。Gabor滤波器在空间域是正弦信号调制高斯函数,在频域中是高斯频移。Gabor滤波器可表示为:
Gabor过滤器的性能通过调节参数?姿,?酌,和?兹来改变。x和y是图像坐标。?姿是余弦方程的波长,?酌是高斯函数形状的特征,当γ= 1时,形状是圆的。当γ<1时,形状为椭圆形。?兹指定了Gabor函数并行条纹的方向,它的取值为0到360度。
3.4 扇形特征提取
扇形特征提取的识别率完全取决于从字符中提取特征的效率。这些特征可以是拓扑,几何和结构(角度,距离)等等[4]。对于机打字符,这些字符的形状变化不大,拓扑和结构的特征提取效果很好。然而,对于手写字体,由于写作习惯的不同,同一个字符的形状也不同,相应的拓扑和结构特性不适用于手写字体的特征。
在扇形提取中,我们使用特征矩阵的中心作为固定点,字符图像尺寸统一变为42×32像素,从图像的中心选择一个角把图像分割成一个固定数量的扇区。字符“E”细分为12部分,如图1所示。第一部分是从0度到30度;第二部分是从30到60度等等,每个部分用于特征提取。
3.5 距离和角度的特征提取
Nk表示在第K个子块中的像素值为1的像素数量,k=1,2,…,12,归一化向量距离为每个字块中的像素为1的数量和除以整个字符图像中像素为1总数量,在字符图像中(xi,yi)是字块中像素为1的坐标,(xM,yN)是字符图像的中心坐标。
向量距离DK作为一组特征,角度AK作为另一组特征。从12个子块中提取了距离向量和角度向量共24个特征,这些特征绘制出一个原字符的近似形状如图2所示。
3.6 Zernike矩
Zernike矩已被用于对二值化字符的识别,Zernike矩可以提取旋转变化和旋转不变特征,很明显不变特征对灰度图像是非常有用[5]。当使用傅里叶描述符,矩不变量,或Zernike矩等这些技术时,由于我们不使用高阶项,相应的可以去除离散误差和其它高频噪声。分区的方法采用低通滤波的方法,抗高频噪声干扰的能力很强。在单一的图像变换,K-L变换是均方误差意义下数据压缩的最佳变换。然而,由于特征仅仅是输入字符图像像素的线性组合,我们不能指望他们能够提取高层次特征,因此,一个大的特征训练数据集是必要的,同时特征与像素位置相对应,我们不能期望得到的类描述适用于参数统计分类器,然而,非参数的分类,如最近邻分类器在K-L变换的特征方面表现出色。
4 结论
本文对字符的特征类别进行了详细分析,在此基础上根据特征的类别找出相对应的特征提取技术,同时对已有的特征提取技术的优缺点进行了分析。字符的宏观特征主要针对于字符的识别和分类,而对于笔迹识别更侧重于微观特征来识别。随着字符图像类型的复杂程度越来越高(如,灰度图像,彩色图像),特征提取技术的改进和新的特征选取将快速提高处理速度和识别效率。
【参考文献】
[1]王岩.离线手写体汉字鉴别及其算法研究[M].河北工业大学,2013.
[2]Khaled Mohammed bin Abdl,Siti Zaiton Mohd,Azad Kamilah Muda,“Feature Extraction and Selection forHandwriting Identification: A Review”,375-381[M].
[3]陈蓉,邓洪波,金连文.一种基于局部Gabor滤波器组的手写体汉字识别方法[J].计算机应用,2007,27(5):1222-1224.
[4]曾子铭,韩中华,等.基于扇形特征和BP神经网络算法的字符识别[J].沈阳建筑大学学报,2010,26(3):604-608.
[5]简丽琼.基于Hu矩和Zernike矩的文字识别,科技信息[J].2009,17:460-461.
[责任编辑:邓丽丽]