配电柜线号特征提取和识别方法研究
2017-05-10徐顺
徐 顺
(中车青岛四方机车车辆股份有限公司 技术工程部,山东 青岛 266000)
配电柜线号特征提取和识别方法研究
徐 顺
(中车青岛四方机车车辆股份有限公司 技术工程部,山东 青岛 266000)
配电柜接线状态是影响高速动车组运行性能的重要因素,基于视觉的自动化检测方式可以解决传统的人工检测的低效、主观性强的问题,是工业检测的一个重要的检测方向,由于动车配电柜在光照和空间等方面的恶劣情况,线号数字呈现灰度、尺寸、角度等差异,极不利于线号的识别;以线号正确分割提取为前提,提取分割的数字区域的HOG特征和LBP特征,并利用SVM和ANN两种分类器配合两种特征进行对比试验,因为HOG特征在图像几何和光学的形变会表现出优异的不改变的特性,且SVM分类器克服了后者局部极小的困扰,最终选用SVM分类器配合HOG特征进行配电柜线号识别。
支持向量机;方向梯度直方图;局部二值模式;线号识别;主成分分析
0 引言
近年来高速动车组随着经济的飞速发展有了长足的进步,带动了很多产业的升级。高速动车组在生产过程中需要部署大量电气配线,但是人眼识别配电柜中电气配线接线是否准确效率相对较低,为了提升高速动车组电气配线的安全可靠性,应用机器视觉技术代替人眼识别是一项有效方式。目前,由于配电柜线号复杂、检测过程不易规范化等问题,国内外对于数字识别的研究在配电柜线号识别的应用少之又少。
1 配电柜检测流程
配电柜线缆型号较多造成背景颜色纷杂,极不利于线号定位,线号有角度扭转、聚焦模糊、反光等情况更增加了数字识别的难度,如图1所示。
图1 配电柜线号情况
应用机器视觉技术进行配电柜线号识别的步骤如图2所示,包括对采集的配电柜图像进行预处理过滤噪声和光照影响,之后进行线号定位并对线号区域进行分割获得数字区域,并提取数字的特征进行识别。在配电柜线号识别的过程中,获取高质量的配电柜图像是进行正确识别的基础,选择合适的数字特征值和分类器更是关键所在。本文采用1200万像素手机摄像头采集图像,主要研究数字的特征提取和数字识别的内容。
图2 配电柜线号识别流程
2 数字特征
2.1 LBP特征
LBP特征也叫局部二值模式特征,广泛的应用到图片处理等相关领域。其特征算子是对应一个3*3的区域,如图3所示,该区域包含9个像素点,将周围的8个像素点的灰度值与中心点的灰度值进行比较,如果其值大于等于零那么该位置的像素值变为1,否则变为0[1]。将得到的八个二进制数按照一定的顺序排列好转变成十进制数,这个数就是改点的LBP值,其中计算LBP如式(1)所示:
(1)
图3 3*3区域
配电柜线号的LBP特征如图4所示,图4(a)为配电柜线号的数字区域,图4(b)为图像LBP特征的灰度显示,对图像的LBP特征划分窗口进行统计,得到每个窗口的直方图,各直方图组成特征向量,在分类器中进行训练和测试。
图4 线号数字的 LBP特征图
2.2 HOG特征
方向梯度直方图特征(HOG),该特征大量应用在图像处理识别等领域,相比于LBP特征等其它特征,自身拥有很多优势,HOG特征在图像几何和光学的形变会表现出优异的不改变的特性。且数字形状可以很好的被梯度和关于边界的方向密度分布合理的表示出来。因为识别数字就是要识别数字的边界,恰好梯度可以很好的诠释数字边界信息,因此用梯度直方图可以表示出数字的边界情况。HOG特征的提取过程如图5所示。
图5 HOG特征提取过程
图像灰度化的目的是为了降低因为不同的光强影响到的线号局部的阴影和光强的变化。处理方法就是降低数值的量纲,如公式(2)所示:
A(x,y)=A(x,y)n(0 (2) 通过计算每一个像素点的水平方向和垂直方向的梯度值从而得到该点的梯度值和方向大小,对数据进行求导还可以进一步弱化光强的干扰因素,梯度公式如(3)和(4)所示。 (3) (4) Qx为水平梯度;Qy为垂直梯度;N(x,y)为梯度大小;θ(x,y)为梯度方向。 配电柜线号HOG特征如图6所示,(a)为原始图像,(b)为图像的边缘方向和梯度特征,对图像分块进行方向梯度特征的统计,得出图像的HoG特征。 图6 HOG特征图 2.3 线号特征降维 通过提取线号数字的HOG特征会得到432维的数字特征,并且原始数据信息中包含着一定程度的噪声信息和冗余信息,导致线号数字特征在SVM[2-4]训练中时间变长和准确率变低,因此为了提高线号数字的识别速度和正确率,需要先对提取好的线号数字特征进行降维[5-7]处理,在此采用了PCA算法对线号的HOG特征进行降维[8]。 PCA是一种常用的数据分析方法,通过线性变换将原特征矩阵转换为各维度线性无关的表示,可用于提取特征矩阵的主要分量,如下式: 即将p维的特征向量转换为m维的线性无关的特征向量。由数学知识可知,特征向量包含的信息可由其方差衡量,方差越大的特征向量包含的信息量越大。因此我们将特征向量按包含信息量的多少进行排列,则F1,F2,…,Fm分别代表着特征的由主到次的成分特征。特征向量Fn互不相关,即互相之间协方差cov(X,Y)=0,并且Fn随着n的增大其方差减小,因此引入协方差矩阵的概念。 含有n个样本的集合X={X1,X2,X3,…,Xn}其均值、标准差、方差为: 协方差用来度量两个随机变量关系: PCA降维的方法就是将线号HOG特征的多维数据映射到低维空间当中,尽可能地保留线号HOG特征数据的原始信息,并且去掉冗余信息和噪声干扰信息。本文通过映射将原线号HOG特征投影到一个新的线性子空间如公式(5)所示: (5) X为代表提取的特征空间;βi为代表X在子空间i轴的投影;Bi为代表i轴的特征向量;μ为代表特征向量的平均值。 图7 主成份信息分布 当选取前35个特征成分时,携带数据为95%,当选取前55个特征成分时,携带信息为97.86%。本文选取前50个主成份作为配电柜线号的特征,用于后续的识别分类。 SVM分类器优于神经网络[9-11]分类器,该分类方法最终转变为寻优的问题,可以最终获得整体的优点,克服了后者局部极小的困扰,以及因为线号样本训练的误差过小而影响对样本预测的精度。如果训练样本不是无穷尽,而是有限的,那么在这种情况下,该分类器可以依然可以得到最合适的解。且SVM分类器可以很好的用线性函数解决非线性函数的问题,虽然HOG特征有很高的维数,但是该方法的繁琐程度与特征的高维数并没有任何联系[12]。 SVM的目标函数为: y(x)=wTφ(x)+b) (6) 分类决策函数为: f(x)=sign(y(x)) (7) 在计算最优超平面的时候,需要先建立一个拉格朗日函数: (8) 最终求得最优解和最终的分类决策函数为: (9) (10) f(x)=sign(w*φ(x)+b*) (11) SVM是本质上是二分类器,但是外周血白细胞不仅包括典型的五类六种细胞,异常形态的白细胞也包括三类异型淋巴细胞、假性佩尔格尔畸形以及与之形态形似的幼稚细胞等,因此白细胞的分类是一个多分类模式,多分类器方法主要有一对多法一对一法和SVM决策树法。 通过反复的实验论证,发现LBP特征和HOG特征后者的配合SVM分类器进行线号数字的分类识别的准确率最高。实验结果如表1所示。 表1 LBP特征准确率 % 从表1中可以看出,在HOG特征情况下配合SVM分类器实现的分类准去率相对比较理想,在此基础上通过改进训练样本,可以进一步提高配电柜线号数字分类的准确性。在实际检测识别过程中,由于线号中存在着类似的字符,如“8”“B”,“0”“D”,“1”“7”,“5”“S”等易错误识别,结合先验知识信息,使得线号识别率大大提升。 为解决动车组配电柜接线状态人工检测效率低、主观性强的问题,本文对应用机器视觉技术进行配电柜线号识别特征提取和模式识别的相关知识进行了研究,提出了基于SVM分类器配合HOG特征对配电柜线号中的数字实现准确识别的技术方法。首先对分割好的数字区域进行尺寸归一化,之后提取数字的方向梯度特征,并分块进行统计,然后进行主成分分析,去除相关性大的冗余特征,最后用SVM分类器进行分类,达到了很好的识别准确率,能够有效提升高速动车组配电柜接线质量及生产效率。 [1] 王 叶, 张洪刚,方 旭, 等. 基于改进的LBP的低分辨率车牌汉字识别[J]. 中文信息学报, 2009, 23(5): 86-91. [2] 唐灵洁, 胡红萍. 基于SVM的车牌数字识别方法[J]. 数学的实践与认识, 2012, 42(23): 138-143. [3] 刘会河, 徐维超, 刘 舜, 等. 基于SVM的降维方法在三类ROC分析中的应用[J]. 计算机与现代化, 2016, 251: 49-54. [4] 李文博. 一种基于SVM的数字仪表显示值识别方法[J]. 现代电子技术, 2011, 34(4): 195-197. [5] 周 杰, 张敏情. 基于双重特征选择降维的图像隐写分析[J]. 计算机工程与设计, 2016, 37(11): 2917-2922. [6] 高红民, 李臣明, 周 惠, 等. 神经网络敏感性分析的高光谱遥感影像降维与分类方法[J].电子与信息学报, 2016, 38(11): 2715-2723. [7] 陈 锐, 王 敏, 陈 肖, 等. 基于PCA降维的HOG与LBP融合的行人检测[J]. 信息技术, 2015, (2): 101-105. [8] 郭荣艳, 胡雪惠. BP神经网络在车牌字符识别中的应用研究[J]. 计算机仿真, 2010, 27(9): 299-301. [9] 张文达, 许悦雷, 倪嘉成, 等. 基于多尺度分块卷积神经网络的图像目标识别算法[J]. 计算机应用, 2016, 36(4): 1033-1038. [10] 史鹤欢, 许悦雷, 马时平, 等. PCA预训练的卷积神经网络目标识别算法[J]. 西安电子科技大学学报, 2016, 43(3): 161-165. [11] 李 颖, 李耀辉, 王金鑫, 等. SVM和ANN在多光谱遥感影像分类中的比较研究[J]. 海洋测绘, 2016, 36(5): 19-22. [12] 申 勇, 范 红. 基于SVM的数字识别技术研究[J]. 微计算机信息, 2010, 26(5-1): 194-196. StudyofFeatureExtractionandRecognitionforDistributionCabinet XuShun (CRRC Qingdao SiFang Locomotive & Rolling Stock Co.,Ltd.,The Engineering Department,Qingdao 266000,China) Distribution cabinet is a key equipment of the China Railway High-speed(CRH). Automatic detection method based on computer vision can solve the subjective problem and low efficiency of traditional manual detection. Bad situation in the light and space and differences in gray scale and angle made recognition more difficult. Based on correct segmentation district , extracting HOG features and LBP features of line number, using SVM and ANN classifiers with the two characteristics to recognize line number. Considering the excellent invariance of HOG features in geometry and optical deformation of the image, and SVM classifier can overcomes local minimum problem, This paper use SVM classifier with HOG characteristics to recognize distribution cabinet line number. support vector machine; histogram of oriented gradient; local binary pattern; line number recognition; principal component analysis 2017-02-14; 2017-03-02。 徐 顺(1960-),男,山东济南人,高级工程师,主要从事轨道车辆电气调试工艺方向的研究。 1671-4598(2017)04-0197-03DOI:10.16526/j.cnki.11-4762/tp TM A3 SVM分类器
4 实验结果与分析
5 结论