基于支持向量机的故障电弧识别方法研究
2018-07-04孙超辽宁沈阳公安部沈阳消防研究所
■ 孙超 辽宁沈阳公安部沈阳消防研究所
2017年一季度全国共发生电气火灾2.4万起,占全部火灾总数的29.8%,其中在2起重大火灾,全部为电气火灾。通过对电气火灾的研究发现,大多数电气火灾与故障电弧相关,因此对于故障电弧的检测成为了关键。2011年美国国家标准学会ANSI发布了故障电弧探测器标准UL 1699-2011,2014年我们国家发布了故障电弧探测器的国家标准GB 14287.4-2014,标准中对故障电弧的定义和试验方法给出了解释。
电弧是不同电极间通过原本绝缘的介质而持续放电的现象,电弧通常以空气为介质,形成时空气两边的电极导通、挥发并产生一系列的电磁反应过程。电弧发生时,会产生很高的温度,中心最高温度可达1.2×105摄氏度以上。电弧所产生的高热、高压气体,极易引发火灾。在工业生产和生活中,会有可控的电弧产生,这种电弧持续时间短,并不会影响电路中其他电器的工作和使用。而由于线路老化和施工问题所引起的局部短路、绝缘层老化、接线处松动等原因而引起的非预期的线路电弧,则为故障电弧。
目前,故障电弧的识别主要有两种方法,波形分析法和机器学习法。波形分析法通过观察大量的故障电弧电流、电压波形,对比电弧波形与正常波形的区别,总结归纳出一系列电弧的特征,根据这些特征识别电弧。机器学习法通过已知的故障电弧数据构建分类模型,由分类模型对电流波形数据进行识别,从而判断待识别样本是否为故障电弧。现阶段,故障电弧探测器多数应用的是波形分析法,因为这种方法速度快、成本低,如果对波形特征分析彻底,可以达到较高的识别率;然而波形分析法可以识别特征明显的故障电弧波形,在一些与电弧波形相近的非故障电弧波形上识别效果不佳。机器学习法可以克服人工识别的不足,但这种方法由于在识别故障电弧的过程中要计算大量的特征参数,对芯片的计算、存储能力有着较高的要求;并且目前没有提出一种有效的模型能够以很高的分类精度应用与故障电弧的识别。本文提出一种基于支持向量机(Support Vector Machine,SVM)的故障电弧识别方法,该方法直接应用电流波形数据构建分类模型,在故障电弧的识别上通过交叉验证取得了93.4%的分类精度,因为直接应用电流波形数据,该方法分类速度快、精度高,可以为故障电弧的识别提供一定的参考价值。
一、支持向量机分类模型
(一)支持向量机分类模型
SVM分类方法是机器学习中使用率较高的一种分类方法,它能够很好的解决二分类问题。分类样本被看做是空间中一个个点,SVM通过求解分隔两类样本的分割面,这个分割面不仅能够将两类样本有效的分割并能够使两类样本的分类间隔最大化。然而,仅仅通过在原空间下寻找分割面很难达到好的分类效果,这就需要通过核函数把原来的空间映射到高维,在更高维度的空间下,求解最优分割面。
对于一个给定的电流波形数据集Yn, Yi∈ Yn(i=1, 2, …, N),每个波形的类标签设为ri(-1 或者+1),其中-1代表非故障电弧波形,+1代表故障电弧波形。电流波形的分类标准是依据判别方程:
其中ri是第i个元素的类标签,αi是待给定的方程系数,K是核函数方程,b是方程偏移量,αi的选择标准是最大化多项式(2)的值。
本文应用RBF核函数和最大区间法构造最优分类超平面。
(二)自适应参数选择
SVM有两个关键的自适应参数,惩罚系数C和核函数参数(,这两个参数对分类结果的影响很大。惩罚系数C的大小反应的是模型的数据拟合程度,C值得大小与拟合程度正相关。C值过小,会产生数据欠拟合,C值过大,会产生数据过拟合,使模型的复杂程度超出模型所能承受的最大范围。此外,C值也影响模型中异常值的处理。如果C的值合适,则可以提高模型的抗干扰性,从而提高模型的稳定性。
本文使用遗传算法求解惩罚系数C和核函数参数(。对于遗传算法中的关键参数,设置如下:群体规模为5,最大进化代数为300,交叉概率为0.85,变异概率为0.04,C的取值为从1到1×105,(的取值为从0.01到50,在程序运行中,将惩罚系数C和核函数参数(用二进制表示,需要0、1二进制串编码27位,其中前13位对应十进制数为核函数参数(值的,后13位对应十进制数为惩罚系数C值。
二、实验与结果
(一)实验数据集
本文依据国家标准GB 14287.4-2014,以试验过程中实际产生的串联碳化路径电弧、并联碳化路径电弧、并联金属性接触电弧、负载抑制性电弧为试样的正样本数据来源,共得到2500个正样本数据;以电容启动式电动机、吸尘器、电磁炉和变频空调等电器在启动和运行时电流波形为负样本数据来源,共得到1600个负样本数据。以一个半周波的电流波形数据为样本,0.2×10-5s为步进,得到一个5000维的样本数据。
在模型的评估上,本文采用敏感性(Se)、特异性(Sp)和分类精度(Acc)三个指标对结果进行评价。通常,预测结果包括以下四种类型:TP表示正确预测的阳性样本数目,TN表示阴性样本数目,FP表示假阳性样本数目,FN表示假阴性样本数目。基于这些数值,可以分别计算出模型的敏感性、特异性和分类精度,具体计算公式如下:
(二)特征选择结果
主成份分析(Principal Component Analysis,PCA)是一种常用的特征选择方法。在数据分类领域有着广泛的应用。PCA的核心思想是尽可能地保留原始数据分类相关特征,同时减少数据空间的维数。在操作过程中,基于变量的协方差矩阵获得特征向量矩阵,并将原始输入映射到具有较低维数的向量空间。通过映射,可以利用少量特征来描述原始样本以减少特征的空间维数,而主成份分析的本质是(Karhunen-Loeve,K-L)变换。
假设Y∈Rn为训练集中的样本,样本个数为N,每个样本可以表示为Yi=[yi1,yi2…,yin]T,样本均值为k,计算训练集的协方差矩阵:
计算的特征值矩阵,的特征值表示样本在对应特征矢量上的分布方差,
选择的d个特征矢量,根据特征值排序,特征变换后的特征空间表示为X∈Rd,d< 实验中,本文选择了2500个故障电弧波形数据,1600个近似故障电弧的非故障电弧波形数据,每个波形数据提取5000个特征,应用PCA把这个5000维的向量空间降到2420维,其中不同维度下样本的分类精度、敏感性和特异性如图1所示,当样本维度降为2420维时,交叉验证所得到的分类精度、敏感性和特异性与降维前的数据无差异,可见这样的分类既能够达到理想的精度又能够节省建模与分类的时间,并减小存储所需的内存空间。 图1 针对不同个数的特征SVM模型分类精度对比 实验中,本文应用改进的PCA特征选择方法对原始数据集进行了属性子集选择,共选择2420个属性作为最终参与分类的属性。应用5-fold交叉验证方法,把数据集按照样本类标签比例随机分成5份,每次以其中的4份作为训练集,另外1份作为测试集,5次训练与测试之后,每个样本都被测试一次,得到整体的分类精度。通过敏感性(TP Rate)、特异性(FP Rate)、精确度(Precision)、召回率(Recall)、F测 度(F-Measure) 和 ROC曲 线面积(ROC Area)等多个指标对实验结果进行评测。最终,得到一个具有93.4146%分类精度的故障电弧分类模型。 图2 敏感性、特异性和分类精度等的测试结果 随着社会的进步和人民生活水平的提高,用电安全问题应进一步引起全社会的关注,故障电弧这种隐蔽性强、危害性大的问题更应该受到重视。本文主要针对故障电弧数据进行了研究,探讨如何运用SVM方法解决故障电弧波形分类中遇到的问题,并在实际的故障电弧识别中取得了较好的效果,为故障电弧探测器的设计提供了新的视角和方法。当然,本文的研究还有待进一步完善,在现实生活中,故障电弧波形通常连续出现,并且判断电路中是否存在故障电弧隐患时也往往不是通过单个电弧做出判断,因此如何设计一种好的算法,可以结合电弧周围波形数据进行电弧数据分类;提取更多的故障电弧波形数据和近似非故障电弧波形数据而提高分类精度;制定更适合所研究问题的分类方法和特征选择方法从而构建更加优秀的分类器是本文今后的研究重点。相信通过努力,基于机器学习方法对故障电弧识别领域的研究会得到更多的应用和发展。 公安部消防局.全国火灾情况分析统计[G].2017. 陈雪刚.基于统计数据的我国电气火灾特点分析[J].消防技术与产品信息,2012:(05):47-49. 《电气火灾监控系统 第4部分:故障电弧探测器》国家标准发布[J].消防技术与产品信息,2014,(09):37. 王其平.电器中的电弧理论[M].北京:机械工业出版社,1991. 孙超,孟军,栾雨时.基于支持向量机分类算法的番茄miRNA预测[J].计算机工程与应用,2012,(14):203-207.(三)实验结果
三、结语