基于机器学习方法的直流电弧故障检测*

2017-11-23竺红卫殷浩楠王一闻

传感器与微系统 2017年11期

关键词：电弧频域向量

丁鑫，竺红卫，殷浩楠，王一闻

(浙江大学电气工程学院，浙江杭州 310000)

基于机器学习方法的直流电弧故障检测*

丁鑫，竺红卫，殷浩楠，王一闻

(浙江大学电气工程学院，浙江杭州310000)

为了解决传统分析方法在直流供电系统中电弧故障检测的精确度不足及过程繁琐的问题，将直流电弧故障检测归为二分类问题，引入机器学习方法，通过直流电弧实验得到正常状态和电弧状态的数据，从时域中提取电流均值等4个特征，从频域中提取高频分量标准差等3个特征。利用提取到的特征对支持向量机(SVM)进行训练，利用求解得到的模型对测试数据集进行分类，分类准确率为94.483 %。结果证明：所提方法能有效检测直流电弧故障，提高故障检测精度，且步骤精简，易于推广。

直流电弧；故障检测；特征提取；机器学习；支持向量机

0 引言

直流电源广泛应用于航天器的供电系统[1]、汽车的电气系统[2]，这些电力电子系统也是发生直流电弧故障的重灾区[3]，如果不能及时检测并排除故障，直流电弧将危害电源系统和控制系统，严重时还会引发火灾。不同于交流电弧的周期性，直流电弧的随机性和不稳定性使故障检测变得困难。目前常用的分析技术有时频分析[4]、小波包分析[5]、神经网络[6]、马氏距离[7]、共振电路[8]等。本文从统计学角度对故障电弧的特征进行提取，并明确了各特征量所表征的含义，给出计算公式，采用机器学习的分类方法进行故障检测，针对特定的电路环境有较高的精确度和稳定性，并且易于推广。根据负载连接方式的不同，电弧故障可以分为两类:串联和并联。串联电弧较为普遍，也更难检测。

本文以串联电弧为主要研究对象，进行串联电弧实验获取数据，以及时、频域分析提取特征，利用训练数据集求解模型，对测试数据集进行分类预测，验证理论模型的有效性。

1 电弧实验

1.1 实验系统

实验平台由2个子系统组成：电弧发生系统，主要包括电弧发生装置、负载和开关等；数据采集装置，主要用来采集电路正常状态和电弧状态的数据。实验在普通室内环境中进行，图1为系统电路。市电220 V/50 Hz进入电路，通过AC-DC转换为直流电，电弧发生装置、负载和数据采集装置串联在电路中。根据文献[4，9～12]，直流故障电弧的研究通常采用美国标准UL1699B建议的电弧发生装置，如图2所示。实验过程中，保持总开关S1闭合，先将S2和S3闭合，使负载处于正常工作状态，采集数据，然后将S3断开，使得电弧发生装置和负载处于串联状态，此时缓慢移动电弧发生装置的移动电极，产生串联电弧，采集故障数据，最后将电极缓慢移动到原来的位置，使电弧发生装置闭合，断开S1。

图1 实验系统电路

图2 电弧发生装置

1.2 实验结果

采样频率为5 MHz，采样数据如图3所示。分析图3可知，在正常工作状态下，电流波动较小，在电弧故障状态中，电流波动较大。可以分别在正常状态和故障状态选取训练数据集以及测试数据集，便于后续的分析。

图3 原始数据波形

2 特征提取

对于时、频域特征的提取现有的分析方法通常采用阈值法，存在以下缺点：对于噪声的敏感度较高；对于类弧负载的故障检测精确度不高；阈值的确定随机性较大。

本文对于时、频域分析的目的是确定特征向量的分量，分量值经过归一化处理消除由于环境因素导致的随机性，同时又保持了相对差异。采用时间窗的方法进行特征提取，窗口长度1 ms，包含5 000个数据点，可以降低特征向量对于噪声点的敏感度。特征向量包含多个分量，每个分量均为一个属性，特征向量训练后的模型检测精度较高。

2.1 时域特征

1)电流的移动平均值，计算如下

(1)

式中fi为原始数据在时间刻度i上的值；F1t为处理后的特征数据在时间刻度t上的值；n为时间窗口的长度，即1个窗口内的数据容量，文中为5 000。移动平均的处理过程可以降低特征对于噪声点的敏感度。

2)电流的移动最值差

移动最值差可以将发生电弧故障时的电信号突变量提取出来。设在一个窗口内，原始数据的最大值为fmax，最小值为fmin，则该特征值为

F2t=fmax-fmin

(2)

3)前、后时间窗电流值之差的均值

(3)

式中f1i为当前窗口内，原始数据在时间刻度i的值；f2j为下一个窗口内，原始数据在时间刻度j的值。该特征可以提取电弧故障状态和正常状态的整体电信号变化趋势。

4)电流变化率平均值

表示电流的平均变化情况，其正常状态和故障状态下不同

(4)

式中 Δt为相邻采样点之间的时间间隔，Δt=0.2 ms。

5)上述4个时域特征提取结果如图4所示。

图4 时域特征提取结果

2.2 频域特征

1)频谱标准差

(5)

式中μ为一组数据的算术平均值；xi为频谱中位置i上的数据值；N为频谱中的数据容量。

2)高、低频分量之差的平均值

特征计算式为

(6)

将前1/2频域定义为低频，后1/2频域定义为高频，高、低频分量之差的平均值可以表征信号在频域中的分布情况，两者正常状态和故障状态下的频域分布不同。

3)前、后窗各频率分量相关系数

本文采用皮尔逊积差系数,特征计算式为

(7)

式中E为数学期望；X1为当前窗口内，表示频谱数据集的随机变量；X2为下一个窗口内，表示频谱数据集的随机变量；cov(X1,X2)为X1与X2的协方差；σX1，σX2为标准差。

(8)

电路分别在不同状态下持续工作时，相邻窗口内数据的相关系数不同。

4)上述3个频域特征提取结果如图5所示。

图5 频域特征提取结果

3 分类器训练

故障电弧检测的最终结果仅有2种情况，本文采用支持向量机(support vector machines，SVM)作为分类器。

3.1 SVM

1)几何间隔与函数间隔

设有分离超平面s∶w·x+b=0，训练数据集T，定义s关于样本点(xi,yi)的几何间隔为

(9)

s关于T的几何间隔定义为s关于T中所有样本点的几何间隔之最小值，即

(10)

定义s关于样本点(xi,yi)的函数间隔为

(11)

s关于T的函数间隔定义为s关于T中所有样本点的函数间隔之最小值，即

(12)

2)间隔最大化：在一定约束条件下，使s关于T的几何间隔最大,即

(13)

(14)

对于线性不可分情况，引入惩罚参数C，同时对每个样本点(xi,yi)设置松弛变量ξ≥0，引入拉格朗日函数

(15)

式中α为拉格朗日乘子向量；αi≥0且ηi≥0。代入原问题，得到对偶问题

(16)

w*·x+b*=0

分类决策函数为

f(x)=sign(w*·x+b*)

(17)

3)用核函数K(xi·xj)代替式(16)中的内积xi·xj，可将其推广到非线性支持向量机。本文采用高斯核函数

式中ε>0，为核半径。代入式(16)中，可得

(18)

3.2 训练数据集确定

训练数据集中样本点的格式(y,x)，其中x代表特征向量，其每一个分量x(i)代表一个特征值，y代表分类标签，只有两个取值:+1和-1。+1表示正常状态，-1表示电弧故障状态。从正常状态的数据中选取100 000组作为训练数据集的+1样本，从故障状态的数据中选取110 000组作为训练数据集的-1样本，因此，训练数据集为一个m×(n+1)的矩阵

(19)

式中m=2.1×105，为样本点的个数，即数据集容量；n=7，为特征向量包含7个分量。第1列表示标签值，后面的7列依次表示7个特征值，训练数据集的一行，对应于特征空间中的一个向量。

3.3 训练结果分析

对模型进行训练，选择惩罚参数C=10，核函数参数1/(2ε2)=0.142 9，求解得到的模型结构体成员如表1。

表1 分类模型结构体成员

参数矩阵的第一行表示SVM类型，第二行表示核函数类型，第三和第五行为多项式核函数的参数值，本文选用默认值，表示未选用多项式核函数，第四行表示高斯核函数中的参数值；样本只有两类，因此，分类个数为2；总支持向量表示训练后的模型包含的支持向量个数，本文训练后的模型包含6 370个支持向量，由分类支持向量可知，标签为1的支持向量有942个，标签为-1的支持向量有5 428个；-b为分类决策函数f(x)=sign(w·x+b)中的-b。

在非线性的分类问题中，核函数的作用是将输入样本映射到高维特征空间中，从而转化为线性可分问题。将训练结果在时域特征一、时域特征二、频域特征二组成的三维空间中进行展示，如图6所示。

图6 三维空间中的训练结果

4 分类器测试

4.1 测试数据集确定

测试数据集格式与训练数据集相同，但标签列并不参与具体的分类运算，仅为了与分类结果作对比，用以计算分类准确率，这一点与模型训练不同。从正常状态的数据中选取50 000个样本，从故障状态的数据中选取50 000个样本，用已经得到的分类器对其进行分类。

4.2 测试结果分析

测试结果由3个参数表示：1)predicted_label：一维矩阵，仅含有1列，保存对应测试样本的分类结果标签；2)accuracy：保存分类准确率；3)prob_estimates/decision_values：二维矩阵，含有2列，保存对应测试样本分属两类的概率。

测试结果在三维以上的高维空间，为了直观展示测试数据集和支持向量，将其投影到由时域特征一、时域特征二、频域特征二组成的三维空间，如图7所示。投影到二维平面，如图8所示。

图7 三维空间中的测试结果

图8 二维平面上的测试结果

图7和图8表明，得到的分类准确率为94.483 %，即在全部100 000个测试样本中，共有94 483个样本分类正确，误分类率低于10 %。为了进一步降低误分类率和时间成本，有以下几个措施可供参考：1)对数据进行预处理,比如原始数据的降噪[13]、基于小波变换的预分析[14]等;2)优化模型参数,SVM可优化参数主要有惩罚因子C和高斯核半径ε;3)核函数的选择,高斯核函数具有不易过拟合、计算精度高等优点，但存在计算复杂度高等缺点。

5 结论

通过实验对正常状态和电弧故障状态下的电路数据进行采样，提取时域和频域特征，共7个特征。选择100 000个正例样本和110 000个负例样本组成训练数据集，对SVM进行训练，求解得到分离超平面和分类决策函数，包含942个正例支持向量和5 428个负例支持向量。分别选取50 000个正例样本和50 000个负例样本对分类器进行测试。结果表明：在100 000个测试数据中，正确分类的有94 483个样本，分类准确率较高，说明本文提出的检测方法可以较好地识别直流故障电弧。

[1] Faifer M,Ottoboni R, Rossi M,et al.A method for the detection of series arc faults in DC aircraft power networks[C]∥2013 IEEE International Instrumentation and Measurement Technology Conference(I2MTC),IEEE,2013:778-783.

[2] Schoepf T J,Naidu M.Mitigation and analysis of arc faults in automotive DC networks[C]∥2003 Proceedings of the Forty-Ninth IEEE Holm Conference on Electrical Contacts,IEEE,2003:163-171.

[3] 陈思磊,李兴文,屈建宇.直流故障电弧研究综述[J].电器与能效管理技术,2015(15):1-6.

[4] Yao X,Herrera L,Huang Y,et al.The detection of DC arc fault:Experimental study and fault recognition[C]∥2012 Twenty-Seventh Annual IEEE Applied Power Electronics Conference and Exposition(APEC),IEEE,2012:1720-1727.

[5] Yao X,Herrera L,Wang J.A series DC arc fault detection method and hardware implementation[C]∥2013 Twenty-Eighth Annual IEEE Applied Power Electronics Conference and Exposition(APEC),IEEE,2013:2444-2449.

[6] 王莉,阮立刚.一种直流故障电弧在线检测方法和保护装置:中国,1039133663A[P].2014—07—09.

[7] 王莉,杨善水,曹璐.一种直流故障电弧检测方法及装置:中国,102253293A[P].2011—11—23.

[8] Rabla M,Tisserand E,Schweitzer P,et al.Arc fault analysis and localisation by cross-correlation in 270 V DC[C]∥2013 IEEE 59th Holm Conference on Electrical Contacts,Holm 2013,IEEE,2013:1-6.

[9] Gao Y,Zhang J,Lin Y,et al.An innovative photovoltaic DC arc fault detection method through multiple criteria algorithm based on a new arc initiation method[C]∥2014 IEEE 40th Photovoltaic Specialist Conference(PVSC),IEEE,2014:3188-3192.

[10] Yao X,Herrera L,Ji S,et al.Characteristic study and time-domain discrete-wavelet-transform based hybrid detection of series DC arc faults[J].IEEE Transactions on Power Electronics,2014,29(6):3103-3115.

[11] Yuan Liu,Shengchang Ji,Jin Wang,et al.Study on characteristics and detection of DC arc fault in power electronics system[C]∥2012 International Conference on Condition Monitoring and Diagnosis(CMD),IEEE,2012:1043-1046.

[12] 严癑,严实,杨永斌,等.Adaboost集成BP神经网络在火电厂SO2浓度检测中的应用[J].传感器与微系统,2016,35(9):148-151.

[13] 韦高梧,冯祖勇.基于去噪技术的DSP语音识别系统设计[J].传感器与微系统,2017,36(1):108-111.

[14] 马子骥,钟广超,刘宏立,等.小波变换的稀疏最优化信号趋势项提取方法[J].传感器与微系统,2017,36(1):27-30.

DCarcfaultdetectionbasedonmachinelearningmethod*

DING Xin, ZHU Hong-wei, YIN Hao-nan, WANG Yi-wen

(SchoolofElectricalEngineering,ZhejiangUniversity,Hangzhou310000,China)

In order to solve the problems that in direct current(DC) power supply system,accuracy of arc fault detection is insufficient and the process is tedious with the traditional analysis method.The DC arc fault detection is classified into two classification problems while the machine learning method is used.The data of normal state and arc fault state are obtained by DC arc experiment.Extract four features from time domain,including the average current and so on.At the same time, extract three characteristics from frequency domain,such as standard deviation of high frequency component,etc.By training support vector machine(SVM)using the extracted features above, classification model is obtained.The accuracy of classification of the test data set by the model is 94.483 %,the result proves that this method can be used to detect DC arc fault effectively,improve detection precision,and can be popularized easily because of simple steps.

direct current(DC) arc; fault detection; feature extraction; machine learning; support vector machine(SVM)

10.13873/J.1000—9787(2017)11—0123—05

TP 391; TM 501.2

1000—9787(2017)11—0123—05

2017—01—21

浙江省科技技术应用研究计划资助项目 (2015C3115)

丁鑫 (1991-)，男，硕士研究生，主要研究方向为故障电弧的信号分析、特征提取与模式识别。