基于声振信号组合特征的随机森林模型及其在绝缘子故障识别中的应用
2023-01-31赵洲峰赵志勇邹君文裘吕超杨斌吕福在
赵洲峰,赵志勇,邹君文,裘吕超,杨斌,吕福在
(1.杭州意能电力技术有限公司,浙江 杭州 310000;2.浙江大学 工程师学院,浙江 杭州 310015;3.浙江省电力锅炉压力容器检验所有限公司,浙江 杭州 310000;4.国网浙江省电力公司电力科学研究院,浙江 杭州 310000;5.杭州浙达精益机电技术股份有限公司,浙江 杭州 311100;6.浙江大学 机械工程学院,浙江 杭州 310013)
高压瓷支柱绝缘子是发电厂和变电站电力设备的重要部件,其损坏会造成停电事故,进而影响电力系统的稳定性和经济性。据学者统计,绝大多数瓷支柱绝缘子断裂故障发生在下部法兰内30 mm与瓷绝缘体第1个伞裙之间[1]。
传统的绝缘子缺陷诊断技术(如视觉方法、超声波法、紫外线法、红外线法和电场法等[2-6])都存在着容易受周围环境影响、无法实现带电检测或无法检测内部缺陷等局限性。而振动声学方法是通过激励被测件,使其发生机械振动,从振动信号中判定被测件损伤的方法,能够实现带电快速检测,具有很好的应用前景。近年来不断有科研人员对绝缘子振动声学缺陷检测算法和振动声学信号影响因素方面展开了研究。
钟力强等[7]提出瓷支柱绝缘子振动声学信号的声纹识别算法,通过对绝缘子振动声学信号建立声纹特征矢量库,并对实测信号进行识别,验证该方法识别效果能达到与人工判断近似效果。万书亭等[8]提出一种基于绝缘子振动信号时域、频域与梅尔频域倒谱系数组成的特征向量,并建立支持向量机故障判别模型,在加热冷却法制造的缺陷数据集上证明该方法能够准确分类绝缘子上下法兰裂纹故障。焦宗寒等[9]提出利用高斯混合模型对瓷支柱绝缘子的振动信号进行特征提取,利用高斯密度函数和期望最大值算法将频谱划分为3种模态,提取每种模态的特征参数作为极限学习机分类模型的输入,实现了绝缘子振动信号的准确分类。赵飞亚等[10]对振动声学方法检测瓷支柱绝缘子传感器布置的位置进行探讨,通过仿真与实验,表明在下法兰边缘中心区域检测效果最佳。宗方蕊等[11]以220 kV瓷支柱绝缘子为研究对象,探究激振传感器与接收传感器之间距离对振动检测结果的影响,通过仿真和实验得出激振和接受传感器的最佳布置距离。
在振动声学检测仪使用过程中,探针顶紧力度和角度会严重影响信号质量,检测结果依赖人工判断;现有缺陷检测算法未考虑仪器使用方式的影响,现场实用性较差。为提高现场检测准确率,本文提出一种包含时域特征、功率谱峰值特征和各频段小波包能量比组合特征的随机森林故障自动识别模型,通过特征筛选和模型参数优化,实现对故障类型的准确判别。
1 绝缘子振动声学检测仪
振动声学检测仪的原理是使绝缘子产生受迫振动,根据响应信号中谐振频率的变化来判断绝缘子是否发生损伤。
振动声学检测仪通常由振动激励探针、加速度接收探针、信号记录装置壳体组成,记录装置包括主控制板、RAM、ROM以及通信模块等,实物如图1所示。
图1 振动声学检测仪Fig.1 vibroacoustic detector
在使用振动声学检测仪器时,需要将装置探针抵到待检测的绝缘子法兰下表面或者支撑板上,当弹簧被压紧时,探针自动激发信号,约6 s可以进行1次检测。在采集完信号之后通过USB数据线连接到上位机,利用信号分析处理软件进行分析和展示。
仪器采样频率为48 kHz,接收到的信号为16 384点随机振动响应信号,信号无明显规律,通常需要通过功率谱的方式进行判别。
振动声学检测方法基本判别理论为:对无损伤的瓷支柱绝缘子进行振动声学检测时,其振动响应功率谱的形状一般为中间高两侧低,峰值频率范围为3~6 kHz;当下法兰附近发生损伤时,其功率谱会在2 kHz以下的频率段出现高峰值;上法兰附近发生损伤时,其功率谱则会在8 kHz以上的频率段出现高峰值。目前振动声学结果判断标准比较单一,在实际检测过程中依赖人工判别,容易造成误判漏检。
由于仪器的探针结构,不同操作人员在使用仪器时,难以保持同样的力度,且绝缘子安装空间较小导致仪器探针无法与绝缘子轴线完全平行(仪器探针与绝缘子轴线存在夹角),检测到的信号往往存在较大误差,都给结果判断带来干扰。
2 振动声学信号组合特征
由于绝缘子探伤仪采用随机信号作为激励,使得故障信息容易被淹没在振动信号中,信号均值、方差等特征具有局限性,因此本文在时域、功率谱、小波域挖掘信号中的深层次信息,提高故障诊断的准确度。
2.1 时域特征
在分析瓷支柱绝缘子振动声学信号时,时域信号作为直接接收到的响应信号,包含丰富的信息,因此首先提取振动信号时域特征。
根据随机振动理论,激发信号应为无限长的白噪声信号,一般在实际工作中利用截断的高斯白噪声信号作为激发信号,因此用统计的方法研究信号的特征具有重要意义。本节提取时域信号统计特征以及波形特征,作为组合特征的一部分。
结合瓷支柱绝缘子振动声学信号特点,本文选用振动时域信号的最大值、最小值、均值、方差、峭度系数以及波形因子作为时域特征向量。用时域信号特征进行缺陷检测是最简便的方式,但是时域信号容易受到噪声影响,因此还需要提取出其他更有效的特征信息。
2.2 功率谱特征
由于随机振动激励信号为宽频白噪声信号,理论上的随机信号的持续时间为无限长,其傅里叶变换不存在。根据能量守恒定律,一段有限长度的信号在时域和频域均满足能量守恒,因此白噪声信号的平均功率可以认为是恒定的。自功率谱代表的物理意义是信号在单位频带内的功率,结构发生损伤时任意检测位置的加速度响应信号的自功率谱会发生改变[12],所以自功率谱可以反映结构的损伤状况。
功率密度谱所求的数值都是相对值,峰值高度不能反映真实功率幅值,峰值之间的比例更能反映能量的分布,因此在提取功率谱特征之前利用功率谱最大的峰值将功率谱归一化处理。
由于仪器采样率的限制,在实际检测过程中无法获取到精确的功率谱估计,振动响应信号中存在噪声形成的峰值。如果构建算法时选取的峰值数量过多,则会带来干扰。综合考虑,选取最高的2个峰值频率、中位数频率、最小值频率以及第2峰值高度作为功率谱特征。
2.3 小波域特征
小波变换是一种窗口形状可以改变的自适应时频分析方法,其缺点是对高频部分分辨率较差[13]。小波包变换作为小波变换的推广,通过小波基的缩放和平移功能,能够将每一层信号同时在低频和高频部分进行分解,兼顾信号的轮廓和细节特征,在振动信号处理领域应用广泛[14]。小波包分析方法与小波分析类似,分解效果受到小波基函数的影响。
结构的损伤可以视为结构某一位置的刚度下降,导致该位置吸收更多的能量,从而影响结构整体的振动响应信号。由于小波包系数与能量有着相同的量纲,其分解系数能够反映各频带的能量值,相比于功率谱峰值特征,能够更好地描述能量分布的频带。结构中缺陷的存在会造成振动声学信号改变,小波包各频带的能量占比也会随之改变,因此小波包能量值能够用于表征缺陷信号特征。
振动声学信号进行3层小波包分解得到的小波包树示意图如图2所示。
图2 小波包分解树Fig.2 Wavelet packet decomposition tree
图2中 :Ai,j为第i层轮廓系数的第j个节点,Di,j为第i层细节系数的第j个节点。每个节点代表原始信号S在该频段上的分解信号,或者称为小波包。每个频段的小波包可以用于计算该频段的振动声学信号的小波包能量,用于表征该频段的能量值,第i层小波包分解得到的第j个频段的 小波包能量
(1)
式中di,j,k为第i层小波包分解轮廓系数节点Ai,j或者细节系数节点Di,j的第k个值;ni为第i层节点数,ni取值为2i。根据小波系数可以计算出小波能量比
(2)
式中Etotal为第i层小波包分解得到的小波包能量之和。
小波包能量比能够更好地反映信号特征,从而挖掘出信号中蕴含的损伤信息。经过对比小波基函数,选取db4小波基,并对信号进行4层小波包分解,提取振动信号在16个频段的能量占比作为小波域特征。
提取时域、功率谱、小波域组合特征能够更好地表征绝缘子振动响应信号中的缺陷特征。
3 随机森林缺陷检测算法
3.1 算法原理
随机森林算法[15]是一种基于决策树方法改进的集成学习算法,具有强抗干扰性,对样本不平衡数据集具有极佳的适应性[16]。其基本原理是将1个数据集引申为多个子数据集,在每个数据集上建立1个性能相对较弱的决策树模型,最后对若干个模型投票整合形成性能较强的模型。通过组合多个模型并进行加权融合的方式,随机森林方法避免了如ID3、C4.5以及分类回归树(classification and regression tree,CART)等决策树模型可能出现的过拟合问题[17]。而绝缘子振动信号样本较少,且信号特征干扰因素多,采用随机森林模型具有较强的技术优势[18]。
随机森林算法可以采用任意类型的决策树构建子模型,本文采用CART。随机森林算法流程总结如下。
a)采用自助抽样法(Bootstrap)从原始样本中进行重采样,随机产生T个训练集S1,S2,…,ST。
b)利用每个训练集,生成对应的CART决策树C1,C2,…,CT,在每个非叶子节点(内部节点)上选择属性前,从M个属性(假设原始训练集数据中的属性总和为M)中随机抽取m个属性作为当前节点的分裂属性集V1,V2,…,Vm,并依据Gini指数最小原则选择出最好的分裂方式对该节点进行分裂。其中,Gini指数可以用来衡量数据集分类的纯度,通常作为随机森林特征分类效果衡量指标。假设决策树节点K的样本集合D中共包含有e个分类样本D1,D2,…,De,则数据集中节点K的Gini指数
(3)
式中P1,P2,…,Pe为每个分类样本对应的概率。
从式(3)易知,Gini指数表示从数据集中随机抽取2个样本,其类别标记不一致的概率。因此,在选择属性集划分时,可以根据Gini指数最小原则选出最优划分方式。若采用属性F划分,决策树节点K划分得到l个子节点的集合{K1,K2,…,Kl},则划分后的Gini指数
(4)
式中|Ki|为决策树节点K划分到第i个子节点上的样本总数;|K|为决策树节点K的样本总数。
c)对于测试集中的样本,利用每个决策树进行测试,得到对应的类别C1(X),C2(X),…,CT(X),X为抽样样本随机变量。由于每棵决策树之间是相互独立的,对于得到的T个输出结果可以采用投票的方法,将T个弱决策树中输出票数最多的类别作为测试集样本X所属的最终类别。
3.2 性能评价与特征筛选
由于随机森林每次进行训练时,采用随机采样的方式形成数据集,每个弱分类器每次只是从总样本中抽取一部分,没被抽取到的数据就成为袋外数据。对于已经生成的随机森林,用袋外数据测试其性能。假设袋外数据总数为Q,将Q个袋外数据作为输入,代入之前已经生成的随机森林分类器,分类器会给出Q个数据相应的分类,设随机森林分类器分类错误的数目为C,则第i个样本的袋外数据误差
(5)
袋外数据没有参与模型建立,所以可以对每棵决策树分别计算袋外误差,再平均到每棵决策树,作为整个随机森林模型的误差衡量指标。该值是一个无偏估计,可以代替数据集的交叉验证误差,用来衡量随机森林模型的泛化能力。随机森林整体袋外误差
(6)
式中N为样本数量。袋外数据不仅可以用来计算模型的误差,还可用于评估特征的重要性[19-20]。所以第t个特征qt的重要性指标
(7)
式中:Oerrt,i为以特征qt得到样本分类结果的袋外误差,Oerrt,i-Oerri为袋外误差随着特征变量qt发生的变化,其值越大说明袋外数据准确率下降幅度越大,则说明该特征变量越重要。
3.3 算法流程
本节基于前面提出的多维组合特征向量和随机森林检测算法,构建瓷支柱绝缘子缺陷检测算法框架。本算法的具体技术路线如图3所示。
图3 随机森林缺陷检测模型技术路线Fig.3 Random forest defect detection model technical route
首先,将采集到的瓷支柱绝缘子振动声学响应信号数据集分为训练集和测试集;其次,对响应信号提取时域特性、功率谱特征和小波域特征,组成组合特征向量;再次,根据各项特征的重要性指数,从中筛选出最能够代表振动信号特征的特征子集,作为随机森林分类模型的输入。同样,对于训练集中的信号,提取出多维特征向量,根据特征重要性,形成测试集组合特征,输入到构建好的随机森林缺陷检测模型。将测试集的预测结果与实际分类进行比较,并对模型各项参数进行调优,最终得到模型的最优参数,据此构建最优分类模型。对于需要预测的新数据,则直接提取组合特征,输入到调优后的随机森林模型,即可得到预测结果。
4 瓷支柱绝缘子缺陷检测算法验证
4.1 振动信号数据集获取
本文以ZS-35/400绝缘子为实验对象,首先在无缺陷状态下采集绝缘子振动响应信号,之后在靠近上端法兰和靠近下端法兰的位置分别设置裂纹缺陷,并采集振动响应信号。参考瓷支柱绝缘子实际损伤形式,本文设置槽状缺陷以模拟表面裂纹形式的缺陷。
用不同长度的缺陷表征不同程度的裂纹缺陷,由于裂纹一般为细长的表面裂纹,因此将缺陷长度L分别设置为10 mm、20 mm、30 mm、40 mm、50 mm和60 mm,缺陷宽度设置为约为2 mm。分别将缺陷设置在绝缘子上法兰与邻近的第1个伞裙以及下法兰与邻近的第1个伞裙之间。设置在上法兰与伞裙之间的缺陷用以模拟绝缘子上端发生裂纹缺陷的情况,如图4所示。
图4 瓷支柱绝缘子上端缺陷设置Fig.4 Porcelain pillar insulator upper end defect setting
设置在下法兰与伞裙之间的缺陷用以模拟绝缘子下端发生裂纹的情况,如图5所示。
图5 瓷支柱绝缘子下端缺陷设置Fig.5 Defect setting of lower end of porcelain pillar insulator
本节对图4和图5中的绝缘子以不同按压力度、检测角度和检测位置共采集1 440组振动响应信号,其中无缺陷绝缘子信号、下端缺陷绝缘子信号、上端缺陷绝缘子信号各480组。在有缺陷的数据中,根据缺陷的不同长度(10~60 mm)、不同位置、不同方位各采集80组数据用于分析。
4.2 随机森林算法参数优化
为验证3.3节提出的基于随机森林的瓷支柱绝缘子振动声学缺陷检测方法的检测能力,本节采用4.1节采集的绝缘子振动信号数据集对算法效果进行验证。将数据集等比例随机分为5份,其中1份作为测试集,另外4份用于训练。根据第2章提出的组合特征,共提取28个维度的特征。
a)特征选择。在对随机森林算法进行调优之前,首先以500棵决策树为参考,根据特征的重要性对特征进行筛选。使用4.1节的所有数据作为模型的输入重复训练10次,组合特征在测试集上的准确率见表1。
表1 随机森林模型准确率
从表1中可以看出,随机森林模型分类准确率较高,说明其适用于本数据集,但是在测试集上的准确率高于袋外数据上的准确率,说明由于选取的模型过多导致模型出现过拟合,因此需要对特征进行筛选。首先根据3.2节的式(7),将各特征对Gini指数的贡献率作为特征重要性指标,结果如图6所示,其中特征序号对应的特征见表2。
图6 特征重要性指标Fig.6 Feature importance index
将各个特征按照贡献率排序,从中选取最大的15个特征作为最终特征,包括:①时域信号均值;②功率谱最大峰值频率;③功率谱最小值频率;④功率谱次高峰频率;⑤次高峰幅值;⑥1.5~3 kHz频段能量比;⑦6~7.5 kHz频段能量比;⑧7.5~9 kHz频段能量比;⑨10.5~12 kHz频段能量比;⑩13.5~15 kHz频段能量比;15~16.5 kHz频段能量比;16.5~18 kHz频段能量比;18~19.5 kHz频段能量比;19.5~21 kHz频段能量比;22.5~24 kHz频段能量比。
表2 特征汇总Tab.2 Feature summary
b)决策树数量确定。确定特征数量之后,还需要确定随机森林模型决策树的数量以及每次建立决策树时选取的特征数量。随机森林中决策树的数量越多则模型越复杂,计算速度越慢。而建立决策树时选取的特征数量会影响所建决策树的复杂程度,选取的特征数量越多,则随机森林总体的计算量越大。本文将a)选取的15维特征作为模型训练的输入,模型袋外误差随着决策树数量的变化曲线如图7所示。
图7 袋外数据误差Fig.7 Out-of-bag data error
从图7可以看出,决策树数量对袋外误差影响很大,随着决策树数量的增多,袋外误差逐渐减小,在100棵树左右袋外误差趋于稳定,但是袋外误差并不是一直减少,而是在0.04左右波动。一方面说明本文提出的组合特征缺陷识别算法具有很好的识别准确率;另一方面,树的数量过多不能明显提高检测检测准确率,而且会影响模型的计算速度。因此本文选取139棵树作为随机森林的最终决策树数量,并且在构建每棵决策树时从全部特征中选取2个特征。
4.3 检测结果分析
根据选取的特征以及最终确定的最佳参数,以1 440组数据按照4∶1的比例随机分为训练集和测试集,建立随机森林模型,并与文献[8]中的方法进行对比。表3给出了不同方法在训练集和测试集上的结果准确度。
表3 随机森林缺陷检测结果Tab.3 Random forest defect detection results %
从表3可以得知,本文提出的模型在验证集上的缺陷准确率达到96.70%,在测试集上的检测准确率达到96.53%,两者相近,说明本模型拟合程度较好,而且相比于特征筛选前,算法准确率有所提升,说明算法参数具有很好的效果。而文献[8]中的算法在验证集和测试集中的准确度均低于本文的算法。将2种算法在测试集中的预测结果绘制成混淆矩阵进一步分析,结果如图8、图9所示。
图8 本文算法测试集分类结果混淆矩阵Fig.8 The confusion matrix of the classification results of the test set of the algorithm in this paper
根据表3,本文提出的算法在训练集中1 152组数据全部分类正确,从混淆矩阵可以看出,在测试集288组信号中共有10组信号分类错误,其中无缺陷绝缘子信号2个,上端缺陷7个,下端缺陷1个。文献[8]中的方法在训练集中只有94.14%的准确率,在测试集中有34组数据分类错误,其中无缺陷信号18个,上端缺陷信号7个,下端缺陷信号9个。
图9 文献[8]中算法测试集分类结果混淆矩阵Fig.9 The confusion matrix of the classification results of the algorithm test set in the literature[8]
对比2种算法可以看出,相较于文献[8]中的算法,本文提出的算法有更高的准确率。并且相比于文献[8]中的46维特征,本文仅用15维特征,模型复杂度低,计算速度更快,分类效果更好。
本文的算法能够减少振动声学检测仪器按压力度和角度的影响,并准确识别瓷支柱绝缘子的损伤,有效提高振动声学检测仪器的实用性。
5 结束语
本文针对瓷支柱绝缘子故障检测难题,在现有振动声学缺陷检测技术与仪器的基础上,根据对瓷支柱绝缘子振动声学信号的分析,提取振动信号的时域特征、功率谱特征以及小波域特征作为组合特征,建立随机森林分类模型,通过特征重要性指数对特征进行筛选并对模型参数进行优化,最终在测试集中的准确率达到96.53%,能够准确判别上端缺陷与下端缺陷。
时域特征包括时域信号最大值、最小值、均值、方差、峭度系数、波形因子;功率谱特征包括功率谱最大峰值频率、均值频率、功率谱最小值频率、功率谱中位数频率、功率谱次高峰频率、次高峰幅值;小波域特征包括4层小波包分解各频段能量比。该多维组合特征能够更好地反映绝缘子的损伤变化,与现有模态频移法相比,提高了诊断准确率,并且相比于文献[8]中的缺陷判别方法,具有一定的技术优势。
本文的不足之处是只能识别绝缘子缺陷的存在性,无法识别绝缘子缺陷程度,后续可以通过采集更多的不同损伤程度的缺陷数据进行分析,进一步研究缺陷程度的识别技术。