基于粒子群优化随机森林的变压器故障诊断模型

2021-11-11李鹤健徐肖伟赵勇军吴世浙刘可真

昆明理工大学学报(自然科学版) 2021年3期

李鹤健，徐肖伟，王科，赵勇军，吴世浙，刘可真

(1. 云南电网有限责任公司大理供电局，云南大理 671000； 2. 云南电网有限责任公司电力科学研究院，云南昆明 650217；3. 云南电力技术有限责任公司，云南昆明 650217； 4. 昆明理工大学电力工程学院，云南昆明 650500)

0 引言

电力系统已发展成为跨区域的互联大电网，变压器作为网络的能量转换枢纽，一旦发生故障将严重影响电网的稳定运行[1].通过油中溶解气体分析(Dissolved Gas Analysis，DGA)可以辨识变压器内外部潜伏性故障及其发展态势[2]，是电力行业公认的一种诊断变压器故障的可行方法.因此，DGA数据作为变压器最直观、有效的特征参量，可为诊断变压器状态提供依据[3].

以变压器油中气体特征为基础，至今为止，研究人员提出了不少故障诊断方法，主要包括两种：其一为传统诊断方法，例如IEC三比值法、Rogers四比值法、无编码比值法等，这些比值判别法操作简单，但时常表现出编码不完善、故障界限区分绝对化等缺陷[4]；其二是以油中溶解气体浓度比值或组分占比为特征参量挖掘的机器学习模型，常用的有人工神经网络[5]、支持向量机[6]、相关向量机[7]以及优化其参数的混合模型[8]等.这些机器学习方法有限地提升了故障诊断正确率，取得了一定成效，然而也存在一定缺陷.比如：神经网络训练时间长、容易陷入局部极值点，难以获得全局最优解；支持向量机对核函数选取不敏感，需组合多个二分类器才能解决多分类情况，难以取得更为精确的分类效果；相关向量机减少了核函数的计算量，但训练时长要高于支持向量机.

随机森林(Random Forest，RF)是一种结合集成学习与决策树的新型机器学习方法[9]，由Leo Breiman于2001年提出.文献研究表明，RF分类性能优异，具备调参少、训练效率高、不易过拟合等优点[10].近年来，RF模型的分类和回归方法被广泛用于变压器局放诊断、用电异常检测、负荷态势感知等领域，并取得了优异成效.粒子群优化算法(Particle Swarm Optimization，PSO)则是以较快的速度搜索全局最优粒子，具备简单、并行、收敛快等优点，现常被用于人工智能算法参数的优化[11]，在原模型的基础上进一步提升性能.

鉴于此，本文利用PSO算法优化RF模型的两个参数(子树棵数n_trees和分裂特征数m_features)，提出一种以无编码比值挖掘故障特征信息的粒子群优化随机森林故障诊断模型(PSO-RF)，分析了模型优化后的性能，并进行不同特征选取，不同模型以及不同样本集的诊断结果对比，以验证所提优化模型的有效性.

1 优化方法与模型原理

1.1 PSO优化原理

PSO优化算法在解空间的可行范围内，以局部和整体的角度来搜索粒子的运动状态，每个粒子将根据自身以及其他粒子的搜索经验来调整搜索速度和位置.首先初始化粒子状态，根据粒子的适应度函数，迭代搜索局部极值Pbest和整体极值Gbest，并在设定的迭代次数中不断更新.粒子的坐标变化取决于每次迭代时的搜索速度，而搜索速度又依赖于惯性权重、加速因子、局部和整体极值的变化，每个粒子的位置和速度计算公式如式(1) ～式 (2)所示：

(1)

(2)

本文采用两种方法避免传统的PSO在寻优过程中陷入局部最优：其一，惯性权重采用线性微分递减方式，增强后期局部寻优能力，如式(3)所示；其二，加速因子采用线性调整方式，充分发挥粒子认知和搜索能力，如式(4) ～式(5)所示：

ωk=ωmax-(ωmax-ωmin)(k/Tmax)2

(3)

(4)

(5)

式中：ωmax和ωmin分别表示迭代惯性权重最大和最小值；k表示当前迭代次数；Tmax表示最大迭代数；c1,ini、c1,fin与c2,ini、c2,fin分别表示加速因子c1与c2的初始值及最终值.

1.2 RF分类原理

随机森林(RF)属于集成算法的一种，是由多棵子树的基分类器集合{h(X,Θj)|j=1,2, …,n}构成，X为输入的特征向量矩阵，Θj则表示生成的j棵子树.该集合中子树Θ1，Θ2，…，Θn的产生均采用Bootstrap抽样方法抽取，分布相同且独立，最后以所有子树投票结果确定类别.通过边际函数来度量类别被正确区分的置信度，其值越大，识别的可靠性越高.RF模型的边际函数及泛化误差表示如式(6)～式(7)所示：

(6)

PE*=PX,Y(mg(X,Y)<0)

(7)

式中：Y表示正确的类别向量，av[·]表示取平均值，I(·)代表示意性函数，L表示分类错误的向量，PX,Y(·)表示在X,Y空间上的概率.

RF模型的分类性能取决于子树的整体性能和差异度.适当的子树棵数以及单棵子树的分类性能确保了子树的整体性能.子树间差异度决定了RF模型对空间的覆盖能力，差异度越大分类效果越好.RF模型原理如图1所示，构建RF分类模型的步骤如下：

图1 RF模型结构Fig.1 Structure of random forest model

Step 1：假定划分的训练集数据样本为N，则从中采用Bootstrap抽样方法抽取容量相同的样本，形成训练子集；

Step 2：假设训练子集有M个特征，则从中随机抽取m个作为分裂特征子集(m≤M)，后续采用CART算法分裂而不剪枝；

Step 3：重复n次Step1～ Step2，从而生成相应数量的子树(Θ1，Θ2，…，Θn)，构成RF模型;

Step 4：利用划分的测试集验证该模型的可靠性，以n棵子树的输出Θ1,Test，Θ2,Test，…，Θn,Test投票获得最终分类结果.

2 PSO-RF诊断模型

2.1 特征参量选取

工程现场通常选取含氢元素的5种气体(H2、CH4、C2H2、C2H4、C2H6)作为变压器故障诊断依据，然而不经特征参量选取的DGA数据过于分散且数量级差异较大，因此可利用组分占比(H2%、CH4%、C2H2%、C2H4%、C2H6%)、IEC三比值(CH4/H2、C2H2/C2H4、C2H4/C2H6)、Rogers四比值(CH4/H2、C2H2/C2H4、C2H4/C2H6、C2H6/CH4)以及无编码比值(CH4/H2、C2H2/C2H4、C2H4/C2H6、C2H2/(C1+C2)、H2/(H2+C1+C2)、C2H4/(C1+C2)、CH4/(C1+C2)、C2H6/(C1+C2)、(CH4+C2H4)/(C1+C2))来确定特征参量，在无编码比值中，C1表示CH4，C2表示C2H2、C2H4、C2H6之和.

将特征参量进一步标准化如式(8)所示：

(8)

式中：x与x*分别表示标准化前后的特征参量；xmax与xmin分别表示某一维特征参量的最大值和最小值.

2.2 构建PSO-RF诊断模型

依据DL/T 722-2014导则，故障判别输出可由7种状态构成(0-正常、1-高能放电、2-低能放电、3-局部放电、4-高温过热、5-中温过热、6-低温过热).基于PSO-RF故障诊断模型的构建如图2所示，具体步骤描述如下：

图2 基于PSO-RF故障诊断模型Fig.2 Fault diagnosis model based on PSO-RF

Step 1：将收集到的DGA数据样本以无编码比值选取特征，进一步对其标准化，划分出训练集和测试集.

Step 2：设置粒子(子树棵数n_trees与分裂特征数m_features)的最大迭代次数、种群数量、取值范围、搜索范围，随机初始化一群粒子.

Step 3：根据初始化的粒子建立RF模型，以训练集样本进行训练，然后计算测试集样本的诊断正确率，即粒子适应度.

Step 4：根据式(1) ～式(5)迭代更新粒子的速度和坐标，更新参数n_trees和m_features，然后计算相应的适应度值，并比较更新个体和整体的最优适应度值，以达到诊断正确率最高.

Step 5：当粒子的适应度趋于稳定或迭代次数达到最大时，终止迭代循环，获取最优参数n_trees和m_features，否则返回Step 4.

Step 6：根据PSO优化获得的RF参数建立最优识别模型，输出故障诊断结果并评估模型性能.

本文主要采用整体诊断正确率(Accuracy)评估特征参量选取和诊断模型的性能，诊断正确率是指7种状态识别正确的样本之和占总样本的百分比，表征故障诊断总体性能的强弱.

3 算例分析

本文收集的DGA数据来源于：(1)南方电网部分变压器在线监测和油化试验数据；(2)变压器历史故障数据；(3)IEC TC 10数据库和期刊论文[12-15]等.由以上所有数据样本构成变压器故障数据集共1 723组，其中按8∶2划分为训练集1 378组，测试集345组，在此基础上展开对比分析，以验证PSO-RF模型的性能，实验仿真平台为Anaconda，编程语言为Python3.7.0各故障类型样本按比例划分如表1所示.

3.1 RF参数的优化结果

根据表1的数据划分将无编码比值作为特征参量输入PSO-RF模型，用以优化两个关键参数n_trees和m_features，粒子适应度取自测试集的诊断正确率，即7种状态被正确识别个数之和的百分比.在优化过程中设置参数如表2所示，优化过程中粒子的适应度变化如图3所示.

表1 故障样本数据分布

表2 PSO-RF模型的参数

从图3可以看出，RF的两个参数经历7轮各100次迭代，变压器故障的诊断正确率分别在第14、34、60、5、46、48、51次迭代达到最优.与此同时，PSO优化过程都是从92.75%或93.04%经过1至3步提升至最优适应度值93.62%.例如，第一、四轮只经过1步就达到最优，第二、五、六轮经过2步达到最优，第三、七轮经过3步达到最优.这从另一个角度说明RF模型具有比较稳定的分类性能.

图3 粒子适应度变化Fig.3 Particle fitness changes

虽然经过PSO算法寻优得到很多组n_treess和m_featuress的最优组合，但两个参数分别在179和7附近出现最多，因此取最优粒子为179与7，粒子最优适应度为93.62%.

3.2 不同特征选择对比

在故障诊断领域中，常用的机器学习方法有SVM、BPNN等.因此，根据表1的样本集划分，以五种特征参量即原始DGA数据、组分占比、IEC三比值、Rogers四比值及无编码比值分别输入SVM、BPNN、RF和PSO-RF模型，进行不同特征选取和诊断模型的对比分析.SVM、BPNN及RF模型经验参数设置如表3所示，不同特征参量选取对应不同模型的诊断结果如表4所示.

表3 SVM、BPNN及RF模型参数

表4 不同特征选取的诊断结果对比

从表4中得出，在诊断模型相同的情况下，尤以无编码比值作为特征选取方法的诊断正确率最高.以PSO-RF模型为例，相对于其余四种特征参量选取方法，以无编码比值作为特征参量的诊断正确率分别提升了6.95%、2.61%、4.63%和2.32%，揭示了无编码比值能够表征更多的有效故障信息.在特征参量选取相同的情况下，尤以PSO-RF模型诊断正确率最高.以无编码比值作为特征选取方法为例，对比优化前的RF模型，PSO-RF的诊断正确率提升了1.45%，对比传统的SVM和BPNN模型分别提升了10.72%和6.66%.在所划分的相同样本集基础上，以无编码比值作为特征选取方法结合PSO-RF模型故障诊断正确率达到最优.

3.3 不同样本集对比

为进一步对比不同样本集对模型诊断正确率的影响，将表1中样本数据按100%、80%、60%、40%和20%五种比例分别划分为样本一(1 723组)、样本二(1 378组)、样本三(1 034组)、样本四(689组)和样本五(345组)，然后按比例8∶2分为训练集和测试集，以无编码比值作为特征输入模型，对比得到诊断结果如图4所示.

图4 不同样本数据的诊断结果对比Fig.4 Comparison of diagnosis results of different sample data

从图4可以看出，对比SVM、BPNN和RF模型，PSO-RF模型在各种样本容量下诊断效果均优于其余三种模型；对比样本二、三、四、五，PSO-RF模型在样本一容量下的故障诊断正确率分别提升了1.23%、3.76%、8.84%以及15.36%.模型的诊断正确率取决于整体样本容量，随着样本容量的增多，可以从中挖掘的特征信息也越充裕，四种诊断模型的识别正确率也随之提升.由于型号、容量、运行地域的不同，变压器故障类型呈现一定的多元化特征，需要由大数据样本的特征信息来解释.

3.4 具体案例诊断分析

通过两个具体实例分析，分别从两种不同电压等级、两种不同故障类型的角度出发，进一步验证了本文所提诊断模型及特征选取的有效性.

3.4.1 案例一

某35 kV站用变自2012年投运以来，氢气含量严重超标，对该变压器进行了4次油色谱试验，数据记录如表5所示.

设置优化后的参数对全样本(1 723组已知故障数据，案例一、二的数据均不包含在其中)进行训练，然后输入经过无编码比值选取特征参量的油色谱数据，利用建立好的优化模型对这4次油色谱数据进行识别，诊断故障类型均为局部放电，概率在72.29%～73.54%之间.运维人员判断该站用变故障的原因是高压绕组端部场强过高导致局部放电，建议改进产品设计，在高压绕组的首末端间设置均压措施，改善电场分布，避免局部放电.

3.4.2 案例二

该案例引用文献[16]附表2中220 kV故障主变的5次采样数据，如表5所示.按本文所提方法对其进行诊断，第1次采样数据诊断结果为低温过热，但从概率上来看，诊断为正常的概率是30.17%，诊断为低温过热的概率是63.13%，揭示了该阶段是从正常过渡到低温过热的情况；第2～5次的采样数据均诊断为高温过热，概率为97.77%～99.16%，表明该主变的故障从低温过热又继续发展成为高温过热，诊断结果符合文献[16]附图1中所示的变压器状况.