基于深度森林模型的GIS局部放电模式识别

2022-05-05刘东超熊慕文高森赵森林朱何荣李海涛

电气传动 2022年9期

刘东超，熊慕文，高森，赵森林，朱何荣，李海涛

（南京南瑞继保电气有限公司，江苏南京 211102）

气体绝缘组合开关电器（gas insulated switchgear，GIS）以其占地面积小、工程建设速度快、运行稳定性高、故障率低等特点，在电网中得到广泛应用，其设备的绝缘状态与电网安全息息相关[1]。局部放电作为反映GIS内部绝缘故障的重要特征参量，不同类型的局放对绝缘造成的破坏程度有较大差异，因此对局放类型进行有效的识别对于评价GIS绝缘状况非常重要[2-4]。

目前局放模式识别领域研究的热点主要是特征参量提取与模式分类两方面。局放信号特征参量常用的提取方法主要包括统计特征参量法[5]、波形特征参量法[6]、分形特征参量法[7]、矩特征参量法[8]和小波特征参量法[9]等；在模式分类领域，反向传播（back propagation，BP）神经网络[10]、支持向量机[11-12]（support vector machine，SVM）、K邻近[13]（K-nearest neighbor，KNN）以及随机森林[14]等方法得到大量应用，取得的分类效果较好[10-14]。但是传统的局放模式识别方法都需要人为对局放信号进行特征参量提取，这些选取的特征参量具有较强的主观性，过于依赖自然领域专家对于某个问题而确立的方法，缺乏很好的泛化性，且在特征参量提取过程中会损失部分局部放电特征信息，造成识别率降低。最近几年在学术界与工业界兴起的深度学习（deep learning）由于具有强大的特征学习能力，能自动从大数据中学习样本的特征信息，避免了人工选取特征参量的主观性，在图像识别、语音辨识等领域取得了良好的效果，但是将深度学习应用在电气设备局放类型模式识别的研究较少[15-18]。基于此，本文提出一种基于深度森林模型的GIS局放模式识别方法。

本文依据GIS设备典型放电发展过程中出现的特征，制作了4种典型放电模型，搭建了252 kV GIS局部放电实验平台，获取局放时域波形图，由此构造GIS局部放电灰度图像。在此基础上，设计深度森林网络模型，以局部放电灰度图像作为深度森林模型的输入，采用多粒度扫描结构实现局部放电灰度图像特征的自动提取，利用级联森林结构作为分类器，完成对局放类型的分类。

1 深度森林模型介绍

深度森林算法是一种以随机森林（random forest，RF）为基础的新型分类算法[19]。深度森林模型（依托于深度森林算法）由多粒度扫描结构（multi-grained scanning）和级联森林结构（cascade forest）组成，基于决策树实现样本的预测分类。

1.1 随机森林算法

RF算法是一种重要的基于Bagging的集成学习方法[20]，可以用来解决分类等问题。该算法采用的模型属于一种集成分类模型，由一组决策树分类器{f（X，θk），k=1，…，N}构成。其中参数X代表的是待分类样本；θk代表的是与第k棵决策分类树之间满足独立同分布关系的一个随机向量。该模型的具体分类过程如图1所示。

图1 随机森林分类过程Fig.1 Classification procedure of random forest

将待分类的样本X输入随机森林模型后，样本X将进入到所有已经通过训练产生的决策树，以此进行分类；每棵决策树通过判断样本的特征属性，以此独立地分析样本X的所属类型；当每棵决策分类树各自得到自己的分类识别结果后，由随机森林模型开始进行集中投票，把获得票数最多的分类结果作为待分类样本X的最终分类结果。因此，可用下式表示随机森林的分类决策结果[21]：

式中：F（x）为随机森林分类决策结果；fi为第i个决策树分类模型；Y为目标变量；I为度量函数；N为决策树数量。

1.2 多粒度扫描结构

多粒度扫描结构在深度森林算法中用来挖掘样本图像的特征，最大限度提取样本图像的特征参量。其定义如下[19]：设W=（XN×M，v×v，b，l），其中，XN×M代表原始输入图像的特征，N×M代表其维度，v×v代表扫描窗口维度，b代表扫描步长，l表示扫描窗口的数量。则经过扫描之后的特征数为：r=[(N-v)/b+1]×[(M-v)/b+1]。

整个多粒度图像扫描过程为：先将一个完整的N×M维样本图像输入模型，然后通过一个维度为v×v的采样窗口对样本图像进行滑动采样，得到r=[（N-v）/b+1]×[（M-v）/b+1]个特征子样本，接着随机森林和完全随机树森林会对每个采集到的子样本进行训练，并且每次训练都将产生一个长为S的概率向量。由此可知，训练完成后随机森林与完全随机树森林都将会得到一个长度为r×S的特征向量，把这2个特征向量组合在一起即可得到本层输出。这里的多粒度扫描类似于CNN的卷积过程，但相比于卷积运算，该方法运算速度更快。当采用不同v值的采样窗同时采样时，就完成了真正意义上的多粒度采样，从而获得更多的特征子样本。

1.3 级联森林结构

级联森林结构在该模型中的作用是一层一层地对样本特征进行处理，增强该算法的特征挖掘能力，提升模式识别的准确率。其定义如下[19]：设CF={z，F，t，c}表示级联森林。其中，z={1，2，…，Z}代表级联森林的层数，每一层包含m个森林F，m={1，2，…，MZ}。而F是由t棵决策树组成的训练森林（包括随机森林和完全随机树森林），t={1，2，…，Tm，Z}，c={1，2，…，C}代表样本的类别标签。

在训练阶段，级联森林的每一层都会生成对样本x的类分布向量，如下式所示：

式中：pc(t，m)（x）为每棵决策树计算的样本x属于类别c的概率。

然后每个森林会根据该概率得到自己对样本x的类分布估计，表示为

然后，在级联森林结构中，各层输出的结果向量和初始特征向量拼接在一起作为下一层森林的输入，表示为

由此方法不断迭代计算，直到准确率不再上升，停止训练并得出最终结果。

2 基于深度森林模型的GIS局放模式识别

2.1 网络结构设计

本文采用高速示波器获取典型的局放信号时域波形图，将局放信号时域波形图转换成灰度图（灰度值为0～255），然后将所有图像的分辨率（采用双线性插值算法）压缩到80×30，最后将图片像素归一化到[0，1]之间。在此基础上，设计用于GIS设备局放模式识别的深度森林模型，具体的网络结构如图2所示。

图2 深度森林分类过程Fig.2 Forecasting procedure of deep forest

从图2可以看出，首先输入层输入一个分辨率为80×30的灰度图像，作为深度森林多粒度扫描结构的输入。多粒度扫描结构通过使用多个滑动采样窗口扫描预处理的局部放电灰度图，将从窗口提取的实例用于训练随机森林和完全随机树森林，获取局部放电灰度图的特征向量，并作为级联森林结构的输入。如图2中的多粒度扫描阶段所示，图像分辨率为80×30，为提高算法快速性且不失准确性，仅使用9×9的滑动窗口产生1 584个实例（即1 584个9×9的矩阵）；然后把从窗口提取的实例模型用于训练随机森林（Forest A）和完全随机树森林（Forest B），每个实例生成一个二维的类向量，即Forest A生成1 584个类向量，Forest B生成1 584个类向量；最终把这2个分类向量拼接成一个3 168维的新特征向量，作为级联森林结构的第一层输入。

在级联森林结构中，除了第一层采用多粒度扫描结构输出的特征向量作为输入之外，随后的每一层都是把从上一层输出的特征向量与初始特征向量拼接作为自身的输入。如图2中的级联森林阶段所示，将多粒度扫描结构输出的3 168维特征向量作为输入。首先，特征向量经过Forest A，Forest B分类处理后，获得2个二维类别向量；然后把这2个二维类别向量与3 168维初始特征向量相拼接，构成一个3 172维的新特征向量作为第二层的输入；按照该方法类推，第N-1层将产生3 168+2×2×（N-1）维的新特征向量，作为第N层的输入；最后，对第N层输出的类别向量求平均值，选择其中最大值所对应的类别作为局部放电灰度图的最终分类结果。

2.2 深度森林算法流程

算法的实现主要包括：

1）对分类所需的局部放电图像进行预处理，将图像转换为灰度图，并依据算法的需要，划分出训练样本集。

2）利用训练灰度图对深度森林算法进行训练，直到某层的准确率不再提高则停止训练。

3）利用预测样本灰度图的特征数据进行预测，将预测局部放电灰度图的特征数据通过深度森林模型进行训练，得到最终的分类结果。

算法的实现流程如图3所示。

图3 深度森林算法流程Fig.3 Flow chart of deep forest algorithm

3 实验结果分析

3.1 缺陷模型及实验平台设计

为使放电模型不仅突出GIS设备典型放电发展过程的特征，而且尽量符合GIS设备的实际运行情况，设计制作了4种典型的绝缘缺陷模型来模拟GIS内部可能发生的绝缘故障，分别是针-板放电模型、沿面放电模型、自由金属微粒放电模型和悬浮放电模型[22]，缺陷模型示意图如图4所示。4个模型材质均为铝，并且为了减小干扰，所有电极均打磨光滑。置于GIS内部腔体的实物模型如图5所示。

图4 缺陷模型示意图Fig.4 Schematic diagram of defect model

图5 缺陷模型和GIS腔体Fig.5 Defect model and GIS cavity

在外界干扰较小的实验室条件下，搭建GIS局部放电实验平台，采用外置特高频天线传感器检测局部放电。实验平台如图6所示，包括252 kV GIS模型、250 kV无局放电源、局部放电检测仪、耦合电容、检测阻抗、外置超高频天线、宽带示波器及缺陷模型等。实验时外置特高频天线传感器采用改进的平面小型化螺旋天线[23]，其工作带宽为300～2 000 MHz，增益变化范围为 2.5～4.3 dB，尺寸为 130 mm×115 mm×45 mm，质量为650 g；采用型号为Tektronix DPO7254的泰克高速数字示波器(该示波器为4通道数字存储示波器，每个通道可提供2.5 GHz带宽和10 GS/s采样速率，单通道最高采样速率可达40 GS/s)采集局部放电信号时域波形图。由于在实验室采集到的局部放电信号存在各种随机干扰噪声和窄带周期性干扰噪声，为提高模式识别的准确率，本文采用对偶树复小波变换（dual-tree complex wavelet transform，DT-CWT）对采集的信号进行降噪处理，采用该方法对局放信号进行降噪，局放信号没有出现明显的畸变，较好地保持了原有特高频局放信号的特征。图7所示为GIS 4种典型缺陷对应的局部放电灰度图。

图6 局部放电实验平台Fig.6 Partial discharge experimental platform

图7 局部放电灰度图Fig.7 Partial discharge gray-scales

3.2 基于不同特征提取方法的局部放电模式识别结果

利用图6所示GIS局部放电实验平台对每种局部放电类型采集205张图像，共820张规范化为80×30大小的灰度图作为样本，采用图2设计的网络结构对局部放电灰度图进行训练、测试。随机选择每种放电类型的灰度图建立训练样本和测试样本比分别为0.7:0.3，0.5:0.5，0.3:0.7的样本集。为保证实验结果的准确性与客观性，采用3次交叉验证的方式训练网络，把每个样本集平均分成3组，每一次随机选择其中的一组充当测试样本集，剩下的两组充当训练样本集，进行3次训练，最后获得3个模型，将这3个模型在测试样本集上得到的分类准确率求平均值，作为该分类器最终识别局部放电类型的准确率。

基于上述样本集，分别采用多粒度扫描、稀疏自编码器的方法提取局部放电灰度图的特征，并将提取的这2种不同特征输入到RF集成分类器、SVM集成分类器、BPNN集成分类器对局部放电模式进行识别，结果见表1。

表1 基于不同特征提取方法的局部放电模式识别准确率Tab.1 Recognition accuracy of partial discharge pattern based on different features extraction method

从表1可以看出，在一个样本集中对于同一个分类器，使用多粒度扫描结构提取局部放电灰度图特征的局放模式识别准确率均高于使用稀疏自编码器提取局部放电灰度图特征的局放模式识别准确率，且随着训练灰度图的增加，各个分类器模式识别的准确度也在上升。说明多粒度扫描结构具有优异的特征学习能力，可以深度挖掘局部放电灰度图的内在特征，局放信息丢失较少，故基于多粒度扫描方法自适应提取的特征具有较好的辨识度，有利于分类。

同时基于上述样本集，统计采用多粒度扫描、稀疏自编码器提取局部放电灰度图特征参数所需时间如表2所示。从表2可以看出，在同一个样本集中对于同一个分类器，使用多粒度扫描结构提取局部放电灰度图特征的时间均小于使用稀疏自编码器提取局部放电灰度图特征的时间，表明该算法模型的收敛速度较好，训练时间较短，能够克服传统算法训练时间过长的缺点。

表2 不同数据集特征参数提取时间Tab.2 Extraction time of feature parameters from different datasets

对于同一个分类器，使用多粒度扫描方法提取局部放电灰度图特征的模式识别准确率均高于使用稀疏自编码器提取局部放电灰度图特征的模式识别准确率，原因可能是文中提供的样本数据量不是很大，基于深度森林的多粒度扫描方法不仅适用于海量大数据，也适用于小样本数据，而稀疏自编码器则更适用于海量大数据的情况。猜测随着样本数据量的增加，稀疏自编码器的特征提取能力或许将超过本文方法。但是，考虑到实际运行中GIS设备的故障样本并不多，因此使用多粒度方法提取局部放电特征更符合工程实际的要求。

3.3 分类器识别结果

为衡量级联森林结构分类的性能，选取0.7:0.3的样本集，在使用多粒度扫描方法提取局部放电灰度图像特征的情况下，分别采用级联森林分类器、RF分类器、SVM分类器、BPNN集成分类器的局部放电模式识别准确率如表3所示。

表3 基于不同分类器的局部放电模式识别准确率Tab.3 Recognition accuracy of partial discharge pattern based on different classifiers

从识别结果可以看出，采用级联森林分类器的综合识别准确率高于BP神经网络分类器、SVM分类器和RF分类器的综合识别准确率，基于深度森林模型的局放模式识别方法的综合识别高达99%。分析数据可知，分类器对针-板放电、悬浮放电的识别率高于对沿面放电、金属微粒放电的识别率，这主要是因为针-板放电、悬浮放电和其余两种放电的放电波形灰度图差别较大，其特征量之间存在较大的差异，较容易与其他类型分类；而沿面放电和金属微粒放电的时域波形灰度图相似性较高，容易造成误判，故识别率相对偏低。随后，对各种算法的训练速度进行分析，经研究发现，级联森林的训练速度与BP神经网络相近，但要慢于SVM分类器和RF分类器，但考虑到现场对GIS局放模式识别准确性的要求较高，故本文提出的深度森林算法模型具有一定的工程实用价值。