基于改进双向循环神经网络的变压器故障诊断模型研究
2023-11-08邱海洋
赵 珣, 陈 帅, 邱海洋
(1.辽宁石油化工大学 信息与控制工程学院,辽宁 抚顺 113001; 2.广州航海学院 船舶与海洋工程学院,广东 广州 111006)
变压器是送变电中最重要的电气设备,其运行方式直接影响电力系统的正常运转,进而影响向用户供电,一旦发生故障不仅消耗大量人力、财力及时间,影响社会生产,还有可能威胁人身安全[1]。传统变压器故障诊断采用特征气体法进行人工判别,其判别过程取决于经验,因此存在人为判断错误等隐患。此外,对变压器的绝缘检修,需要对被测试的变压器进行停电处理,且对变压器定期检修时更换的未超过使用寿命的设备或零部件造成资源的浪费,降低电力系统的经济性[2]。随着计算机科学与技术学科的发展,机器学习方法的研究与应用受到了众多学科学者的广泛重视,并且取得了许多方面的突破,其在电力变压器故障诊断中的应用也必将成为电力设备故障诊断的趋势,旨在改善变压器故障诊断的有效性和可靠性,提高电力系统维护的经济性。
在提高故障诊断准确度方面,B.YILDIZ 等[3]综合利用混合智能系统实现了核电站大型复杂机电系统的在线监测、故障诊断和预知维修。P.CHEN等[4]在故障机理与特征提取等实用技术方面进行了大量研究,但模型有非常多的局限性,准确度受干扰大。J.RAFIEE 等[5]在基于小波变换的信号处理与特征提取技术方面进行了深入探索,利用自相关函数消除了连续小波变换的缺点,引入连续小波系数的自相关特性作为机器状态监测中故障识别的原始模式,使振动信号减小,有效频率成分的损失最小。李可军等[6]使用核极限学习机对顶层油温度以及环境因素之间的关系进行拟合预测,使用粒子群算法优化混合核函数参数,取得了较好的成果。王晓霞等[7]提出用粒子群算法优化神经网络,结果表明可自动对参数进行调节,加快收敛速度。徐文等[8]提出用遗传算法优化神经网络,使神经网络得到最优权值的时间缩短,增加神经网络的收敛性和准确度。赵婉芳等[9]提出了一种以最小二乘法建立支持向量机模型,并根据多种环境因素对变压器故障进行诊断的方法。随着更加复杂的神经网络的出现,更多的深度学习方式被运用到故障诊断方向。I.B.M.TAHA 等[10]提出了一种适用于噪声环境下的改进卷积神经网络方法,该方法提高了原有卷积神经网络模型的准确率,但是卷积神经网络模型对时序数据的分类效果并不是很好,不能有效地对数据进行时序上的特征提取。为了使神经网络更好地考虑时序特征,范晓丹等[11]提出了使用长短时记忆网络(Long Short-Term Memory Network, LSTM)进行变压器故障诊断,此方法比卷积神经网络的效果好。但是,当训练次数增多时,模型的稳定性难以得到保证,长时序的准确性下降。为了提高模型的稳定性,吴晓欣等[12]提出了一种考虑复杂关联特性的双向循环 神 经 网 络(Bidirectional Recurrent Neural Network,Bi-RNN),虽然与RNN 模型相比Bi-RNN稳定性更高,能够考虑的关联特性更多,但是模型的泛化能力不高,只能在特定的训练集上才能得到较好的训练结果。
针对当前LSTM 对时序特征量进行数据分析的模型过于简单、只能考虑单一时序、对故障数据识别不够理想的问题,本文提出一种基于双向LSTM并与多核SVM 相结合的优化算法。增加一条反向时序的LSTM,模型能够考虑未来时刻的特征量,增加模型能够考虑的影响因素,提高模型对故障数据的识别能力。使用支持向量机(Support Vector Machines,SVM)代替softmax 函数实现故障分类,以提高泛化能力。在单核支持向量机中,单一核函数对个别异常数据难以进行分类,导致分类器分类能力受到影响,而采用多核学习可使多个核函数融合成为新的核函数,提高分类器对异常数据的分类能力。选取变压器故障时油中的溶解气体为特征气体,以其浓度作为数据集,对模型进行了交叉检验,仿真实验结果验证了本文提出的改进Bi-RNN 的变压器故障诊断模型的有效性和准确性。
1 双向循环神经网络变压器故障诊断原理
对油中溶解气体进行准确预测,能更加有效地了解变压器的运行状态,对故障做出及时判断。油中溶解气体分析(Dissolved Gas Analysis,DGA)方法具有操作简单、抗干扰能力强等优点。DGA 方法按照时间顺序不间断地对一个固定时间段的变压器油中溶解气体数据进行采集,是一种典型的时序数据。因此,可将Bi-RNN 作为模型的特征提取部分,对变压器油中的时序数据进行特征提取。为了保证循环神经网络的时序特征提取能力和实际应用的可靠性,本文采用循环神经网络中时序提取能力较好且运行稳定的LSTM。
1.1 变压器的DGA 方法
变压器故障一般可以分为电故障、热故障和机械故障三种。但是,由于机械故障的频率最低,且在发生时伴随着热故障和电故障,因此变压器故障的主要分析对象为热故障和电故障两种。
当变压器在故障运行过程中,变压器的绝缘油因为放电作用和热作用发生氧化和裂解反应,绝缘油的主要组成物碳氢化合物会产生氢气和低分子烷烃类、烯烃类和炔烃类等气体。根据故障严重程度的不同,每种气体体积分数的上升速率也不同;根据产生的气体种类及其体积分数的不同,对变压器故障类型可进行大致判断。不同故障下的特征气体如表1 所示。
表1 不同故障下的特征气体
根据表1 中不同故障下的特征气体种类,以变压器绝缘油被电解产生的几种特征气体为参量,在不同的运行状态下对特征气体的体积分数和产生速率进行分析,就能评估变压器的运行状态,进而确定变压器的故障类型。该分析方法具有支持带电在线检测,不受电、磁信号场影响,操作方式简单等优点,在变压器状态监测和故障诊断领域中取得了最为广泛的应用[13-15]。在正常运行的变压器中,由于绝缘油和绝缘固体材料的缓慢分解和氧化,会产生微量的CO、CO2气体,相较于其他特征气体,CO、CO2气体的测量误差更加难以控制,并且可判断的故障种类较少,其对故障种类的判断帮助较小,因此本文未将其作为实验特征气体。H2、CH4、C2H4、C2H2、C2H6等五种气体在气体体积分数的检测中得到的结果更加准确,并且能够准确地确定变压器故障类型。为此,本文变压器故障数据选取H2、CH4、C2H4、C2H2、C2H6作为实验用的五种特征气体。
1.2 长短时记忆网络
循环神经网络(Recurrent Neural Network,RNN)的神经元结构具有自反馈功能,可以同时保留当前时刻和先前的信息,并用于计算当前的输出。但是,当采用RNN 模型对长时间序列数据进行分析时,其训练过程中延时反向传播有梯度爆炸、消失问题,所以RNN 模型对长序列数据的分析能力不好[16]。LSTM 在一般循环网络的基础上增加了门控单元,是一种能够较为长时间保存传递时序信息的循环神经网络模型。为了增加神经网络对时序数据特征提取的准确度,以LSTM 模型为基础,引入反向时序长短时记忆网络,增加特征气体对时序信息的依赖程度,提高模型对气体预测的正确率。
LSTM 的时序图如图1 所示,图中虚线框内为LTSM 的基本单元结构图。在LSTM 基本单元结构图中,Xt为当前时刻的输入,ct-1为前一时刻记忆单元中的值,激活函数σ一般选择sigmoid 函数。LSTM 的特点是设置了门控机制,整个门控机制包括遗忘门、输入门和输出门三个部分[17]。LSTM 的输出是由门控单元与输入共同决定的,如式(1)-(5)所示。
图1 LSTM 的时序图
式中:Wf、Wi、Wo分别为遗忘门、输入门、输出门的权重;bf、bi、bo分别为遗忘门、输入门、输出门的偏置;g()和h( )分别表示Xt→ct、ct→Yt的映射关系;·表示矩阵相乘;ct包含输入状态和历史状态,可增加神经网络的稳定性,也可解决RNN 中经常出现的梯度消失问题。
在变压器油溶解气体数据中,某一时刻的数据与前一时刻的数据有紧密的联系,一般的神经网络无法找到这种联系,从而限制模型预测的准确率。LSTM 因为记忆单元的存在可以存储一定时间尺度的历史数据,这样的结构使LSTM 在处理时序特征数据时有极大的优势。
2 基于多核学习支持向量机的Bi-RNN 诊断模型
一般RNN 将Softmax 函数作为分类函数使用,但是分类效果取决于RNN 对数据分析的好坏,并且泛化能力不高。为了解决这个问题,使用SVM替换循环神经网络中的Softmax 函数。当RNN 结合时序信息对变压器油中溶解气体进行分析时,在分类空间的边缘常常会出现一些异构数据,单核支持向量机很难对其进行处理,所以经常会采取忽略的处理方式。为了能够更加有效地利用处理后的异构数据,采用一种多种核函数结合产生的多核学习支持向量机(Multi - Kernel Learning Support Vector Machines,MKL-SVM)。
2.1 数据预处理
将H2、CH4、C2H4、C2H2、C2H6五种特征气体的体积与总体积之比作为模型的输入,并按照式(6)对数据做归一化处理。
式中:为归一化后的数据;xi(i=1,2,3,4,5)分别为H2、CH4、C2H4、C2H2、C2H6五种特征气体归一化之前的体积分数。
2.2 Bi-RNN 结构
一般RNN 的数据分析依据时间序列来进行,需要参考前一时刻的数据预测未来数据的变化。当数据处理需要联系前后时刻或者数据对时间依赖性较强时,这样的网络结构往往会产生较大的误差。此外,这类神经网络的训练需要大规模的训练样本,如果训练样本中的元素较少,那么很可能难以得到理想的模型[18]。为此,本文在原有RNN 模型的基础上,增加了一条反向时序的RNN,两条RNN在同一时刻共享输入层和输出层。Bi-RNN 结构图如图2 所示。
图2 Bi-RNN 结构图
由图2 可知,RNN 有两个循环层;数据同时输入正向时序和反向时序,W2 为正向时序,W5 为反向时序;W1 进入正向时序,W3 进入反向时序;W4和W6 共同构成输出层。与一般神经网络不同,RNN 中的正向循环层和反向循环层并不相互连接,能有效地防止自循环现象出现。
2.3 SVM
在故障数据分类过程中,RNN 采用Softmax 函数,但该函数并不能在广泛的故障中都具有良好的表现,只有当各类互斥时才能有好的分类能力[19]。SVM 在分类任务中具备良好的分类效果和泛化能力,与RNN 结合进行数据的分析与分类是比较常见的故障诊断方式。将LSTM 模型与SVM 分类器相结合得到的LSTM-SVM 模型,可以同时发挥LSTM 对长序列信息的处理能力和SVM 对低维特征数据的分类能力[20]。
SVM 的主要思想就是分类学习,对于给定的训练样本集,在样本空间中找到一个分类超平面作为决策边界,以分开不同类别的样本[21]。超平面划分两类样本的示意图如图3 所示。图3 中,ω为输入量的权重;b为数值的偏移量;x为输入的数据集。
图3 超平面划分两类样本的示意图
超平面可通过式(7)来描述。
样本点在样本空间中满足式(8)。
式中:y为划分类的超平面。
样本空间中距离超平面最近的点称之为“支持向量”,两个类的支持向量到超平面的距离之和为:
使数据集到超平面的几何间隔最大,可以得到SVM 的基本形式,即:
从式(10)可以看出,SVM 的求解本身是一个凸二次规划问题,使用拉格朗日乘子法,由式(10)可以得到一个对偶问题。该对偶问题的拉格朗日函数可以用式(11)来表达:
式中:α=(α1,α2,…,αm)。分别将拉格朗日函数L对ω和b求偏导,并令其为零,得函数的最优解:
将式(12)和式(13)代入式(11),可以得到对偶问题:
根据式(8)、(12)、(13),可得模型:
对非线性可分的情况,在特征空间中超平面对应模型为:
式中:φ(x)是将二维样本x映射到更高维的特征空间后产生的表达方式。
根据式(11)、(12)、(13)可以得到一个新的对偶问题:
需要找到一个函数K(xi,xj)=φ(xi)φ(xj),即SVM 的核函数。通常使用的核函数有线性核、高斯核、多项式核以及Sigmoid 核。
2.4 多核学习
一般在SVM 中使用单核结构,都是基于单个特征空间进行分类,对于核函数的选择需要根据实际需要进行判断,然后按照经验进行选择,并设定不同的参数。这样的核函数设计并不方便,而且SVM 很难对训练样本中的特异数据进行训练,导致分类器的准确率降低。
为解决单核支持向量机存在的上述问题,本文采用多种核函数组合的方式,建立了MKL-SVM 模型,通过MLK 来提高SVM 对复杂数据的适应能力。MKL 将多个子核整合到一个统一的优化框架内以寻求最佳组合,使用多核模型可提升学习模型的性能,同时获得可解释的决策函数[22]。通过采用MLK 的方式,改变单核支持向量机对少数特异数据的分类效果,提高故障数据的分类准确度。
MLK 中的核函数由多个基本核函数组合而成,即:
式中:n为核函数的总数,λi为每个核函数的权值。在计算每个核函数的权值之前,需要得到每个核函数的核矩阵:
在得到核矩阵之后,根据训练数据集中的特征向量计算得到特征矩阵M。为了得到每个核函数的权值,首先用每个矩阵的迹tr(K)、tr(M)来表征每个矩阵的特点,然后计算每个tr(K)、tr(M)的欧式距离:
再将核矩阵代入特征矩阵,得到每个核矩阵对特征的重要程度:
最后,分别计算每个核函数的权值:
2.5 基于MKL-SVM 的Bi-LSTM 模型的故障诊断计算步骤
在基于MKL-SVM 的Bi-LSTM 模型中,将时间步长设置为1,采集每一时刻五种特征气体数据,并将其通过式(6)进行预处理,得到提取特征之后的新样本;将新样本输入至MKL-SVM,采用序列最小优化算法(Sequential Minimal Optimization,SMO)对MKL-SVM 求解。
通过SMO 将式(14)中除αi、αj以外的所有参量全部固定,然后求αi、αj的极值,循环执行这两步直至收敛。基于MKL-SVM 的Bi-LSTM 模型的程序流程图如图4 所示,其对应的计算步骤如下。
图4 基于MKL-SVM的Bi-LSTM模型的程序流程图
步骤一:对气体数据进行预处理。
步骤二:通过Bi-LSTM 对数据进行处理,处理过程如下:
①设置时间步长为1,初始化输入门、输出门、遗忘门参数W和b,初始学习率。
②输入前时刻的隐层状态Yt-1和当前时刻的输入值Xt,根据式(1)、(2)、(3)计算当前时刻遗忘门的值ft、输入门的值it、输出门的值ot。
③计算当前时刻记忆值ct,按照式(4)进行计算。
④根据式(5)计算当前时刻输出值Y1t。
⑤按照步骤②、③、④进行反向时序LSTM 前向计算流程,得到当前时刻输出值Y2t。
⑥将当前时刻的输出值求和得到Yt:
⑦按照时间步长,返回步骤②,对下一时刻进行计算,得到Yt+1。
⑧完成一次训练后对权重参数进行更新:
式中:gt为时间步梯度,∇J为门控函数对W的偏导。
式中:mt是梯度的指数移动平均数,m0默认为0;β1为指数衰减率,控制权重分配,通常取接近于1 的值,默认为0.9。
式中:vt为梯度平方的指数移动平均数,v0初始化为0;β2为指数衰减率,控制之前的梯度平方的影响情况,默认为0.999。
由于m0初始化为0,会导致mt偏向于0,尤其在训练初期阶段。所以,此处需要对梯度均mt进行偏差纠正,降低偏差对训练初期的影响。同理,对vt进行纠正:
式中:α为学习率,更新参数。
⑨当W的变化量小于0.001 时更新停止,学习过程结束,输出当前特征向量,否则转到步骤②。
步骤三:将LSTM 得到的特征提取后的特征向量x输入MKL-SVM 中,MKL-SVM 选取不同组合的核函数按照式(20)的方式进行组合。
步骤四:通过式(19)、(20)、(21)和式(22)确定多核系数,多种组合方式分别对x进行分类,最后输出最优组合与正确率。
3 实验分析
3.1 训练集的选择
本实验采集了500 kV 岷珠变电站变压器多种故障条件下的油中溶解气体数据,将不同的数据片段组合后作为数据集。五种特征气体的体积分数曲线如图5 所示。
对于油中溶解气体集合,采用交叉检验的方式把数据集划分为训练集和验证集,交叉检验次数为5,训练集用于模型的训练,通过验证集对模型的准确率进行评估,这样划分能够避免模型出现过拟合的现象。训练集和验证集的划分一般依据数据集的大小。对于规模大的数据集,采用比较小的训练集就可以满足模型训练的要求;对于规模比较小的数据集,需要划分一个比较大的训练集来完成模型的训练。在划分训练集的同时,还需要一定的验证集样本来保证模型的泛化程度。在本次实验中使用的数据样本规模较小,因此80%的数据集作为训练集,20%的数据集为验证集。
通过对表1 中各种变压器的代表性故障特征气体的研究,结合实际生产中经常遇到的故障,为在实际操作中更快地处理故障并且提高模型分类的准确率,将多种故障按照故障性质进行总结与归纳,把变压器的故障分为六类:正常0、局部放电1、低能放电2、高能放电3、中低温过热4、高温过热5。
3.2 训练次数的选择
Bi-LSTM 的训练集和验证集的正确率如图6所示。从图6 可以看出,在训练次数大于300 时,验证集的正确率明显下降,模型训练存在过拟合现象。因此,为了达到最佳的训练效果,将训练次数设定为300。
图6 Bi-LSTM 的训练集和验证集的正确率
3.3 时序数据特征提取性能分析
为了验证Bi-RNN 提升时序分析准确度方面的有效性,将训练集数据分别输入Bi-LSTM、LSTM、RNN 以及卷积神经网络(Convolutional Neural Networks, CNN)四种模型进行训练,使用训练后的模型对验证集进行特征提取,对比四种模型的正确率。为了保证对模型时序体征提取能力无干扰,四种模型使用相同的Softmax 函数作为分类器。
四种模型的时序数据特征提取正确率对比结果见表2。由表2 可知,RNN 因为有记忆性,在训练时序数据时准确率高于CNN;相较于RNN,LSTM 因为有门控单元,数据分析的准确率更高,而RNN 因为寻优路径崎岖,存在梯度爆炸的问题,需要使用剪枝操作并降低学习率,增加了模型训练的时间。由表2 还可知,在多种循环神经网络中,添加双向循环通道的Bi-LSTM 模型的正确率最高,正确率达到84.00%以上。在模型训练过程中,随着迭代次数的不断增加,Bi-LSTM 模型不仅加快了模型的收敛速度,同时也加深了各参量在时序上的关联,并在模型训练时提供修正,使模型在预测时有更好的准确率,其正确率的波动远远小于其他RNN 和CNN。实验证明,通过增加反向时序循环神经网络建立的Bi-LSTM 能更好地完成对时序数据的特征提取任务。
表2 四种模型的时序数据特征提取正确率对比结果
3.4 基于MKL-SVM的Bi-RNN模型诊断结果分析
通过核融合组成多核,建立MKL-SVM 模型。在MKL 中,可以采用多种不同核函数进行融合,也可以使用不同参数的同一种核函数进行融合,这样能保证核融合的多样性。MKL-SVM 的工作过程如图7 所示。
图7 MKL-SVM 的工作过程
为了验证基于多核学习支持向量机的双向长短期记忆(Bidirectional Long Short-Term Memory based on Multi - Kernel Learning Support Vector Machines, Bi-LSTM-MKL-SVM)网络模型在提升时序分析模型预测准确度的有效性,对SVM、基于支持向量机的长短期记忆网络(Bidirectional Long Short - Term Memory Network based on Support Vector Machines,Bi-LSTM-SVM)、LSTM、Bi-LSTM、Bi-LSTM-MKL-SVM 五种模型的验证集预测结果进行了比较分析。五种模型平均PR 曲线图如图8 所示。由图8 可以看出,受到异构数据的影响,Bi-LSTM-SVM 的分类性能与Bi-LSTM、LSTM 的分类性能相差不大,Bi-LSTM-MKLSVM 有更好的分类性能,SVM 分类效果最差。
图8 五种模型的平均PR 曲线
Bi-LSTM-MKL-SVM 模型的PR 曲线如图9 所示。由图9 可以看出,Bi-LSTM-MKL-SVM 的总体分类性能较好,而且,对每种故障类别都有较好的分类性能。相较于SVM 模型,经过RNN 对时序数据提取的组合模型能够有效提高分类器的分类效率;对于LSTM 模型,使用SVM 进行分类能够明显提高模型的泛化能力;Bi-LSTM 对时序数据进行特征提取会产生较多的异构数据,使用一般的SVM不仅无法提高分类器的性能,产生的异构数据还会对SVM 的分类能力产生干扰,而MKL-SVM 对其中的少数异构数据分类更有效。使用Bi-LSTMMKL-SVM 更好地解决了异构数据对模型判断造成的影响,提高了模型对时序数据的利用能力,模型整体的泛化能力更强,并且稳定性也有所提升。
图9 Bi-LSTM-MKL-SVM 模型的PR 曲线
真实数据与预测数据对比结果如图10 所示。由图10 可以看出,SVM 模型对测试样本的拟合效果较差,LSTM 模型的拟合精度不如Bi-LSTM 模型,Bi-LSTM-MKL-SVM 模型对测试样本的分类和拟合效果均最优,说明本文提出模型的时序特征提取能力强。
图10 真实数据与预测数据对比结果
五种模型的预测正确率对比结果如表3 所示。由表3 可知,使用Bi-LSTM 模型对时序数据进行处理,提高了MKL-SVM 的分类效率,模型整体的准确性、稳定性都得到了提升,组合使用有效地解决了神经网络和SVM 单独使用存在的缺点。通过模型预测正确率的对比可以看出,MKL-SVM 确实能够较好地对少数异构数据进行精准判断,并且可以节省SVM 的调参时间,减少凭借经验对参数进行选择而出现错误的可能性,更多的基本核函数组合方式提高了SVM 模型的泛化能力和适用性。
表3 五种模型预测正确率对比结果
4 结 论
针对变压器诊断领域,深度学习诊断方法存在稳定性和有效利用数据样本的问题,本文提出了基于Bi-LSTM-MKL-SVM 的网络模型,将Bi-LSTM作为网络模型的前端特征提取部分,使用MKLSVM 代替Bi-LSTM 中的Softmax 函数对特征提取后的数据进行分类,Bi-LSTM-MKL-SVM 网络模型通过增加反向时序,能够考虑更多的时序因素,对时序数据的预测效果更好,能够对时序数据进行更有效的特征提取,对异构数据有更好的分类能力,减少依靠经验进行调参所用的时间。通过PR曲线和正确率对比等多方面实验,验证了Bi-LSTM-MKL-SVM 网络模型的特征提取能力和泛化能力,与其他现有模型相比,其诊断的准确率更高。
Bi-LSTM-MKL-SVM 网络模型能够提高变压器故障诊断的准确性,减少在变压器运行过程中对故障误判的概率,从而降低因变压器故障带来的经济损失,对保障电力系统安全意义重大。