基于CEEMD-TCN 模型的变压器油中溶解气体浓度预测方法*

2021-10-26杨海晶孙运全

电子器件 2021年4期

杨海晶，孙运全，朱伟，钱尧，金浩

(江苏大学电气信息工程学院,江苏镇江 212013)

电力变压器是构成现代电力系统关键设备之一,确保变压器安全稳定的运行是电力设备领域的重要课题[1]。在变压器正常运行的进程中,设备会产生老化或者发生电、热故障,会导致产生多种气体。这些气体溶解在绝缘油中,其成分含量以及不同气体间的比例关系可以反映出当前变压器的健康状况[2-3]。所以,对溶解在变压器油中的各类气体浓度进行预测和分析,为变压器的运行状况的评估和故障的诊断提供了重要依据。

迄今为止,大量国内外学者对变压器油中溶解气体浓度预测这一课题进行了研究,并取得了许多重要成果。该课题的研究可以归纳为3 个方向:统计预测、智能预测和组合预测。

统计预测包含模糊预测模型[4]、灰度模型[5]和时间序列预测模型[6]等,此类模型最终预测结果受限于实验数据的分布规律。模糊预测对不确定事件具有良好的预测效果；灰度模型和时间序列模型分别在处理指数型数据和线性型数据时具有优势。

智能预测是指构建机器学习和深度学习的预测模型,使用海量的历史数据样本进行训练,最终使其能够较好反映时间序列的发展趋势。其中常见的机器学习模型有支持向量机、人工神经网络和决策树等[7]。由于传统的机器学习模型无法高效地处理大量训练数据以及提取训练数据中的时序趋势特征,影响其对油中溶解气体的预测精度。伴随着人工智能技术的不断发展,深度学习中的循环神经网络和卷积神经网络可以有效解决这一问题[8]。循环神经网络具有循环反馈网络结构,在时序预测问题中具有较强的适应能力。卷积神经网络具有特殊的卷积层结构,被广泛用应于图像识别。一些专门的卷积神经网络模型可以较好地完成时间序列预测,如时间卷积网络、WaveNet 等。

组合预测的研究可以分成两个方向,一个方向是使用多种不同算法对收集到的数据分别预测,最终预测结果取决于各算法的预测结果以及各算法的权重值,该方向的预测结果易受权重分配影响,导致预测结果失真；另一个研究方向是使用序列处理方法对油中溶解气体浓度序列进行预处理,再对经过处理的子序列分量分别建模,将各个模型结果叠加重构得到原始序列的组合预测结果。常用的序列预处理方法有小波分解[9]、经验模态分解[10]等。

鉴于以上的研究背景,提出了一种基于互补集合经验模态分解(Complete Ensemble Empirical Mode Decomposition,CEEMD)方法和时间卷积网络(Temporal Convolutional Network,TCN)的组合预测模型。长期收集的变压器油中溶解气体浓度序列经过CEEMD 分解后得到的多组子分量和一个残余分量,再通过卷积神经网络(Convolutional Neural Network,CNN)的专门针对序列预测的变种TCN 分别进行训练并得到预测结果,再对各组结果进行重构组合,最终得到完整的序列预测趋势图像。根据实例所预测的结果表明,相比于传统的各种预测模型,所提出的CEEMD-TCN 模型预测精度更高。

1 互补集合经验模态分解

1.1 经验模态分解

经验模态分解(Empirical Mode Decomposition,EMD)方法被广泛应用于信号分析领域的非平稳、非线性信号分析[11]。在处理时间序列问题时,由于实际序列受到多重复杂因素干扰,这些因素可能彼此耦合,难以用一个精准的数学模型表示,因此直接使用预测模型拟合误差大,预测效果准确度不高。而EMD 方法能够将原始序列以不同时间尺度分解为一系列具有一定规律性的子序列,可以明显降低对原始序列的拟合难度。

EMD 方法将复杂序列分解为若干固有模态函数(Intrinsic Mode Function,IMF)和一个残余分量,确定IMF 需满足2 个条件:(1)在序列中,极值点和过零点的个数必须相等或者最多相差一个；(2)在序列中任意时间点,由局部极大值点和极小值点所形成的上、下包络线平均值为0。

EMD 方法的步骤如下:

(1)设原始序列x(t)={x1,x2,…,xi},从中取出局部极大值点和局部极小值点,将所有局部极大值点和局部极小值点分别以三次样条曲线连接并拟合成x(t)的上、下包络线Ux(t)、Vx(t)。

(2)求出Ux(t)、Vx(t)的平均值,记为m1(t):

(3)求取原始序列x(t)与m1(t)之差h1(t):

(4)若h1(t)满足IMF 分量的条件,则记为x(t)的第一个IMF 分量；若不满足,将x(t) 替换成h1(t),重复前三步,直到h1(t)满足IMF 条件,则将h1(t)记为第一个IMF 分量c1(t):

(5)将原始序列x(t)减去第一个IMF 分量c1(t),结果记做残余分量r1(t):

将r1(t)作为原始序列,重复以上(1)到(5)步骤,得到第二个IMF 分量,重复n次,得到第n个IMF 分量,有:

当最终的残余分量rn(t)为常数或为单调函数时停止迭代。序列x(t)被分解为n个IMF 分量和1个残余分量rn(t)之和。

原始信号x(t)可以表示为:

式中:ci为第i个IMF 分量；rn为分解完成后的残余分量。

1.2 互补集合经验模态分解

EMD 方法分解序列难以解决组合分量的模态混叠现象。模态混叠是在某一IMF 中包含了相互耦合、难以分解的其他时间尺度的IMF 分量。为了改善这一问题,Huang 和Wu[12]提出一种噪声辅助数据分析的集合经验模态分解(Ensemble Empirical Mode Decomposition,EEMD)。EEMD 是一种辅助信号加入法,通过在序列分解的过程中多次添加高斯白噪声并进行EMD 分解,将多次分解的结果进行平均,得到最终的IMF。

然而,EEMD 方法添加的白噪声并不能真正地完全抵消,会对数据的完备性造成影响。因此,Torres 等[13]提出了一种互补集合经验模态分解,通过对原始信号添加大小相同,符号相反的白噪声来保证数据的完备性。

CCEMD 的步骤如下:

(1)成对地给原始序列添加大小相同、符号相反的白噪声:

式中:M1、M2分别为加入白噪声后的序列,S为原始序列,N为添加的白噪声。

(2)采用EMD 分解方法对添加白噪声后的M1、M2序列进行分解,将得到第i个序列第j个IMF分量记Cij。

(3)对所有得到IMF 分量进行平均得到最后分解结果:

式中:IMFj表示得到的第j组IMF 分量。

2 时间卷积网络

时间卷积网络是一种新型的时间序列预测算法。TCN 采用一维卷积网络,其架构中包括了膨胀因果卷积(Dilated Causal Conv) 和残差模块(Residual block)[14]。相较于长短期记忆网络(Long Short-Term Memory,LSTM)和门控循环单元(Gated Recurrent Unit,GRU),TCN 有效地避免了梯度消失和梯度爆炸的问题,具有占用内存低、梯度稳定、并行性良好和感受野灵活的优点。

TCN 的卷积层结构如图1 所示,每一层的t时刻的结果都依赖于上一层的t,t-1,…,0 时刻的值,而每一层对上一层信息的提取,都是通过间隔采样的形式,逐层膨胀系数以2 的指数增长。因此TCN可以用较少的层,获得很大的感受野。由于膨胀卷积的特性,每一层都需要做Padding 操作来对边缘进行填充,以此保证不丢失上一层的信息。

图1 膨胀因果卷积结构图

由图1 中的膨胀因果卷积结构可知,通过调整卷积核大小、模型深度、膨胀系数等参数即可实现对指定长度序列的整体感知。设输入的一维序列x∈Rn,卷积核f:{0,…,k-1}→R,对该序列元素s经过膨胀因果卷积运算F的表达式为:

式中:d为膨胀系数；k为卷积核大小；“*d”表示卷积运算。

TCN 的残差模块如图2 所示,输入的数据需要通过两轮的膨胀因果卷积、权重归一化、激活函数和Dropout。为了增加TCN 的准确率,引入了残差卷积的跳层连接和1×1 卷积操作。

图2 残差模块结构图

3 CEEMD-TCN 组合预测模型

提出一种基于CEEMD-TCN 组合预测模型,其建模的一般步骤为:

(1)对油中溶解气体浓度数据预处理,剔除异常数据,使用均值法填充空缺数据,构成完整的原始时间序列；

(2)对原始序列进行分解,以降低其非线性、非平稳性对模型所产生的不利影响。通过CEEMD 方法处理序列,得到多组IMF 分量和一组残余分量；

(3)分别对各个子序列数据归一化,采用窗口滑动的处理方式,以被选定采样长度的时间点数据为特征,下一个时间点数据为标签,构建TCN 预测模型,使用优化算法来调整预测模型的超参数；

(4)使用训练集训练经过优化的TCN 预测模型,通过单步预测,即可得到各个子序列的预测结果,将所有分量的结果叠加重构后得到最终预测结果。

其中,CEEMD-TCN 预测的流程如图3 所示:

图3 CEEMD-TCN 预测模型结构图

4 实例分析

4.1 预测模型评价指标

为了更好地评定模型的预测效果,使用平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)和均方根误差(Root Mean Square Error,RMSE)作为评价指标,公式为:

4.2 数据集划分

为了验证CEEMD-TCN 预测模型的准确性,选用某330 kV 变压器油色谱在线监测数据为例,以2015 年3 月16 日至2016 年8 月23 日监测周期为24 h 的监测数据为数据样本,共计527 组。将2015年3 月16 日至2016 年7 月4 日的477 组监测数据作为训练集,将2016 年7 月5 日至2016 年8 月23日的50 组监测数据作为测试集。

本次实验所使用的电脑配置为Inter Core i7-6700HQ 处理器,8GB 内存。仿真平台为MATLAB 2018b 版,训练环境是Python 3.7.6。

变压器油色谱在线数据由于变压器的稳定性以及可能存在的外界因素干扰,常常会导致产生异常数据,因此需要预先剔除异常值,使用均值法填充空缺数据,以确保预测模型精度。选用H2浓度监测序列为原始序列展开分析。经过预处理的原始序列如图4 所示:

图4 H2 浓度原始序列

4.3 数据处理

采用CEEMD 方法对H2原始序列进行分解,依次分离可得到8 组IMF 分量和1 组残余分量。分解结果如图5 所示:

图5 H2 浓度序列的CEEMD 分解

为了提高TCN 预测模型的训练效率,需要针对各个子序列做归一化处理。数据归一化选用离差标准化公式:

式中:xmax、xmin分别为样本序列中的最大值和最小值,yi为归一化后的数据。

4.4 实验结果与分析

各子序列分量的预测模型可以使用训练集数据对TCN 模型进行训练得到。模型的超参数通过Adam 优化算法更新,学习率lr 大小设置为0.001,batch_size 设置为36,dropout_rate 设置为0.05,最大迭代周期数为100。

使用预测模型对未来50 d 进行预测,即可获得各子序列分量的预测结果。将预测结果叠加重构,最终所得到的数据即为H2浓度在未来50 d 的预测结果。

为了验证模型的有效性,使用同一训练集分别训练CEEMD-TCN、TCN、CEEMD-BPNN 和CEEMD-RNN模型。其中,BPNN 指反向传播神经网络(Back Propagation Neural Network,BPNN),RNN 指循环神经网络(Recurrent Neural Network,RNN)。神经网络模型采用Adam 优化算法更新超参数,设置隐藏层层数为1,隐藏层神经元个数为100,学习率lr 为0.001,迭代周期数为100。实际值和各模型预测值曲线如图6 所示:

图6 CEEMD-TCN 模型H2 浓度预测及其与TCN、CEEMD-BPNN、CEEMD-RNN 模型的对比

从图6 中可以看出,CEEMD-TCN 模型预测结果相较于CEEMD-BPNN 和CEEMD-RNN 模型明显波动较小,具有较好的预测效果。而采用CEEMD方法分解的TCN 模型预测结果对实际值拟合精度要优于未采用分解的模型。图7 为CEEMD-TCN 模型与其他预测模型的相对误差对比:

图7 预测模型相对误差对比

从图7 的预测模型相对误差对比结果可以看出,CEEMD-TCN 模型的相对误差在[-2,2]这一区间内波动,而其他预测模型的相对误差的波动范围则在[-5,5]区间内,这一结果表明CEEMD-TCN 模型的预测精度明显要高于其他几种模型。

使用eRMSE和eMAPE来评估测试样本预测误差指标,评估结果如表1 所示:

表1 CEEMD-TCN 与其他模型预测结果评估

结合表1 中数据可知,在对油中溶解的H2浓度的预测结果中,相较于直接使用TCN 模型预测,通过采用CEEMD 分解原始序列的方法,使得eRMSE和eMAPE指标分别降低0.773 和0.433%。而与CEEMDBPNN 和CEEMND-RNN 相比,CEEMD-TCN 的eRMSE分别减小1.007、0.533,eMAPE分别减小0.673%、0.376%。因此,CEEMD-TCN 模型的预测精度更高,预测数据更符合实际值。