基于智能算法的主变异常数据识别应用

2024-03-08薛文祺汤美琪

南方农机 2024年5期

薛文祺，汤美琪

（吉林师范大学信息技术学院，吉林四平 136000）

在电力系统中，变压器扮演着关键的角色，负责电压的调节和能量的传输。然而，变压器在长期运行中可能会遭遇各种潜在的问题和异常情况，这些异常可能对电网运行产生负面影响甚至危害设备的稳定性和寿命。因此，准确、快速地识别和处理变压器的异常数据变得至关重要。随着智能算法在数据分析和处理领域的迅速发展，利用这些算法对变压器进行异常数据识别成为可能。Apriori 算法和LSTM 模型作为智能算法的代表，在数据挖掘和序列数据处理方面展现出强大的潜力。通过将这些算法应用于变压器的数据识别，可以提高对电力系统状态的检测能力，进而增强设备的安全性和稳定性。因此，针对变压器异常数据识别的研究变得至关重要，可以为电力系统的管理和维护提供有效的手段，以确保电网的可靠运行[1]。

1 Apriori算法和LSTM模型介绍

1.1 Apriori算法流程

表1 是一个事务的样本表，应用Apriori 算法进行关联规则挖掘。将最小支持度设定为20%，可以简化为下列步骤。第一步：对数据D 进行扫描，计算各候选项的个数，得出C1。

表1 样本表

第二步：将候选的支持量进行对比，计算出最小的支持量，求出L1，然后由L1生成C2。

第三步：再次对数据D 进行扫描，将各候选项的支持度和最小支持量进行比较，求出L2，然后由L2生成C3。

第四步：再次扫描数据D，对每一个候选项目进行统计，将其与最小支撑数进行对比，直至不再生成频繁项目。

1.2 LSTM模型基本原理

长短时记忆网络（LSTM）是一种神经网络，它基于循环神经网络。它包含输入层、输出层和隐藏层，能够有效描述复杂的非线性关系。LSTM 算法可以解决传统循环神经网络存在的梯度突变和消失等问题。LSTM 网络在时间序列预测、文本生成、机器翻译、语音识别、图像描述和视频标注等领域有广泛应用。与只使用单一状态矢量的循环神经网络不同，LSTM 网络通过引入新的内部状态ct，并使用门控机制来实现信息的更新和遗忘的控制。LSTM 网络内会在t个时间步骤里将当前的内部状态ct存储并记录历史资料，再以非线性形式把信息传递到外层的隐藏状态ht上[2]。内部状态ct和外部状态ht的计算公式如下：

2 基于Apriori算法的数据挖掘

2.1 数据清洗

当变压器工作时，在特定温压条件下，变压器油会溶解并释放，同时也会分离出各种气体。在此基础上，选取了H2、CH4、C2H6、C2H4、C2H2这5 种典型的故障特征量，并进行分析。所选数据涵盖了变压器常见的几种故障，包括高温过热度（>700 ℃）、中温过热度（300 ℃~700 ℃）、中低温过热度（150 ℃~300 ℃）、高能量放电和低能量放电等。表2 是收集到的原始资料的一部分。

表2 部分原始数据

为了实现对模型的应用，首先需要进行预处理。基于这一基础，本文提出了一种新的算法，并对已有的算法进行了改进。因此，在数据挖掘过程中，预处理是非常关键的一步。在预处理方面，研究了数据缺失和冗余问题。本文针对这些问题提出了解决方案。需要的数据并不多，通过逐个对比、删除和对故障种类进行整理，获得了200 个有效的变压器故障（状态）样本，其中有127 个是随机选择的，剩下的被用作实验数据。

2.2 数据整理

为了满足Apriori 算法对数据进行离散化的需求，采用了数值离散化的方法降维处理数据。目前有等幅频离散、最小信息熵离散和NaviScaler 离散三种离散化方法，可以根据实际需要选择。在确定断点值时，使用布尔逻辑和粗集的离散化算法，同时在断点解中应用贪心算法。在讨论贪心算法的基础上，首先引入两个基本概念：信息量表和判决表[3]。

1）信息表：信息系统可以用S={U,A,V,f}来表示。其中，U是一个表示非空有限集合的域U={X1,X2,...,Xn}，A是属于A={a1,a2,...,am}集合的一组非空有限数，V是属于V={V1,V2,...,Vm}集合的一组财产值。其中，Vi是属性ai的值域；f:U×A→V是一个信息函数（information function），它指定了U中每一个对象x的属性值，由这样的“属性一值”对就构成了一张二维表，称之为信息表。

2）决策表：若上面的信息系统S为决策系统，则构成一种特殊的信息表，就是决策表。决策表是一个二维表格，列表示属性，行表示记录或样本。表中第i行、第j列的内容为f(xi,xj)，每一行都代表着不同记录的所有信息。

用到的贪心算法如下：

首先，构造一个新的信息表S'=(U',A')，其中：U'={(xi,xj)∈U×U:d(xi)≠d(xj)}，d为决策属性；A'={Pra:a∈A，r是属性a的第r个断点

对于任意Par∈A'，如果⊆[min(a(xi),a(xj),a(xj)),max(a(xi,a(xj)))]，则Pra((xi,xj))=1；否则Pra((xi,xj))=0。

离散化算法步骤如下：

1）根据原来的信息系统S构造一个新的信息系统S'；初始化断点集cut=ϕ；

2）选取所有列中1 的个数最多的断点加入到cut中，去掉此断点所在的列和在此断点上值为1的行；

3）如果信息系统S'中的元素不为空，则转第2步，否则停止。此时cut即所求的断点。离散结果如表3所示。

表3 离散后的气体取值

2.3 数据挖掘

在数据预处理后，应用Apriori 算法来查找关联规则。这种方法是基于数据项之间的相关性来进行关联分析，而本文研究的变压器故障诊断方法需要最终判断故障。因此，在挖掘过程中，需要对Apriori 算法进行一定的改进。根据这些改进，将关联规则挖掘过程分为两个步骤，以发现变压器故障。1）通过在交易数据库D 中建立数据项和规则，并设置用户设定的最小支持阈值来查找频繁项目集，其中满足最小支持阈值的项集即为频繁项集[4]。2）应用Apriori 算法对生成的规则进行改进，以获得更佳的诊断结果，利用关联规则对故障进行分析。具体流程如图1所示。

图1 整个挖掘过程（左）和关联挖掘算法流程图（右）

2.3.1 数据项的建立

应用关联规则算法对电力系统的故障诊断进行研究。通过分析变压器油中溶解的气体组成和含量，可以初步判断变压器的绝缘老化或故障情况。针对这个问题，使用气相色谱方法进行诊断。为了应对数据中的离散性挑战，首先应用粗集理论对采集到的变压器油样品进行了离散化，得到了H2、CH4、C2H6、C2H4、C2H2等气体组分。为了方便挖掘和编程，用符号来表示各区间的气体体积，例如，H2有8 个区间，CH4、C2H6、C2H4、C2H2也被划分为不同的区间，气体资料的划分也不相同。

2.3.2 挖掘频繁项集

在Apriori 方法中，首先从交易库中查找出不低于用户设定的最小支撑值的所有频繁项集。传统Apriori 算法的连接原则为：如果前(k-2)个项目在两个频繁(k-1)-项目集的前面相同，则将它们连接起来。例如，将（1.3，2.1，3.1，4.2，5.2，6.1）和（1.3，2.1，3.1，4.2，5.1，6.1）连接起来，得到（1.3，2.1，3.1，4.2，5.1，5.2，6.1）。然而在实际应用中，5.1 和5.2 这两个数值代表相同的失效气体类型，这两个值不能同时使用。为此，需要先修改连接规则，然后进行最小支撑筛选，得到满足最小置信度的频繁K项集合，同时满足这两个要求。Apriori 算法首先会生成频繁项集，虽然这个过程需要耗费较长时间，但通常成为算法的瓶颈。然而，在频繁项集的生成基础上，本论文对现有项目集进行了改进，使其不再连通，从而节省了大量挖掘时间，这也是本论文的一个独特之处[5]。

2.3.3 规则的生成

该方法首先生成频繁集L的全部非漏洞集，并对L的每个非子集合S进行相关性分析，如果其可信度高于最小可信度阈值，就生成一条与集合S关联的规则s→(1-s)。同时，该方法还提出了一种基于多个属性之间的相关性分析方法，并将其应用于变压器故障诊断中。而对于变压器故障诊断，最终期望得到变压器的故障类型，也即(1-s)为决策表的决策属性。首先，在Weka 软件中应用了Apriori 算法进行挖掘，然后使用Filter 格式对其进行离散，以此解释了如何修正规则的一部分。这里的置信度设定为0.6，以便与文章中的关联规则进行比较。

为达到期望的效果，仅估算其他属性的可信度。可信度指的是规则级别的出现次数在数据库中的数量。频繁项集具有以下特点：“1.5，2.3，4.3，5.4，6.1”，除了6.1，其他4 个项仍然构成频繁项集，因此只能估计“1.5，2.3，4.3，5.4”的可信度。根据S值为1.5、2.3、4.3、5.4、6.1的数据，如果置信度超过最小置信度，就会生成s→(1-s)规则，即根据这些S值来判断变压器故障。这是预期用于故障诊断的准则。通过修改规则，可以将其转化为适合输出的格式。最后，根据初始的特性数值标签，可以将其转化为易于理解的属性名字。总结来说，得到的故障规则如表4所示。

表4 经过关联规则挖掘得到的规则

在诊断变压器故障时，最终需要确定变压器的故障类型。根据一条类似的s→1 规则，s是规则的前件，1 是规则的后件。在这里，将不同的气体量作为前件，而故障状态作为后件。也就是说，通过不同的气体量，可以推导出不同的故障类型。如果不修正规则产生的过程，前件中的错误是不合理的。在规则生成过程中，首先需要进行规则的过滤，这是基于专家经验的规则筛选过程[6]。

3 基于LST M模型的异常数据识别

3.1 评价指标

单变量预测模型是一种用于预测特征气体浓度的方法，它通过将数据划分为训练样本和预测样本来实现。然后，通过对预测变量进行一次时间步长的调整，使得LSTM 预测模型能够预测下一时刻的气体浓度。在预测中，只考虑了一种特性气体，因此建立的预测模型获得的是不稳定可靠的结果。通过对多变量变压器油中溶出气含量的变化趋势进行预测，揭示各特征气之间的相关性，并详细分析各时刻特征气的演化过程，建立特征气含量与工况之间的映射关系。对于多变量输入的预测模型，要求对原油色谱气体进行连续时间序列的处理。

式中，Xi为第i天5 种油中溶解气体浓度组合矩阵的转置，xi1表示第i天的第1 种油色谱气体浓度。多变量时间序列可以表示为：

式中，i≥3，F(i)表示第1 天到第i天变压器5 种油色谱气体的连续时间序列数据作为预测输入矩阵。

为了评估预测的性能，选择平均绝对百分比误差yMAPE、均方根误差yRMSE和预测精度yFA三项指标评估，评价本章所提多维多变量LSTM算法的预测性能。

式中，n为预测总次数；Xact(i)和Xpred(i)分别为i时刻的负荷真实值和预测值。

3.2 模型诊断过程

本文使用深度神经网络对电力系统进行故障诊断，并对模型进行了分析。如图2 所示，构建了一组多组分变压器油中气体含量的长短期记忆（LSTM）模型。特别是以三个时间序列为例，详细介绍了每个层的名称和功能[7]。

图2 基于LSTM网络的变压器状态参量趋势预测模型

输入层（input layer）：在输入层中，需要接收的神经元的数目是与所接收的数相等的。对于不断流进的原油层析气体时间序列数据，按照公式（4）、公式（5）进行运算并分离出训练集与测试集。

LSTM 层（LSTM layer）：利用LSTM 网络对多维数据矩阵进行下一步的预测。在预测下一个时间点的数据时，将连续采样数据中的Xn-1用目前的预测结果Yn-1代替，最终得到的预测结果为Yn。采用迭代预报方法，对变压器油样中的溶气浓度进行了连续预测。

全连接层（fully connected layer）：建立了LSTM层和输出层之间的数学模型，其中输入神经元的数量与LSTM 模型中的神经元数量相等，输出神经元的数量则与变压器油层析气体的预测结果一致。

输出层（output layer）：输出连续时刻下变压器5种油色谱气体预测结果。

3.3 模型建立

LSTM网络能够自动适应数据特征量的变化，利用带学习函数的门控技术来调节信息流量，并对积累的特征效应进行自动抑制。同时，它能够灵活调节长期和短期特征的相关性，自主探索特征气体之间的相互作用。在此基础上，本项目提出了一种新的神经网络算法来建模电力系统，该方法将特征的作用依次传输到变压器的工作状态，并通过神经网络的梯度学习来调整网络参数，以使其与现有特性协同作用。添加门控单元后的神经网络前向传播计算过程如式（9）所示。

式中：t∈[1，n]，n为特征变量个数；σ为sigmoid 激活函数。

通过改变变量的方式和将其映射到（0，1）之间的区间，增强了神经网络的非线性拟合能力。tanh 函数在（-1，1）范围内限定变量的值，提高了网络的收敛性。输入数据的形式和网络模型的结构决定了Xt的类型。权值参数矩阵W和网络元件之间的偏移矢量B是网络中的关键元素。前一时刻的遗忘门Ft、记忆细胞状态Ct-1、候选记忆细胞C˜t与输入门It分别按元素相乘并求和得到Ct；直接作用于下一输入特征的隐藏状态Ht由输出门Ot和候选记忆细胞C˜t共同决定。在经过了特征气体序列遍历之后，网络的输出去掉了最终的效果部分并保存了各个特征的残留力场到隐藏Hn中，接着全连接层根据方程式（10）的运算得到的结果是Y[8]。

LSTM（长短期记忆）可以初步判断网络元件之间的联系，并在此基础上进行迭代计算，以达到最优目标。在变压器的工作状态评估中，考虑了多种特征的影响，构建了基于数据驱动的变压器故障诊断模型。

4 主变异常数据识别的仿真实验

本研究针对220 kV变压器油进行了分析，收集了其中的故障气体含量，并对其中70 天内发生的5 种故障气体（H2、CH4、C2H6、C2H4、C2H2）进行了统计分析。通过随机抽样方法，从300 个采样点中选择了240 个样品进行预测，并使用LSTM 神经网络进行了5 种故障气体的浓度预测。因篇幅问题只显示H2的结果。

4.1 评价标准

基于LSTM 神经网络预测结果和实测数据的均方根误差建立了一种基于小波变换的变压器油中可溶故障气含量预测模型。该预测模型基于误差函数的公式（11）如下。

式中：e为数据样本平均误差；n为预测数据样本个数；yi为每种油中溶解气体浓度的真实值；为每种油中溶解气体浓度的预测值。

4.2 实验结果

利用采集到的变压器油中溶解气含量数据，使用LSTM 神经网络对变压器油中的氢含量进行了预测，并得到了相关参数值。实验数据在不同时间步长的误差不一样，随着时间步长的增加，深度LSTM 神经网络的预测误差也相应增大。具体如表5 所示。

表5 预测H2的深度LSTM神经网络模型的参数值

从图3 可以看出，在特定的网络结构条件下，深度LSTM 网络的预测精度随时间步的增加而降低，在15天后达到最低点，31天后出现轻微上升。因此，选择31 天作为最适宜的时间步长。在LSTM 网络模型中，隐藏层数量对预测结果有重要影响，增加特定数量的隐藏层可以更好地提取数据，从而提高LSTM 网络的预测性能。然而，当样本数量增加时，短时记忆网络容易出现“过度拟合”的现象。本文计划深入研究31 种隐藏层，采用LSTM 网络构建多重隐藏层预测模型。同时，本项目还将研究网络深度对该模型的影响，以及特定时间步骤上的隐藏层误差。此外，本文还研究了神经网络在迭代过程中的失误率。因此，本项目计划开发一种新的基于深度LSTM 网络的预测模型，该模型包括三个隐藏层，用于H2的预测[9-10]。

图3 不同时间步的预测模型对应的均方根误差

基于以上分析，预测H2的深度LSTM 神经网络模型的时间步为31，网络层数为5 层。通过设置不同数量的隐藏层神经元来构建H2预测模型，并测试了这些模型的均方根误差，如图4所示。

图4 不同网络结构对应的测试样本均方根误差

5 结论

本研究的探索和实验结果表明，利用智能算法（Apriori 算法和LSTM 模型）进行变压器异常数据识别是可行且有效的。在对变压器数据进行全面清洗和整理后，成功应用了LSTM 模型，在处理序列数据方面表现出了显著的优势。这种模型不仅能够捕捉数据中的潜在模式，还能在实时监测中快速识别异常情况。通过对仿真实验的仔细设计和验证，进一步证明了所提方法的有效性和可靠性。这些结果强调了智能算法在电力系统中的潜在应用，特别是在保障变压器稳定运行方面的重要性。这项研究的成果为电力系统的管理者和维护人员提供了一种新颖的、可靠的方法，能够及时识别变压器中的潜在问题。这将有助于提高设备的可靠性、延长其寿命，并确保电力系统的稳定运行，为未来的电力领域提供了有价值的技术支持。