APP下载

基于数据挖掘与相关性分析的电网一次设备缺陷预测方法

2023-10-12赵国杰刘成浩

微型电脑应用 2023年9期
关键词:数据挖掘电网预测

赵国杰, 刘成浩

(南方电网深圳数字电网研究院有限公司,广东,深圳 518055)

0 引言

各种远程供电技术相继问世,如何提高电网的运行稳定性是电网发展的主要问题,特别是电网一次设备的故障诊断与预测,成为智能电网建设的首要目标[1-2]。

关于设备缺陷预测的研究方向与成果众多,文献[3]针对现有的设备缺陷预测方法存在的不足之处,以数据挖掘技术为核心,结合监控设备完成电网设备缺陷的预测,根据近期监控设备内的数据,提取出主要数据内容,并与设备历史典型缺陷数据相比较,通过量化指标的方式,可以获得设备缺陷预测结果。文献[4]根据设备缺陷特征多、判断难度大的特点,以指标集为基础,通过XGBoost算法建立预测模型,确定设备缺陷类型。文献[5]提出的设备状态分析方法,依托于海量多源异构数据,将人工智能技术应用于电网设备观测中,以达到预测设备缺陷的目的,但是随着数据量的增长,预测准确度大幅下降。文献[6]构建测试用例和代码关联矩阵,将缺陷预测应用到聚类优先排序中,未能获取最佳类簇数和特征子集时,将缺陷探测能力强的测试用例优先执行,提高回归测试效率。

综合以往研究经验,提出以数据挖掘与相关性分析为核心的电网一次设备缺陷预测方法。

1 电网一次设备缺陷预测方法设计

1.1 基于数据挖掘技术建立设备缺陷数据库

在电网一次设备缺陷预测过程中,缺陷数据库的建立是预测准确度提升的关键,只有总结详细且准确的缺陷案例,才可以提高缺陷预测准确率。建立设备缺陷数据库需要从3个方面入手,分别是利用数据挖掘技术采集融合设备缺陷数据、清洗缺陷数据内不符合要求的信息、将电网一次设备缺陷产生的原因与应对措施标注在相对应的位置。

数据库建立流程如图1所示。

图1 缺陷案例库的构建流程

图1所示缺陷案例库的建立,实质上是利用数据挖掘方法对当前采集数据的特征进行挖掘,数据挖掘的核心内容是数据处理。在数据处理过程中,去除异常、重复数据以达到格式标准化的目的[6-7]。

(1)清洗不精确记录

若数据集S中至少有a部分与对象Q的距离大于b,则对象Q为参数a和b基于距离的孤立点,即Qb(a,b)。即将基于距离的异常点看作缺乏足够多邻居的对象。

采用索引算法的多维索引结构,查找每个对象Q在半径b范围内的邻居。设M是一个孤立点的b领域内的最大对象数目,若对象Q不足M+1个邻居,则Q为孤立点,即异常数据。

(2)清洗重复数据记录

清洗数据集中的相似重复数据需判断两条数据是否相似或相同,即有关字段的比较。如果两条记录在某些字段上的值相等或足够相似,则认为这两条记录近似重复,简称重复记录元组。

采用Python机器学习技术中的贝叶斯网络算法清理重复记录元组。

设Z=T1,T2,…,Tn为属性值含有重复数据的元组。使用用户Q*找到元组Z的置信度:

(1)

式(1)中,R(T*|Q*)表示关联函数,若重复元组T与用户的查询Q*匹配,则关联度为1,否则为0。若根据需要指定阈值E(T)。

(2)

根据需求设定E(T)在0和1之间的取值,若上述结果超过这个阈值即认为是重复记录。利用辅助工具Scikit learn进行清洗操作。

1.2 构建设备缺陷预测模型

在分析电网一次设备缺陷特征的基础上,根据季节性、设备型号等指标对电网一次设备缺陷进行了预测。采用X-11算法,构建设备缺陷预测模型。

设备缺陷可以分为机械、电气、绝缘、发热、渗漏、误动、拒动、仪表、指示等设备自身因素和锈蚀、化学、等外界影响因素,其中,季节性负荷影响着设备运行态势的安全性,季节性环境要素如温度变化、深度变化等,影响着设备锈蚀程度,由此可知,需要多角度拟合分析设备缺陷的季节性属性,同时向前、向后扩展序列,从而得出如下所示的设备缺陷预测模型:

(3)

式(1)中,L表示滞后算子,主要计算数据包括非季节自回归算子α(L)、季节自回归算子A(L)、非季节移动平均算子θ(L)、季节移动平均算子B(L)。并且,在计算过程中需要考虑,差分次数d、D与自回归最大滞后阶数p、q,结合差分算子Δ、季节差分的步长s、原始时间序列Y、设备缺陷数据噪声ε、设备检测时间t获得计算结果。除此之外,在计算过程中第i个回归系数βi,与第i个回归变量xi表示两个扩展影响因素。

通过上述计算,去除了模型中无意义的季节性项,时间序列表示趋势项和不规则项之和。在预测电网一次设备缺陷时,季节性调整可以通过加法和乘法两种模型来完成。加法模型的计算公式如下所示:

Yt=TCt+St+It

(4)

而乘法模型为

Yt=TCt×St×It

(5)

在式(4)、式(5)的计算中,不包含奇异值的月度时间序列Yt受到趋势循环项TCt、季节项St与不规则要素It三种因素的影响。

趋势周期项代表设备时间序列的瞬时变化,季节性项代表同一季节设备缺陷的周期性特征。最终的不规则元素指一些影响设备缺陷预测结果的不可预测元素。

1.3 分析设备缺陷相关性

应用自下而上的聚类方法,结合皮尔逊相关系数,得出电网缺陷设备数据的相关性,根据数据相关性分析结果进行聚类操作。

皮尔逊相关系数σ(X,Y)的计算公式为:

(6)

式(6)中,通过两组设备缺陷数据X,Y,和数据的样本数量N的计算,得出皮尔逊相关系数的具体值。即获取皮尔逊相关系数的计算结果,即采集某一种度量内两个变量的相关性特点,当计算结果为0时,两组设备缺陷数据没有联系。当相关系数计算结果为(0~1),可以判断两组数据存在正相关联系,相反,计算结果在(-1~0)则是负相关联系。

在对多组历史电网一次设备缺陷数据进行相关性分析时,为了直接反映设备缺陷数据的相关性,在时间窗口的作用下,将最近一段时间内的设备缺陷数据整合,将多元线性模型表示为

rk=a1r1+a2r2+…+ak-1rk-1+b

(7)

式(7)中,k个的设备缺陷数据的多元线性相关系数表示为rk,此外模型的构建还需要考虑到变量系数a与常数b。

对于给定的一组设备缺陷数据,获得组中每两个缺陷数据的皮尔逊相关系数,并将相关系数的计算结果与给定阈值进行比较,以获得数据相关性分析结果,随着时间的不断推移,设备缺陷数据会随之更新,当数据更新后,使得训练样本发生变化,从而完成多元线性模型的重新训练,从中选定拟合度最佳的训练结果,当相关系数大于阈值时,表明两台设备缺陷数据具有较强的相关性,可以将两台设备划分为一组。

1.4 实现设备缺陷预测

由于电网运行过程具有高度复杂性,在获得设备缺陷预测结果前,有必要对相关性分析结果的分类程度进行评估,过程如下:

在风险评估过程中,需要将预测结果中设备缺陷的发生概率乘以设备缺陷的严重程度作为风险指标。即分析时间的可能性和严重性的乘积。具体计算公式为

R(Ei)=P(Ei)×C(Ei)

(8)

式(8)中,事件风险指标R的值,需要计算事件Ei发生概率P,与事件Ei发生结果C的乘积。

除此之外,还需要定义在线风险评估,提出潜在的不确定因素,整合相关分析结果,将设备健康度H、设备重要程度I作为重要指标,明确设备缺陷造成的全方位影响,以影响程度为对照组,将电网一次设备风险定义为

R(Ei)=H(Ei)×I(Ei)

(9)

上述公式计算过程中,考虑到电网一次设备运行过程中所涉及的各种参数,将预测结果中设备缺陷的发生概率乘以设备缺陷的严重程度作为风险指标,即将上述获取的相关设备缺陷数据继续归类为一个类别,在多元线性相关系数rk计算过程中,依托于最小二乘法将部分变量作为模型的因变量,剩余的作为线性回归操作的自变量,依托于每一个回归模型的相关系数计算结果,将该模型的因变量设置为该组内最终确定的因变量,

(10)

所有历史设备缺陷数据通过连续迭代计算进行划分,当所有风险值的合成相关性小于阈值时,终止迭代计算,以保证设备缺陷预测过程的可迭代性和准确性。

根据设备缺陷特征曲线获得缺陷预测结果的转换概率,根据已发生的设备缺陷数据、预测的设备缺陷情况以及一段时间内的缺陷变化情况,以获取电网一次设备在维护期间是否会产生其他缺陷。并以量化计算的方式将设备风险评估结果呈现出来,从而判断是否发布异常预警,当风险水平超过安全范围时,需要发出预警,以确保员工能够快速完成设备检查和维护。

2 实例测试与结果分析

2.1 测试准备

针对文中设计的电网一次设备缺陷预测方法,进行实例应用测试。选定某省5个电网一次设备作为测试对象,由 a至 e依次为发电机,变压器,高压断路器,负荷开关,电抗器。在实验中,以500张照片为特征抽取与归类,各类别选取50张影像进行训练,所选设备如图2所示。

(a) 发电机

测试过程中,基于Python机器学习的辅助工具Scikit learn,结合分类、聚类等数据挖掘方法,完成电网一次设备缺陷的数据分析和挖掘,为设备缺陷预测提供数据支持。获取上述设备2020年1月至2021年5月的缺陷数据,作为原始数据使用,5个设备的缺陷数据关联性因素,如表1所示。

表1 缺陷数据关联性因素

步骤一,当图像数据入库后,应用缺陷案例库的构建流程能直接从图像对应的特征文件中提取训练数据和测试数据。

步骤二,应用第二类 SVM器利用皮尔逊相关系数,将所知道的图像特征集进行相关性的分析和归类,将其分为k个不相交且大小大致相等的k个子集,以k-1个子集为培训集合,依据一系列的参量构造出一套新的分类法,然后使用剩余的子集进行检测正确性,以验证该模式的分类正确性。

步骤三,将上述步骤反复k遍,每一次保留一个作为测试的一个子集合,这样就可以让每一个子集合都有一个测试的可能。

在进行了交叉验证之后,将其余的样本输入Scikit学习工具中,分析上述关联性数据,生成数据效果图,如图3所示。

图3 原始数据效果图

图3中的A、B、C、D、E分别表示发电机、变压器、高压断路器、负荷开关与电抗器设备的缺陷数据变化情况,以此,生成5个相应的数据集。

将本文设计的缺陷预测方法应用于预测6月份不同设备的缺陷数量。并与实际缺陷数进行比较,从而阐明预测方法的应用性能。

2.2 测试参数设置

为了保证缺陷预测误差较低,需要设置缺陷预测模型的迭代次数,降低对预测准确性的影响。获取预测模型训练的误差曲线,如图4所示。

图4 误差曲线图

由图4可知,模型训练误差随着训练次数的增长而不断降低,尤其在训练次数超过1500次后,模型预测误差达到了标准值,几乎不会干扰设备缺陷的预测结果。因此,在测试中,将模型迭代次数设置为1500次。应用文献[3]、文献[4]所提出的预测方法完成设备缺陷预测,通过测试结果的对比,加强测试结果的合理性。

测试过程中,采用F-measure值作为主要评估指标,F-measure值是一种统计量,计算公式表示为

(8)

式(8)中,F-measure值的计算结果取决于查准率P和召回率R,通过计算结果体现测试方法的准确性。

AUC值指ROC曲线下的面积,可以直观反映预测方法的精确性。通常情况下,AUC值在0.5到1之间,越接近1表明该方法的预测结果更加准确。

2.3 测试结果及分析

根据文中设计的缺陷预测方法,将不同方法与实际缺陷情况相比较,得出不同方法的F-measure值对比情况,如图5所示。

图5 不同预测方法的F-measure值对比图

图6中,文中设计的预测方法所得出的F-measure值整体高于其他两种方法,且文中设计预测方法的平均F-measure值,达到了为0.41,文献[3]、文献[4]方法的平均F-measure值分别为0.37、0.38。

图6 不同方法的ROC曲线对比图

在深入分析三种预测方法后,得出预测方法的ROC曲线,如图6所示。

根据图6 ROC曲线对比结果可知,文中设计预测方法AUC值大于其他两种方法,进一步计算后,得出3种方法的具体AUC值,如表1所示。

表1 三种方法的AUC值对比

通过表1可知,文中设计的电网一次设备缺陷预测方法AUC值为0.92,相比文献[3]、文献[4]方法,AUC值提升了0.07、0.11,保证其拥有更高的精确度。

3 总结

本文以数据挖掘和相关分析为核心,完成了设备缺陷预测方法的设计,构建设备缺陷预测模型,根据设备缺陷特征曲线获得缺陷预测结果的转换概率,结合皮尔逊相关系数,分析电网缺陷设备数据间的相关性,将最近一段时间内的设备缺陷数据整合,联合多元线性模型,分析时间的可能性和严重性的乘积,得到电网一次设备缺陷的预测结果,有效地提高了F-measure值和AUC值,提高了预测结果的准确性。

猜你喜欢

数据挖掘电网预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
穿越电网
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
不必预测未来,只需把握现在
电网也有春天
一种基于Hadoop的大数据挖掘云服务及应用
一个电网人的环保路