APP下载

基于数据挖掘的配网设备故障自动诊断方法

2023-11-14邱汉民

中国新技术新产品 2023年19期
关键词:决策树聚类自动

邱汉民

(广东电网揭阳普宁供电局,广东 普宁 515300)

通过大量的研究分析,可以得知配网设备中的故障问题一般发生在配电系统中,但是由于大多数故障问题发生在不同区域,因此需要设计一定的故障自动诊断方法。如果不能及时解决配网中的故障问题,可能会威胁民众的人身安全。因此如何实现配网设备故障的自动诊断,并最大限度地保证用户的稳定用电成为目前亟待解决的问题。如果配网出现故障问题,在配网线路的影响下,同时随着环境和其他因素的干扰,配网设备的继电保护设备不可避免地会被启动,配网设备在故障期间的信息传输也会受影响,并增加配网工作人员的工作量。因此,为了实现快速诊断配网故障,就需要在一定程度上脱离工作人员的实时诊断,使配网设备能进行自动诊断。配网设备的故障自动诊断是通过测量和分析故障后的配网设备的电压、电流等保护设备开关量的信息变化,自动对故障情况进行判断的[1]。

1 配网设备故障自动诊断方法

1.1 聚类配网设备故障信息

选择聚类对信息进行收集和处理能够提高数据质量,有助于及时发现和解决配网设备故障,提高其可靠性和稳定性。通过将新的故障数据与已有的聚类簇进行对比,可以判断故障类型。因此,该文选择使用聚类来对信息进行收集和处理,该方法的具体实现过程包括如下步骤。

先设置不同的样本数据xm(m=1,2,…,m),将其作为聚类中心的候选集合,然后对数据进行密度指标的计算,如公式(1)所示。

式中:Di表示数据的密度指标;xi表示聚类中心合集中的第i个数据点;xj表示聚类中心集合中的第j个数据点;σa表示常数,取值范围σa≥0。

然后计算故障信息的密度指标,将指标最高的一个点设置为聚类中心xc1,并对数据点的指标进行修正,再对指标进行判断。如果当前的密度指标比初始密度指标小,则忽略剩余数据,并将当前指标作为聚类中心。聚类信息的目的是使数据样本之间相距尽可能大,以便能够对故障类型进行判断,并使故障定位更准确。而簇内数据样本之间相距尽可能小,以便可以对相同位置的故障问题进行统一计算,节约后续流程中模型判断故障的用时,减少故障诊断延时,使诊断方法可以达到最优效果[2]。

1.2 定位配网设备故障点

通过上述对配网设备故障信息进行聚类,可根据所提供的数据基础,经过分析定位配网设备的故障点。该文选择全局定位算法来定位故障点,这种定位的平衡性是智能算法正常运行的核心所在,而该阶段转化的重点是故障问题所代表的逃逸因子。逃逸因子是导致故障发生或扩大的根本原因,在配网设备故障自动诊断过程中,逃逸因子包括设备老化、操作失误以及外界环境变化等多个方面的因素,它们可能相互作用并导致故障发生。通过分析逃逸因子,可以帮助工作人员更好地理解故障的本质原因,并采取相应措施防止类似故障再次发生。设置逃逸因子为E,如公式(2)所示。

而E0的取值范围是(-1,1)中的随机数,因此E0的算法如公式(3)所示。

式中:E0代表直流电路初始状态的能量存储;E1代表在定位范围内的适应因子;T代表最大定位重置效率。

当|E|≥1 时,全局定位算法进入定位阶段。当|E|≤1 时,算法进入局部定位层面。在该层面中,不再拘泥于一种行为策略,根据故障的逃跑倾向,该文引入了4 种策略来模拟定位行为。

进行故障定位时,|E|≥1 且|E|的绝对值越高,故障问题所拥有的定位空间就越大,其相对应的对故障问题的定位能力也就更优秀。而当|E|≤1 时,对故障的定位会根据故障状况进行实时更新。可是该定位效果并非完全理想,由于定位策略较复杂,并且对不同的定位状况有不同的解决方式,结果的优劣程度并不是根据|E|的数值来评判,因此该文引用了针对定位状况的定位因子E1,计算方法如公式(4)所示。

改进后的E1不仅扩大了全局的定位范围,提高了定位能力,还可对不同类型的故障诊断进行针对性变换[3]。

1.3 基于数据挖掘构建故障诊断模型

不同的故障点定位信息来自不同的测量单位和量度方式,例如坐标系、距离单位等。未经过归一化处理的数据可能存在量纲差异,会给后续的故障自动诊断带来困扰。因此,将上述得到的故障点定位信息进行归一化处理,将数据映射到合适范围内,消除量纲影响,使不同属性的数据能够在同一尺度上进行比较和处理。由于故障信息中很可能存在离群数据,因此该文选择标准化的转换函数,如公式(5)所示。

式中:μ为所有故障样本数据的均值;σ为所有故障数据的标准差。

进而对数据进行特征选择。数据挖掘算法的种类丰富,需要根据不同问题选择最合适的算法。决策树方法适用于既包括离散特征(如设备状态、故障类型)又包括连续特征(如传感器数据)的数据集,并且决策树能够自动处理混合数据类型,无须进行特征转换或离散化,减少了数据处理的计算量。因此,根据上述设备故障中收集和处理过的数据量,用决策树的方法构建故障诊断模型。

先随机抽取数据集合中的部分数据,进行子集训练,确定子集中的样本分类是否相同。然后根据结果选择指标,进而在训练数据集中进行如上所述的特征集提取。对于每个集内目标,存在m个取值,并且判断特征集是否为空集。再对其唯一性进行检测,选择数据集中占比最多的类。对样本集中的类设置信息熵,并对每个属性内的信息熵进行计算。将配网的设备状态量属性设置为a,经过划分后判断属性的连续性,并通过离散化处理排列数据的组别。设置每组数据的平均值并将其设为中点,对数据进行再次划分。计算电网设备状态量的属性a的增益,获得属性a对应的分类信息,并测定其他数据。

如果出现错误分类,就对数据重新进行样本集的信息熵计算,然后根据数据结果生成决策树,判断树中的特征是否都已被选择,进而生成数据子集,最后生成叶节点。将每个输出视为一个独立的决策树,在上述决策树生成后,即累积构建了m棵树。将每棵树作为一个分类器,通过组合分类器,获得随机森林模型的最终输出,并对故障信息进行指标评价和方法计算[4]。

1.4 优化自动诊断方法

上述过程中,基于数据挖掘技术选择其中一项算法来对配网设备的故障进行诊断,对故障诊断模型进行训练和仿真,来检测模型中存在的不足之处。为了扩大对配电设备故障中故障区域以及故障类型的诊断,该文对方法的优化过程如下。

先更新决策树的叶枝分量,通过初试决策树决定故障问题的位置可能性,更新加入新的树枝走向,并更新树木随机性。将更新结果反馈至已有模型,并计算适应度。在适应度的计算中,随机抽取更新完成决策树,对树木的目标取值进行界定。然后检测决策树的判断特征集。特征集如果为空集,则不符合适应度条件,需要对决策树重新更新。如果更新后的决策树不是空集,说明其符合适应度条件。

通过更新森林整体,求取动态边界。利用森林的随机性学习新的模拟分量,再次计算适应度,并更新树木的叶子集。最后判断森林中的数据子集是否符合条件,满足条件则停止优化流程,否则再对模型进行重复优化[5],以实现多目标故障诊断。

2 试验论证

2.1 试验说明

为了验证在配网设备中,该文设计的诊断方法能够对故障进行有效的自动诊断,采用在仿真环境中对故障进行诊断的对比方法。通过搭建仿真试验环境,在仿真环境中将该文所用方法与基于CNN 算法的诊断方法进行故障诊断准确性的比较。为了使试验具有简明性,设置该文的基于数据挖掘的配网设备故障自动诊断方法为试验组,基于CNN 算法的配网设备故障自动诊断方法为对照组Ⅰ,基于超声波的配网设备故障自动诊断方法为对照组Ⅱ。

试验中设置5 组配网设备样本,即样本1、样本2、样本3、样本4 和样本5,样本中将会产生的故障次数分别为50、100、150、200 和300 次。为了避免仿真试验故障频率过快造成诊断方法失真,需要间隔进行故障诊断,在多次样本的试验下获得试验结果。

2.2 试验准备

该文对数据的处理基于MATLAB 2019a 软件,对配网设备的数据进行采集分析,并在配网的节点结构中进行诊断方法的验证。对故障进行定位来实现对信息的初步收集。该软件的应用流程如图1 所示。

图1 故障诊断流程

在试验环境中,相关过电流的保护时序的整定值结果见表1。

表1 相关配网设备过电流保护时序整定值

设备发生故障时,配网的保护装置会产生一定的过电流保护。表1 排列了配网中不同位置的保护时序的整定值。当设备出现一定的延迟保护时,也会对仿真试验产生一定影响。因此,为保证测试的真实性,该文选择某省电力环境中的历史故障数据为测试对象,按照时间编号来展示电力数据信号。以幅度为1、频率为0.55Hz 的正弦波为基础,调取电力数据采集窗口下的电压数据,得到含有异常周期性序列的电压数据值,见表2。

表2 时间序列下的电压数据

根据表2 所示,以该配网的常规化运行情况为标准,当电压数据超过49.5V 时,表示配网出现异常,会影响整个设备的运行安全。分别将选定的数据上传至测试平台,分别连接3 组方法,对出现的故障问题进行诊断。

由于配网设备故障出现的复杂性,因此在调取的电压数据过程中无法展示全部数据。设定待测试的样本故障共5 组,在对配网设备的自动诊断过程中,不仅需要正确诊断故障问题,还需要对故障问题进行分类并上传数据,以便不断训练学习诊断方法,进而进行针对性优化。

2.3 试验结果

该文试验比较了3 种故障自动诊断方法,在多次故障自动诊断试验中,既做到了仿真模拟,也对相应的电压时序进行了延迟保护。不同诊断方法的自动诊断结果见表3。

表3 3 种配网设备故障自动诊断对比结果

根据表3 的试验结果可知,5 组样本自动诊断的平均精确度为97.25%,对照组Ⅰ自动诊断的平均精确度为79.44%,对照组Ⅱ自动诊断的平均精确度为81.32%。样本1 中存在50 组故障数据,试验组能对其进行准确诊断。但是随着样本中故障次数的增多,试验组的诊断精度有所下降。因为该文试验是为了验证诊断方法的精确度,所以设置了较多的故障次数,而在实际情况中,通常不会出现大量、多次的短间隔故障问题。而对照组Ⅰ和对照组Ⅱ的自动诊断存在不稳定性,随着故障次数增加,其不稳定性也表现得更明显。上述试验结果验证了该文所设计的配网设备故障自动诊断方法的有效性,保证了自动诊断精确度。

3 结语

该文对配网设备中的故障自动诊断进行了方法设计,先对配网设备中故障信息进行聚类,然后对故障数据进行分析,在数据分析和特征分析的基础上对配网的设备故障点进行定位,最后在数据挖掘的基础上构建故障的诊断模型,检测模型的有效性并进行优化,以完成诊断方法的设计。在试验结果的辅助下,对比试验,对设计方法进行了有效性和诊断准确度的验证。但是该文在诊断模型的构建中缺少一定的细节,没有对模型中的约束条件进行权重分析,存在一定的不足之处,今后的研究将针对该环节的设计进行深入分析。

猜你喜欢

决策树聚类自动
自动捕盗机
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于STM32的自动喂养机控制系统
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
基于决策树的出租车乘客出行目的识别
Stefan Greiner:我们为什么需要自动驾驶?
基于肺癌CT的决策树模型在肺癌诊断中的应用
一种层次初始的聚类个数自适应的聚类方法研究