基于贝叶斯网络与高斯混合聚类的配网设备数据分析模型设计
2023-10-05柴利达田行健赵筑雨吴显锋陈华彬
柴利达,田行健,赵筑雨,吴显锋,陈华彬
(1.贵州电网有限责任公司,贵州贵阳 550002;2.贵州电网物资有限公司,贵州贵阳 550002;3.贵州黔驰信息股份有限公司,贵州贵阳 550002)
在配电系统中,配电网的可靠性能够反映整个电力系统的结构与运行特性。因此可以通过筛选、归类、挖掘和分析日常监测设备数据的有效信息,以此获得外部因素对配电网参数的影响,进而指导配电网的规划。
现阶段的研究因素可分为电网内部因素与外部因素。由于配电网涉及到各种电气设备和元器件,所以不同设备及元器件的工作性能与工况对配电网的可靠性均存在影响,如元器件类型、老化程度[1]、负荷与电压分布[2]及配电线路损耗[3]等。此外,外部环境对配电网设备的可靠性也会有影响,而电网的外部因素主要包括气候[4]、电价[5]等。目前,大多数学者研究的是配电网内部因素对其可靠性的影响,而较少分析外部环境对配电网设备可靠性所造成的影响。
配网设备的监测数据较多,若采用回归方法进行筛选,不仅计算量大,结果也不稳定。因此,该文采用贝叶斯模型(Bayesian model)来建立不同设备在各种影响因素下的概率模型。并对配网设备的相关数据加以挖掘分析,且利用混合高斯模型(Gaussian Mixture Model,GMM)对数据进行聚类。通过数据采集与处理,对配网设备数据进行挖掘分析,在此过程中建立设备运维成本与设备类型、投用地区、不同时间月份、设备送检报告、设备价值等特征因素间的关系模型,进而分析出设备的性能分布情况。
1 数据分析模型
1.1 贝叶斯概率模型
贝叶斯决策理论是统计分类方法[6-7]的基础,其为统计、判别及分析等分类程序提供了基本的概率模型。考虑一个一般的M群分类问题,其中每个对象均有一个聚类的维数属性向量。设w为隶属度变量,若对象属于j组,其值wj为隶属度变量,f(x|wj)为该组的先验概率。根据贝叶斯分类规则有:
式中,P(wj|x)是j组的后验概率,f(x)为概率密度函数,可表示为:
若提出的是最小化总分类误差率(误分类率)的概率,则有以下广泛使用的贝叶斯分类规则:
若上式成立,则有wk=x。
然而,在应用简单的贝叶斯决策规则时存在两个问题:首先,在大多数实际情况下密度函数是未知的或不能假设为正态的,故无法直接确定后验概率;其次,通过使用式(3),决策的目标是使新对象误分类的概率最小化。因此,该文便不再关心分类错误的后果,即假设不同群体的错误分类成本是相等的。但这可能并不符合诸多应用程序的实际情况,且在此类应用程序中,错误分配的代价对于不同组而言是各不相同的。为克服这些缺点,基于神经网络后验概率的直接估计,该文为分类错误指定了一个代价,以改进此次决策。在该研究中,采用特征函数法(Characteristic Function)估计各数据的α-稳定分布参数,然后利用特征参数作为贝叶斯网络(Bayesian network)的输入及训练参数。贝叶斯网络结构如图1 所示[8-11]。每个数据均有S1-S4 共四个参数,O1-O5 则代表了五种故障。
图1 贝叶斯网络诊断结构
1.2 高斯混合聚类分析
聚类在数据工程、模式识别及图像分析等领域中具有基础性的作用。其中,最重要的聚类方法之一便是高斯混合模型法(GMM)[12-16],其基于期望最大化(Expectation Maximiz-ation,EM)的方式对数据进行聚类。此外,该模型还可通过覆盖多个簇(如椭圆簇)来逼近不同类型的数据。
总体而言,EM 的目标是找到数学期望最大的聚类规则,设存在概率数组:
对于f1,…,fk∈F而言,F就是一个固定的(通常是高斯分布的)密度簇,其满足:
最佳近似的散射数据考虑X={x1,…,xn}。该优化是针对一个基于最大最小二乘的代价函数进行的:
式中,|X|表示集合X的基数。
EM 中的优化分为期望步与最大化步。其中,期望步骤相对简单,而最大化通常需要一个复杂的数值优化。假设Pi(c)与Pj(c)表示高斯混合模型中的两个分布,则二者间的KL 散度可定义为:
对于对称方程,通常用式(8)来度量分布Pi(c)和Pj(c)间的相似度:
式中,Pi(c)表示P(c|xi),根据EM 似然估计的优化结果,可得到高斯混合模型的三个参数:Φk、μk与协方差Σk。
式中,λ为正则化参数,φ是比较系数。根据式(9)-(11)导出的公式,重新估计目标函数中的参数Φk、μk和Σk,然后使E 步和M 步交替进行,直至满足终止条件。
2 配网设备数据处理算法
10 kV 配网设备的种类繁多且运行环境复杂,导致了故障频发,使其成为电力系统的薄弱环节。此外,由于其直接与用户相连,若未能及时处理设备的缺陷,将导致电网故障,影响电网的安全运行。配电网主要设备包括配电变压器、开关柜、架空线路和电缆等。在长期运行过程中,通过检验与试验,记录并积累了大量的缺陷数据。因此,对数据进行深度挖掘不仅可提高分析缺陷数据的效率和推测缺陷的类型,还能为维修人员识别配电设备的薄弱环节并制定检验计划提供支持。
2.1 设备缺陷记录数据类别
缺陷管理是电力生产管理的重要内容之一。为了保证电力系统设备的健康水平,维护人员需在日常巡检过程中对设备缺陷进行记录与报告。目前,缺陷管理系统中存储了海量的配电网设备历史缺陷数据,这些数据为设备的聚类分析提供了基础。
缺陷记录通常包括设备、变电站和缺陷的基本信息以及缺陷处理信息这四类,且每一类均包含多个属性。该文根据数据质量与实际应用情况,选取缺陷记录数据中的缺陷等级、状况、类型及设备生产厂家、使用寿命共同构成缺陷数据集,并用于配电设备的聚类分析。以配电变压器的缺陷记录数据为例,表1 给出了缺陷数据集中各属性记录的详细信息。其中缺陷情况与供应厂商数量较多,故仅显示部分内容。
表1 设备记录数据集
根据缺陷的严重程度,可将其级别分为“一般”、“重大”、“紧急”与“其他”共四个等级。而缺陷情况是根据维护人员填写的记录对设备进行简化后的缺陷描述,缺陷类型则是对设备缺陷的总结。设备供应商从设备出厂信息中获取,由于数据保密,该文将设备生产厂家分为厂商1、厂商2 等。设备使用寿命的计算为缺陷发生时间与设备运行时间相减。此外,运行30 年以上的设备按规定确定为旧设备。
2.2 概率模型建立
根据上文对数据分析模型的讨论,可知数据挖掘的目标是获取强聚类规则。建立概率模型需先根据给定的数据库获取所有的聚类;然后挖掘聚类规则,并删除不满足最小置信阈值的规则,剩下的即为用户所需的强聚类规则;随后,便可建立聚类规则的概率模型。查找聚类及概率的过程可看作是一个全局搜索问题,所以将高斯聚类算法与贝叶斯概率模型相结合,可有效提高配电网设备缺陷聚类规则挖掘的效率。
首先,对缺陷数据集进行实数编码,之后,定义高斯聚类算法的期望目标函数,再根据EM 似然估计优化聚类结果。然后,依据贝叶斯概率模型给定的交叉概率,对当前聚类规则进行设定。当迭代次数达到用户给定的最大次数时,算法停止,由此,便可得到理想的聚类概率模型。图2 所示为该文概率模型建立的具体流程。
图2 概率模型建立流程
3 模型性能验证
该文以两个典型县级供电局的配网设备为对象,进行设备缺陷聚类分析。配电网的关键设备包括四种类型:配电变压器、开关设备、电缆线路与架空线路。执行数据预处理的原始缺陷记录数据,删除明显错误或存在缺失数据的缺陷记录,并选择缺陷级别。缺陷条件、缺陷类型、设备制造商和设备操作构成了缺陷数据集的聚类分析配电设备,对其进行实数编码,便可作为分析挖掘的输入数据集。
3.1 聚类概率诊断结果
使用上文中描述的高斯混合聚类分析,来挖掘缺陷数据集的聚类规则。针对筛选出的配网设备项目做进一步的研究分析,同时采集相关设备中更详细的数据信息,主要包括设备的投招标历史数据、设备运维历史数据、在线监测物资历史运行数据、物资送检测量数据以及设备投用地的相关数据等。由于选择了五种缺陷记录属性进行聚类分析,因此聚类规则的最大长度为五种。根据不同的聚类规则长度对缺陷数据集进行概率分析,上文所述的四种关键配电网设备的聚类规则如表2 所示,其中每种设备以两个聚类规则为例。
表2 部分聚类规则
通过分析表中的配电设备缺陷关联规则,能够得到以下结果:根据贝叶斯聚类概率分析的结果可推测缺陷类型与缺陷条件。通过设备数据分析模型,在缺陷维修过程中,运维人员即可根据已知的设备缺陷状况、设备厂家等条件,判断出缺陷设备可能存在的缺陷类型或缺陷状况,从而提高操作维修的效率与准确性。同时,配网设备数据分析模型能够发现配电设备制造商的共性缺陷,便于准确判断设备是否存在家族缺陷。
3.2 时域效果分析
随机选取数据库中的1 000、2 000、3 000、5 000和10 000 个配电网设备故障数据集作为该算法模型时间复杂度的比较样本,并进行故障诊断分析,且采用传统故障处理时间作为对比。计算机配置为Intel Core i7-6300HQ CPU @2.30 GHz,内存12 GB。不同算法的运行时间如图3 所示。
图3 运行时间对比
从图中可以看出,在数据集长度相同的情况下,该文使用的基于贝叶斯网络与高斯混合聚类的配电网常用设备数据分析模型算法的运行时间要明显优于传统算法。尤其是随着设备故障数据集长度的增加,该文算法的运行时间优势更为明显。
4 结束语
文中主要开展了设备影响度分析,以配网中对于电力安全影响较大的设备为研究对象,通过对设备数据的分析、挖掘及建模,以不同类型设备的模型数据计算其的性能分布,建立了设备运维成本概率模型。该模型能够解决配网中的设备品质监控问题,并精确分析出所造成的影响,在有限的投入下,提高品控效率,进而减少电力设备的资源浪费。