APP下载

基于社团聚类算法的低压电能表故障状态分类研究

2020-01-03陈徐笛乔适苏陈卫民

中国计量大学学报 2020年3期
关键词:电能表社团聚类

陈徐笛,乔适苏,蔡 慧,杨 杰,陈卫民

(1.中国计量大学 机电工程学院,浙江 杭州 310018;2.浙江华云信息科技有限公司,浙江 杭州 310000)

电力和电网建设是当今人类最重要的生活基础和文明基础之一[1]。随着电力设备的逐步增多,对电能表的要求越来越高,电能表的故障问题也越来越突出,而对故障原因的确定却十分困难[2-3]。如今,电能表故障排查系统在不断发展,通过现有技术手段,运用大数据开发更实用的预测方法已经具备一定的条件。通过科学预测,对电能表故障原因的确定十分重要,在很大程度上可以减少人力物力的浪费[3-4]。

文献[5]提出了一种基于贝叶斯网络的智能电能表故障类型分类与预测模型;文献[6]提出了一种利用改进的极大似然估计法对基于威布尔分布的环保型电子节能灯寿命数据进行分析的方法;文献[7]提出对电能表数据分析的现场智能电能表故障诊断方案。可是当前分析技术仅仅依靠已有的模型对电能表的状态进行分类,存在时效性差、准确率低的问题。

目前,国网浙江省电力有限公司营销系统为了更好地进行计量装置管理,研究并开发了基于信息融合的电能表状态评价系统的试运行版本[8]。电能表状态评价主要围绕可靠度评价、计量异常评价、全事件评价、电能表过载率评价、时钟电池欠压评价进行。最终将各类评分进行综合得到电能表综合评分,评分高低指示电能表的运行状态。本文对于影响电能表故障的主要因素也选取了这五类进行分析。

社团聚类算法早期主要用于社会学或计算机系统方面的研究,之后也有被运用在机械故障诊断中,在电力系统中的使用目前还没有见诸文献。引入社团聚类算法是为了更好地对数据信息进行深入挖掘,进行电能表故障原因分析。该方法运用社团聚类算法“定位”具体的故障电能表,初步确定故障电能表的故障类型,对电能表发生的故障原因进行准确划分与把控,为更好更精准的进行轮换打下基础。现场人员可根据该方法的分析结果,大致确定需要更换电能表的数量及其编号,可以有效分配各地电能表的数量进行轮换工作,为电力公司进行电能表轮换工作提供指导。

1 社团聚类的算法介绍

社团聚类算法进行低压故障电能表感知分类的优势在于:无须提前确定分类数;适合有多种特征因素的对象。这两个优势使得社团聚类算法与常见聚类算法不同,非常适合用于故障电能表的分类和故障原因分析。

社团划分标准指的是在复杂网络中的社团发现使用网络中的技术将更密切相关的节点划分为单个社团。与此同时,较少的连接节点被分成不同的社团,这是为了保持社团内部结构尽可能接近社团之间节点的逻辑独立性[9]。复杂网络社团结构的聚类算法一般分为两类:整体社团聚类算法和部分社团聚类算法。整体社团聚类算法要求从整个网络入手,网络中每个节点都是要属于一个社团结构;部分社团聚类算法是从网络局部开始,社团挖掘一次仅挖掘一个社团结构,只考虑网络中的部分节点集合[10]。

社区聚类算法在复杂网络中利用某种方法将更密切相关的节点划分在同一社团。在电能表体系中,将整个电能表体系看做是一个复杂网络[11]。将影响电能表日常运行状态的N个故障因素看做是复杂网络的N个节点。存在关联的因素看做是网络节点构成的边。于是,利用社团聚类算法将N个状态量划分为K个社团。将状态评价的每个状态量看做网络结构的节点,网络结构中,有联系的节点是用边联系的,没有联系的则没有边链接。这就像影响电能表好坏有很多故障因素,有些因素之间是有关联的,有些因素之间是没有关联的,通过社团聚类,把影响相近的因素放到一起。

图1 网络社团结构示意图Figure 1 Sketch map of the network community structure

1.1 度与度分布

节点的度被定义为连接到该节点的其他节点的数量。有向网络中节点的度分为入度和出度。简单地说,节点的度越大,该节点在某种程度上地位越高。网络节点的平均度是网络中所有节点度的平均值,记为网络中节点度的分布状况可以用分布函数来描述[12]。

1.2 平均路径长度

网络中两个节点i和j的距离dij被定义为这两个节点的最短路径上的边数[13]。网络中任意两节点之间的距离的最大值被定义为网络的直径(Diameter),记为D,即:

(1)

网络的平均路径长度H被定义为网络中任选两个节点的距离的平均值,即:

(2)

其中N为网络节点数。为了便于数学处理,从节点到其自身的距离包括在公式(2)中(该距离是零)。如果没有考虑从节点到它自身的距离,则公式(2)的右端乘以一个因子(N+1)/(N-1)。

1.3 聚类系数

在每个人的社交网络中,每个人都认识的两个人可能是互相也都认识,这种属性称为网络的聚类属性[14]。通常,假设网络中的节点有条边将其连接到其他节点时,这个节点就被称为节点的邻居节点,在这个节点之间最多存在ki(ki-1)/2条边。实际存在于ki个节点之间的边数E和可能的总边数ki(ki-1)/2之比就被定义为该节点i的聚类系数Ci,即:

Ci=2Ei/(ki(ki-1))

(3)

从几何特点上看,上式的等价公式为:

(4)

上式中,与节点i相连的三元组的概念即为三角形缺少一条边的情况。

所有节点的聚类系数平均值即为整个网络的聚类系数,很明显聚类系数大于0小于1,当所有节点为独立节点时,C=0,整个网络没有连接边;当整个网络中的任何两个节点都连接时,C=1。许多大型复杂网络都具有特征鲜明的聚类效果,这表明一般的复杂网络并不是完全随机分布的,它们在一定规则的基础上也被分成了不同的类别。

1.4 相似度

在复杂网络数据分析的过程中,我们经常需要了解到显著差异是否在个体之间存在,进而了解每一个个体之间的关系甚至整个复杂网络的联系。在数据挖掘的社团聚类算法中,我们需要分析样本的相关性。相似度在复杂网络中就是比较两个节点的相似性。通常我们通过计算两个节点特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。

有两个对象X,Y都包含N维特征,X=(x1,x2,x3,……,xn),Y=(y1,y2,y3,……,yn),计算X和Y的相似性。在社团聚类算法的计算过程中需要用到欧几里得距离(Eucledian distance)进行分析求解。

欧氏距离计算公式为:

(5)

欧式距离计算结果更大,就表示相似度更小。根据网络中节点之间的距离来判断节点相似度主要有四种节点相似度函数,分别是线性相似度、反比例相似度、指数相似度、椭圆相似度。通常我们定义自身的相似度为零。

在社团聚类算法中,经过文献和资料的了解,我们选用指数相似度最为合适[13-14],定义相似度函数为:

aij=exp(-λ*dij)

(6)

根据文献[14]所述,λ取10最为合理。该相似度函数设计的目的是使复杂网络中存在较好的社团结构。社团内部相似度接近,社团之间相似度差异较大。定义节点自身与自身的相似度为0,两个节点之间的相似度相等,所以相似度矩阵A为一个对称矩阵。相似度矩阵为:

(7)

对相似度取合适判别因子φ,当相似度大于φ时设置为1,表示节点和节点之间有联系,当相似度小于φ时设置为0,表示节点和节点之间没有联系。则上式A相似度矩阵变成一个只有0和1的矩阵,该矩阵就为相似度邻接矩阵。

1.5 社团模块度

模块度(Modularity)用于衡量社团划分是否有相对较好的结果[15]。连接社团结构的内部顶点的网络中边的比例减去连接到相同社团结构的任何两个节点的比例。相对较好的结果是社团内节点的相似性较高,而社团外节点的相似性较低。模块化程度越高,社团分类效果越好。模块度的公式为:

(8)

对于有C个社团的网络,社团模块度的公式可以简化为:

(9)

2 社团聚类分类模型建立

在该方法分析过程中均不考虑电能表地区影响因素、外观破损、其他额外信息等,仅考虑电能表数据因素。本文数据来源为国网浙江省电力有限公司数据采集系统,各批次电能表均为公用变压器下单相复费率远程费控(居民用)精度2.0智能电能表。

运用社团聚类算法将浙江省各县区7个批次所有电能表按电能表综合评价模型打分情况进行分类,使用的数据为各个电能表的各影响因素评分(百分制),用到的评价分数有电能表不可靠度评分、电能表计量异常评分、电能表全事件评分、电能表过载率评分、电能表时钟电池欠压评分。本文将电能表综合评价模型的各因素评分结果作为电能表的故障类型判断标准,分类结果为电力公司轮换工作提供指导参考作用,便于电力工人确定故障因素。

故障诊断步骤如下:

(1)输入批次电能表可靠度评分、计量异常评分、全事件评分、过载率评分、时钟电池欠压评分,计算欧式距离、指数相似度、计算聚类系数,设置判别因子φ,构建相似度邻接矩阵A,建立故障样本模型G(X,A);

(2)初始化网络,把数据分为C个子集,保证社团个数大于故障类型;

(3)计算社团模块度Q,计算初始社团合并后每个社团所对应的社团合并指标变化Δφ,找出Δφ中最大值,如果计算结果始终有Δφ>0则继续,直到计算结果Δφ<0为止;

(4)输出Δφ对应的数据分类,实现故障状态分析。

3 实例分析

由于电能表综合评价模型判定整体评分70分以下的电能表为故障电能表的可能性较大,在使用社团聚类进行分类时,根据各个批次整体评分情况确定将各批次70分以下的电能表聚类。

由于社团聚类将各故障因素评分归一化后聚类,聚类过程将数值具有相似性的电能表归为一类,通过不同类别之间的比较,可以将不同类别的故障原因进行区分。电能表某个类别的某一种或几种故障因素有数据且数值较高,所以该类这种故障因素导致电能表故障的可能性最大。批次A由于批次整体打分很低,所以通过筛选的方法选取10分以下电能表共计78块进行社团聚类。

以批次A为例,由于该批次全事件评分均为零,故该批次不考虑全事件评分。批次A不可靠度、计量异常、过载率、时钟电池欠压部分电能表评分如表1所示,由于批次A电能表数量较多,在此只列出部分电能表评分结果。

表1 批次A部分电能表评分Table 1 Batch A electricity meter scores

批次A的78块电能表的各故障原因评分如图2所示,横坐标所写的故障1~4分别代表电能表不可靠度、计量异常、过载率、时钟电池欠压四种故障诱因,纵坐标为评分结果(百分制)。该批次评分归一化后电能表故障原因评分结果如图3所示,横坐标与图2相同,纵坐标为归一化后的电能表评分。

图2 批次A电能表故障因素评分图示Figure 2 Graphics of batch A watt-hour meter fault factor scoring

图3 批次A电能表故障因素评分归一化图示Figure 3 Normalized chart of batch A watt-hour meter fault factor scoring

该批次聚类结果为5类,第一类有41块电能表,第二类有28块电能表,第三类有4块电能表,第四类有3块电能表,第五类有2块电能表。

由于第四类、第五类结果表数较少不具有代表性,在此不做分析。聚类评分归一化后的第一类、第二类、第三类结果示意图分别如图4、5、6所示:

图4 批次A聚类第一类结果图示Figure 4 The first class results of batch A clustering

图5 批次A聚类第二类计算结果图示Figure 5 The second class results of batch A clustering

图6 批次A聚类第三类计算结果图示Figure 6 The third class results of batch A clustering

社团合并后每一类的数据都具有很高的相似性,说明社团聚类算法进行的社团划分具有一定的合理性。通过对社团聚类得出的故障表分析,批次A第一类电能表由于位置1和位置4数值较高,所以第一类可能的故障原因为该类电能表不可靠度较高且时钟异常故障发生较多;第二类电能表由于位置1数值高,所以第二类可能的故障原因为该类不可靠度高且第三类电能表部分出现电能表过载率;第三类电能表由于位置1极高,所以第三类可能出现的故障原因为该类不可靠度极高。

社团聚类各批次分类故障表结果如表2所示。

表2 电能表各批次社团聚类分类类别数Table 2 Cluster classification number of groups in each batch of watt hour meters

批次B,由于该批次中70分以下电能表大多数评分结果在66~70分之间,为减少聚类结果的错误率,通过筛选的方法选择66分以下的电能表共计154块进行社团聚类;批次C、D、E、F、G均选择70分以下电能表进行聚类,聚类对象分别为153、101、202、284、28块电能表数据。

各批次社团聚类分析得出的故障原因如表3所示:

表3 各批次社团聚类分析故障原因Table 3 Community clustering analysis of failure causes of each batch of electricity meters

由于供电公司数据采集到的大部分电能表并未全部检定具体故障原因,在此仅对有故障原因检定结果的电能表进行分类精度计算和可靠性判断。有故障原因检定结果的各批次电能表总和为32块,经模型确定故障原因准确的电能表数量为26块,模型精确率为81.25%,该准确率表明运用社团聚类算法对电能表故障原因进行初步确定具有一定可靠性,可在今后逐渐运用到实际电表检测方面。

运用社团聚类算法对电能表故障原因聚类可以对电能表故障原因进行分析总结,初步确定故障原因便于电力工人拆回检验过程中实际判断,一定程度上为供电公司电能表更换提供指导意义。

4 结 语

经过实例分析,本文提出的基于社团聚类算法初步确定电能表故障原因的方法是可行的。社团聚类模型可对疑似故障电能表的故障原因进行初步判断,以实现未来预测和协助电力工作人员对于电能表故障数量和故障原因的准确把控,可有效减少电力公司及电力工人的工作量,节省大量的人力物力,对故障电能表轮换策略的研究具有重要意义。

本文算法仅考虑电能表数据因素,没有包含电能表地区影响、人为因素等数据无法体现的原因,导致方法具有一定的局限性。在后续研究中将结合影响电能表故障的其他因素,不断完善故障电能表轮换策略方法。

猜你喜欢

电能表社团聚类
缤纷社团
巧数电能表
基于K-means聚类的车-地无线通信场强研究
认识电能表
最棒的健美操社团
基于高斯混合聚类的阵列干涉SAR三维成像
缤纷社团,绽放精彩
电子式电能表技术综述
浅析智能电能表常见故障及处理
基于Spark平台的K-means聚类算法改进及并行化实现