基于Apriori算法的二次设备缺陷数据挖掘与分析方法
2017-11-13张延旭胡春潮冯善强林冠强
张延旭, 胡春潮, 黄 曙, 冯善强, 林冠强
(1. 广东电网有限责任公司电力科学研究院, 广东省广州市 510080; 2. 广东电网有限责任公司惠州供电局, 广东省惠州市 516000)
基于Apriori算法的二次设备缺陷数据挖掘与分析方法
张延旭1, 胡春潮1, 黄 曙1, 冯善强1, 林冠强2
(1. 广东电网有限责任公司电力科学研究院, 广东省广州市 510080; 2. 广东电网有限责任公司惠州供电局, 广东省惠州市 516000)
为提升电力系统二次设备的运维和管控水平,从二次设备的缺陷数据出发,提出了基于Apriori算法的二次设备缺陷数据挖掘与分析方法。首先,分析了关联规则与Apriori算法的基本思路,然后建立了基于关联规则的二次设备缺陷模型,在模型中考虑了二次设备缺陷的几个重要属性:二次设备的生产厂家、设备类型、设备缺陷的原因、发生缺陷的设备部位以及缺陷等级。进一步,以一组自动化设备缺陷数据为例,阐述了基于Apriori算法的二次设备缺陷数据挖掘和分析方法,分析结果表明所提方法能够用于寻找二次设备的薄弱环节,并能够找到诱发薄弱环节的原因,同时还具有分析设备家族性缺陷等功能。
二次设备; 关联规则; 数据挖掘; Apriori算法
0 引言
二次设备的可靠运行是电力系统安全稳定的重要保障[1]。近年来,随着经济的飞速发展,电网规模不断扩大,电网中二次设备的数量也发生了跨越式的增长,“设备多,人少”的矛盾给二次设备的运维人员带来了相当大的工作负担,同时也给电网运行带来了风险,二次设备的运维和管控水平亟待提高[2-4]。二次设备的运维人员在日常工作中会对所发现和处理的缺陷进行记录和归档,方便日后的查看、统计和分析[5]。这些二次设备缺陷数据中蕴含着大量的有用信息,对缺陷数据进行挖掘和分析将对提升二次设备的运维和管控水平有着重要的意义。但当前对于二次设备缺陷数据的挖掘和分析仍然缺乏理论性和系统性,主要体现在分析方法简单,仅进行简单的分类和统计,对于数据之间的关联关系等重要特性并未涉及,分析结果对二次设备运维和管控的指导意义不大[6]。
当前,数据挖掘已经被应用到电工领域的许多专业中去解决一些重要问题[7-10]。文献[8]在多能源互补协调和“信息—物理—社会”系统深度融合的背景下探讨了数据科学及其在能源互联网中的应用,分析了数据挖掘技术的新进展,并对数据挖掘技术在能源系统中的应用现状进行了回顾与展望。文献[9]引入了聚类分析理论,从数据挖掘的角度对光伏出力进行了建模,并将其用于含光伏发电的系统可靠性评估。文献[10]采用数据挖掘和典型场景模拟思想,提出了一种新颖的基于混合聚类分析的网损评估方法。
但数据挖掘在二次系统分析中的运用并不多,主要侧重于基于数据挖掘实现对二次系统的状态评价。文献[11]将粗糙集与神经网络有效融合,设计了一套改进算法用于将二次设备的基础数据加工处理成状态评价所需要的状态量信息,文献[12]采用数据挖掘技术研制出了一套保护设备故障信息管理与分析系统,为实现继电保护装置的状态检修提供依据,为分析处理电网故障提供决策支持。
本文提出了一种基于Apriori算法的二次设备缺陷数据挖掘与分析方法,分析了关联规则与Apriori算法的基本思路,建立了基于关联规则的二次设备缺陷模型,并以某电力公司自动化装置的缺陷数据为例,阐述了基于Apriori算法的二次设备缺陷数据挖掘方法和基于数据挖掘结果的缺陷分析方法。
1 关联规则挖掘与Apriori算法
1.1 关联规则
关联规则(Association Rules)能够反映事物与事物之间的相互依存性和关联性。如果通过数据的挖掘能够反映两个或多个事物之间存在一定的关联关系,就有助于进一步分析事物与事物间的关联机理,甚至可以通过其中一项事物的发生去预测其他事物的发生。
关联规则的挖掘广泛用于数据挖掘领域,最典型的应用便是对客户购物习惯的分析,在人们日常网购的过程中,常常被网站自动推送的“猜您喜欢”所吸引,这便是关联规则的挖掘给商家和客户所带来的利益与便捷。
关联规则所涉及的一个事物被称为一个项目(Item),由不同的项目构成的集合成为项集I(Itemset),其元素个数称为项集的长度,长度为k的项集称为k-项集(k-Itemset)。被用于关联规则挖掘的样本集Y是项集的一个子集,即Y⊂I,样本的全体构成了样本数据库D。
评价一条关联规则的好坏有两个关键指标:支持度(Support)和置信度(Confidence)。支持度表示某规则有多大可能性发生,置信度表示某规则有多大程度值得信赖。
对于一个项集I的2个子项集A和B(B⊂I,A⊂I,且A∩B=∅)而言,两者的关联规则R可以表示为:
R:A⟹B
(1)
用count(A)来表示样本集Y中包含A的样本数量,用count(B)来表示样本集Y中包含B的样本数量,则项集A的支持度为:
(2)
规则R的支持度为:
(3)
规则R的置信度为:
(4)
关联规则的最小支持度记为Ssupmin,它用于衡量规则需要满足的最低重要性,关联规则的最小置信度记为Cconfmin,它表示关联规则需要满足的最低可靠性。如果规则R满足support(R)≥Ssupmin且confidence(R)≥Cconfmin,则称关联规则R为强关联规则,强关联规则对于指导实际决策具有建设性的意义[13]。
1.2 Apriori算法
Apriori算法是关联规则挖掘中最常用的数据挖掘算法之一。其核心思想是通过候选集生成和向下封闭检测来寻找频繁项集,即利用逐层搜索的迭代方法,利用“K-1项集”来搜索“K项集”。数据挖掘过程主要可以分为以下2步。
1)通过迭代,检索出样本中的所有频繁项集,即支持度不低于用户设定的最小支持度的项集。
2)通过比较频繁项集的置信度和最小置信度,确定强关联规则。
利用Apriori算法进行数据挖掘时需要用到2个重要的Apriori算法性质。
性质1:频繁项集的子集必为频繁项集,例如假设项集{A,B}是频繁项集,则{A}和{B}也为频繁项集。
性质2:非频繁项集的超集一定是非频繁的,例如假设项集{A}不是频繁项集,则{A,B}和{A,C}也不是频繁项集。
基于这2个重要性质,在实际操作中,首先在初始候选项集中基于最小支持度找出频繁“1项集”的集合,该集合记作L1。再基于最小支持度并利用L1频繁搜索“2项集”的集合L2,而L2用于搜索L3。如此下去,直到不能找到“K项集”,搜索每个LK都需要一次数据库扫描[14]。
2 基于关联规则的二次设备缺陷建模
为提高设备缺陷的管理水平,实现设备缺陷的及时处理和日后分析,当前电力公司的设备巡检人员在发现设备异常时,都应及时将缺陷信息录入生产系统,生产系统中管理着历年各设备的缺陷信息,信息量巨大。每一项录入的缺陷涉及多方面的信息子项,这些信息子项主要可以分为3类。
1)与出现缺陷的二次设备本身紧密相关的信息,如设备的生产厂家、设备类型、设备型号、设备的投运时间、发生缺陷的二次设备部位等。
2)针对缺陷的简要评价信息,如缺陷的级别和缺陷的主要原因等。
3)针对缺陷事件本身的发现、处理等流程性的信息,如发现缺陷的时间、处理的时间和所涉及的专业等。
其中,前2类信息主要用于缺陷的事后分析,而第3类更偏向于缺陷的管理。本文针对前2类信息,并考虑部分类型的信息之间存在冗余关系,提取出二次设备的生产厂家、二次设备型号、二次设备缺陷的原因、发生缺陷的设备部位以及缺陷等级等5项重要信息作为数据挖掘和缺陷分析的对象。
在数据挖掘中考虑二次设备的生产厂家与设备类型能有助于分析二次设备的共性问题和家族性缺陷;考虑二次设备缺陷原因和缺陷发生部位有助于分析设备的薄弱环节,为设计、调试和检修等提供建设性的参考依据;考虑缺陷的严重程度能够给不同的缺陷样本提供客观的区分度。
构建关联规则项集Q,用于表示二次设备的缺陷集,如式(5)所示。
Q=(F,N,R,P,L)
(5)
式中:F,N,R,P,L分别为代表不同缺陷类别信息的向量,向量F表示二次设备的生产厂家,向量N表示二次设备类型,向量R代表二次设备缺陷的原因,向量P代表二次设备发生缺陷的部位,向量L表示缺陷的等级。
二次设备的缺陷原因多种多样,主要包括参数设置错误、产品设计问题(如不满足设计要求、不满足反措要求等)、产品质量问题(如工艺、原材料或品控等)、超期服役、接触不良、施工不满足要求、未按要求进行验收以及强电场作用等。二次设备可能发生缺陷的部位包括程序固件、电源模块、功能插板、二次回路以及显示器等。缺陷的级别分为3个层次:一般、重大和紧急。
可见,每一个缺陷样本都是由这5类缺陷信息构建的五维空间上的一个点,通过Apriori算法挖掘最多可能获得频繁“5项集”。假设二次设备共有n个厂家、m个类型、p个缺陷原因、q个缺陷部位以及3个缺陷级别,则初始候选项集共包含有总数为n+m+p+q+3个项,在此基础上基于Apriori算法进行频繁项集的筛选以及关联规则的挖掘。
3 基于Apriori算法的测控装置缺陷分析
从生产系统中导出某电力公司某年度一整年的自动化装置缺陷数据,以此缺陷数据为例,基于Apriori算法对自动化装置的缺陷数据进行关联规则挖掘,并针对所获得的关联规则进行进一步分析,以得出对实际生产有指导意义的结果。
3.1 样本的基本信息
对该电力公司某年度自动化装置的缺陷数据进行简单清理后,共获得1 377条样本。样本中,设备的生产厂家共有96家,设备共包括工作站、测控、时间同步设备和交换机等11类,设备缺陷原因包括接触不良、超期服役、产品设计问题和产品质量问题等13类,设备缺陷发生部位包括程序固件、功能插件和电源模块等20类,缺陷严重程度包括一般、重大和紧急3类。
3.2 频繁集搜索与强关联规则的关系确定
由于样本数较大,而各类型样本数所占比例就相对较低,因此,设置Apriori算法计算的支持度为1.5%,同时设置置信度为60%,则本文样本经过Apriori算法挖掘后所得到的频繁“1项集”为41项,频繁“2项集”为139项,频繁“3项集”为112项,频繁“4项集”为24项以及频繁“5项集”为1项。经过筛选,得出对于分析二次系统缺陷比较有参考意义的关联规则21项,如表1所示。
3.3 基于强关联规则的缺陷分析
对表1所示的强关联规则的分析如下。
1)为了便于分析缺陷数据之间的关联关系,可以基于强关联规则绘制缺陷数据的关联关系图,如根据表1中的关联规则1至4能够绘制如图1所示的关联关系图。在关联关系图中,对部分有重叠的关联规则进行了合并,括号内的数值为支持度和置信度。
由图1可知,厂家A所生产的工作站发生缺陷的原因较为集中,主要体现在超期服役和接触不良两个方面。因此,为了提高厂家A所生产的工作站的运行可靠性,应在设备生产制造中提高设备相关元器件的制造工艺和质量,降低接触不良发生的概率,同时严格控制工作站的服役时间,并在设备运维方面,针对服役时间较长的工作站增加巡维的力度。
表1 基于频繁项集的强关联规则Table 1 Strong association rules based on frequent sets
图1 强关联规则关联关系Fig.1 Relationship of strong association rules
可见,这一类关联规则能够帮助深入分析特定厂家二次设备的缺陷原因,为相关设备的生产制造和运维策略都提供支撑。
2)综合关联规则2,5,6可以看出,厂家A,B,D所生产的工作站的程序固件问题比较突出,而根据关联规则7可知,工作站所发生的程序固件问题,有相当一部分都与不满足标准要求相关,置信度高达85%。同时,根据关联规则8可知,工作站的程序固件缺陷也与产品的设计问题有一定的关联关系。因此,为了提升工作站的运行可靠性,应在厂家A,B,D的制造、出厂和现场验收等环节的标准规范性上对其工作站的程序固件进行有针对性的管控,另一方面,提高程序固件的设计合理性,以降低其程序固件出错的概率。
可见,根据强关联规则,能够在一定程度上体现二次设备的家族性缺陷,同时也有助于分析家族性缺陷的原因,为设备的生产和验收等提供有针对性的参考依据。
3)由强关联规则9至11可知,厂家C和厂家D的测控存在超期服役的问题较为突出,同时,厂家D的测控存在接触不良的问题较为突出。而通过关联规则12和13可知,测控装置的超期服役问题很大程度上体现在了电源模块的缺陷,而接触不良问题很大程度上体现在了辅助元器件的缺陷,置信度分别达到73%和62%。可见,解决厂家C和厂家D测控超期服役的问题,主要应从提升其电源模块的可靠性入手,在设计和制造上提升其质量,在运维层面加强对其的巡维力度。
而解决厂家D测控接触不良的问题,应重点针对其辅助元器件的质量进行改进,通过强关联规则14也验证了这一点。针对测控装置接触不良问题提出解决方案有助于整体提升电力系统监控功能的可靠性。
4)由强关联规则15可知,对于厂家E所生产的测控装置而言,程序固件问题是其家族性缺陷,更应该值得注意的是,关联规则16指出,测控装置的程序固件缺陷很大程度上属于重大缺陷,对电力系统稳定运行的威胁较大。因此,为提高测控装置的可靠性,应重点针对厂家E的程序固件提出管控措施,从程序的设计、编写和出厂以及现场验收等环节对其进行严格把关,有利于降低测控装置故障率,提高电网遥信、遥测信息的可靠性以及遥控功能的可依赖性。
5)由强关联规则17至19可知,功能插件是交换机的薄弱环节,而超期服役是交换机功能插件缺陷的主要原因,更应该值得注意的是,关联规则19指出,交换机的功能插件缺陷很大程度上属于重大缺陷,对电力系统稳定运行的威胁较大。因此,为提升交换机的运行可靠性,应针对服役时间较长的交换机进行有针对性的巡维,并及时更换超期服役的功能插件。
6)此外,根据强关联规则20和21可知,时间同步设备的薄弱环节是其功能插件,而二次回路也是测控装置的薄弱环节之一。因此,为了提升测控装置和时间同步设备的运行可靠性,应针对薄弱环节,在设计、生产和运维中有相应的侧重。
4 结论
本文基于Apriori算法对二次设备缺陷数据挖掘与分析方法进行了研究,并以算例分析的方式将该方法应用到某电力公司自动化装置的缺陷数据挖掘和分析中。通过分析缺陷数据挖掘的结果,得到如下结论。
1)该方法能够有效分析二次设备的薄弱环节,并能够找到诱发薄弱环节的原因,给二次设备运维和管控提供参考依据。
2)该方法能分析出二次设备生产厂家的家族性缺陷,对同一厂家的设备验收和运维具有指导意义。
3)该方法能够分析各厂家在生产设备时存在的问题,使得设备质量的改进方案更加具有针对性。
但由于从生产系统中导出的设备缺陷数据在描述同一对象时存在一些表述上的差异或信息残缺,因此,在对设备缺陷进行分析之前需要进行数据清理。但当前本文主要采用人工数据清理的方式,虽然生产系统中管理着海量的设备缺陷信息,但由于数据清理的效率低,一定程度上限制了本文方法对于海量缺陷数据的分析能力。在下一步工作中,将着手解决数据清理的效率问题,届时将本文方法应用于分析生产管理系统中的海量数据,以期获得对电力系统安全稳定运行更加有意义的结论。
[1] 郭创新,陆海波,俞斌,等.电力二次系统安全风险评估研究综述[J].电网技术,2013,37(1):112-118.
GUO Chuangxin, LU Haibo, YU Bin, et al. A survey of research on security risk assessment of secondary system[J]. Power System Technology, 2013, 37(1): 112-118.
[2] 曹楠,王芝茗,李刚,等.智能变电站二次系统动态重构初探[J].电力系统自动化,2014,38(5):113-121.DOI:10.7500/AEPS20130518007.
CAO Nan, WANG Zhiming, LI Gang, et al. Study on dynamic reconfiguration in secondary system of intelligent substation[J]. Automation of Electric Power Systems, 2014, 38(5): 113-121. DOI: 10.7500/AEPS20130518007.
[3] 袁浩,屈刚,庄卫金,等.电网二次设备状态监测内容探讨[J].电力系统自动化,2014,38(12):100-106.DOI:10.7500/AEPS201210277.
YUAN Hao, QU Gang, ZHUANG Weijin, et al. Discussion on condition monitoring contents of secondary equipment in power grid[J]. Automation of Electric Power Systems, 2014, 38(12): 100-106. DOI: 10.7500/AEPS201210277.
[4] 王冬青,李刚,曹楠.智能变电站保护功能自动校验研究[J].电网技术,2012,36(1):7-11.
WANG Dongqing, LI Gang, CAO Nan. Research on automatic checking of protection functions for smart substation[J]. Power System Technology, 2012, 36(1): 7-11.
[5] 雷立超,高山,徐芳.水电厂二次设备检修维护中缺陷分析处理的常用方法[J].水电与新能源,2016(8):35-37.
LEI Lichao, GAO Shan, XU Fang. Defect analysis and treatment in the maintenance of the secondary equipment in hydropower plants[J]. Hydropower and New Energy, 2016(8): 35-37.
[6] 宫宇,吕金壮.大数据挖掘分析在电力设备状态评估中的应用[J].南方电网技术,2014,8(6):74-77.
GONG Yu, LÜ Jinzhuang. Application of big data mining analysis in power equipment state assessment[J]. Southern Power System Technology, 2014, 8(6): 74-77.
[7] 马瑞,周谢,彭舟,等.考虑气温因素的负荷特性统计指标关联特征数据挖掘[J].中国电机工程学报,2015,35(1):43-51.
MA Rui, ZHOU Xie, PENG Zhou, et al. Data mining on correlation feature of load characteristics statistical indexes considering temperature[J]. Proceedings of the CSEE, 2015, 35(1): 43-51.
[8] 赵俊华,董朝阳,文福拴,等.面向能源系统的数据科学:理论、技术与展望[J].电力系统自动化,2017,41(4):1-11.DOI:10.7500/AEPS20160813002.
ZHAO Junhua, DONG Zhaoyang, WEN Fushuan, et al. Data science for energy systems: theory, techniques and prospect[J]. Automation of Electric Power Systems, 2017, 41(4): 1-11. DOI: 10.7500/AEPS20160813002.
[9] 郭一飞,高厚磊,田佳.引入聚类分析的光伏出力建模及其在可靠性评估中的应用[J].电力系统自动化,2016,40(23):93-100.DOI:10.7500/AEPS20160301008.
GUO Yifei, GAO Houlei, TIAN Jia. Photovoltaic output modeling by introducing clustering analysis and its application in reliability evaluation[J]. Automation of Electric Power Systems, 2016, 40(23): 93-100. DOI: 10.7500/AEPS20160301008.
[10] 李昀昊,王建学,王秀丽.基于混合聚类分析的电力系统网损评估方法[J].电力系统自动化,2016,40(1):60-65.DOI:10.7500/AEPS20150119008.
LI Yunhao, WANG Jianxue, WANG Xiuli. A power system network loss evaluation method based on hybrid clustering analysis[J]. Automation of Electric Power Systems, 2016, 40(1): 60-65. DOI: 10.7500/AEPS20150119008.
[11] 王师霜.二次设备状态评价数据挖掘技术的研究与应用[D].保定:华北电力大学,2013.
[12] 李勋,龚庆武,杨群瑛,等.基于数据挖掘技术的保护设备故障信息管理与分析系统[J].电力自动化设备,2011,31(9):88-91.
LI Xun, GONG Qingwu, YANG Qunying, et al. Fault information management and analysis system based on data mining technology for relay protection devices[J]. Electric Power Automation Equipment, 2011, 31(9): 88-91.
[13] 赵洪英,蔡乐才,李先杰.关联规则挖掘的Apriori算法综述[J].四川理工学院学报(自然科学版),2011,24(1):66-70.
ZHAO Hongying, CAI Lecai, LI Xianjie. Overview of association rules Apriori mining algorithm[J]. Journal of Sichuan University of Science & Engineering (Natural Sicence Edition), 2011, 24(1): 66-70.
[14] 崔贯勋,李梁,王柯柯,等.关联规则挖掘中Apriori算法的研究与改进[J].计算机应用,2010,30(11):2952-2955.
CUI Guanxun, LI Liang, WANG Keke, et al. Research and improvement on Apriori algorithm of association rule mining[J]. Journal of Computer Applications, 2010, 30(11): 2952-2955.
Apriori Algorithm Based Data Mining and Analysis Method for Secondary Device Defects
ZHANGYanxu1,HUChunchao1,HUANGShu1,FENGShanqiang1,LINGuanqiang2
(1. Electric Power Research Institute of Guangdong Power Grid Co. Ltd., Guangzhou 510080, China; 2. Huizhou Power Supply Bureau of Guangdong Power Grid Co. Ltd., Huizhou 516000, China)
To enhance the maintenance and management level of secondary devices in the power system, a data mining and analysing method for secondary device defects based on the Apriori algorithm is proposed. Firstly, the basic ideas of association rules and Apriori algorithm are analyzed. Then a secondary defect model based on association rules is proposed, in which several important properties of secondary equipment defects (including secondary equipment manufacturer, device type, causes of device defects, position of device defect and defect levels) are taken into account. Furthermore, by taking the defect data of automation equipment as examples, the defect data mining and analyzing method based on data mining results are presented. Analysis results show that the proposed method is able to search for the weaknesses of secondary devices and the causes of weaknesses, while enunciating the family defects of devices.
secondary device; association rule; data mining; Apriori algorithm
2017-03-06;
2017-06-09。
上网日期: 2017-08-04。
张延旭(1988—),男,通信作者,博士,工程师,主要研究方向:电力系统保护、控制及其自动化。E-mail: 13560121482@139.com
胡春潮(1984—),男,硕士,工程师,主要研究方向:继电保护和智能变电站。E-mail: huchunchao@139.com
黄 曙(1979—),男,硕士,教授级高级工程师,主要研究方向:智能变电站新技术。
(编辑 蔡静雯)
( continued on page 163)( continuedfrompage151)