数据挖掘在电网安全性评价中的应用
2010-06-23程政雷霞廖翔马一凯柏晓丽
程政 雷霞 廖翔 马一凯 柏晓丽
(西华大学电气信息学院,成都 610039)
1 引言
安全性评价属于风险管理范畴, 是预防和控制企业事故行之有效的方法[1]。1990年,华北电网公司借鉴国外风险评估等现代安全管理办法,开始了发电机组并网安全性评价,目前已在全国全面推开。随着安全性评价在电力系统中的应用,一些安全性评价管理系统已投入实际应用,但仅仅完成了安评数据的统计以及个别数据的追踪功能,对于查评中隐藏的信息没有进行有效的分析和挖掘。如何处理这些安评数据成为研究的首要问题,数据挖掘技术应运而生。数据挖掘也称数据库知识发现,它从大量的、不完全的、有噪声的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[2]。本文建立了数据挖掘模型,挖掘影响电网安全的危险点,从而指导管理者开展电网安全性评价工作。
2 基本原理
2.1 关联规则基本概念
关联规则挖掘是数据挖掘中的一种重要的数据挖掘模式,最初用于挖掘大型事务数据库中项与项之间的关系,近年来已经被广泛用于文本信息处理中。一般来说,关联规则就是描述数据库中数据项(属性、变量)之间所存在的潜在关系的规则。设I={i1,i2,…,im}是m个不同项目的集合,D是针对I事物的集合,每一笔事物包含若干项目i1,i2,…,ik∈I。关联规则形如X=>Y的蕴含式,其中X⊂I,Y⊂I,X∩Y=Φ。关联规则X=>Y在事务集D中成立,具有两个规则兴趣度度量-支持度和置信度,他们分别反映发现规则的有用性和确定性。
定义 1 支持度 X的支持度是事物集中A出现的事物数与总的事物数之比,即
定义 2 置信度 规则X=>Y的置信度是事物集中X、Y同时出现的事物数与X出现的事物数之比,即
如果规则的支持度大于最小支持度则认为此规则是频繁项集,否则为非频繁项集。同时满足最小支持度与最小可信度两属性的规则称为强关联规则。关联规则挖掘的目的就是从数据库中挖掘出满足用户要求的最小支持度与最小可信度的强关联规则。
2.2 关联规则挖掘一般步骤
挖掘关联规则问题一般可以分解为以下两个子问题:
(1)找出存在于事物数据库中的所有频繁项集,即找出所有支持度满足用户所规定的最小支持度阈值的项集。
(2)用频繁项集生成候选关联规则,然后验证候选关联规则是否满足用户所规定的最小可信度阈值。若满足,该候选关联规则为要找的关联规则。
2.3 Apriori算法简介
关联规则挖掘最常用的算法是Apriori算法。它是 Agrawal等人提出的一种布尔关联规则挖掘算法。这个算法的主要作用之一就是从一个给定的事务数据库中找出现次数满足一定条件的项集组合。Apriori算法使用一种称作逐层搜索的迭代方法,用k项集搜索(k+l)项集。首先通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合L1,然后L1用于找频繁2项集的集合L2,L2用于找L3,如此下去,直到不能再找到频繁 k 项集。找每个 Lk需要一次数据库扫描。Apriori算法的关键是由Lk-1找Lk:先通过Lk-1与自身连接产生候选 k项集的集合 Ck(即连接步),并利用Apriori性质压缩Ck(即剪枝步),然后扫描事物表进行计数,将满足最小支持度的项加入项加入Lk中。
3 关联规则在安全性评价中的应用
3.1 关联规则模型的建立
关联规则模型通过设置最小支持度min_sup和最小置信度min_conf,运用Apriori算法对安全性评价中自查评表的分析,找出影响电网安全性的关联规则,通过关联规则分析电网中存在的危险点。通过查找到的危险点,指导管理人员提出相应的控制措施。图1给出了关联规则模型图。
图1 关联规则模型
3.2 模型的求解
关联规则模型涉及的数据主要是自查评表中的信息。自查评表保存着电网安全性评价中用户自查评时产生的数据,其中包括查评项目、查评得分、得分率等等。本文以自查评的项目为挖掘对象,以自查评表中的得分率和问题严重程度为研究对象。
(1)数据预处理
由于自查评表中数据比较完整、数据易处理的。下面对数据进行如下处理:
1)问题严重程度缺失的处理
在自查评过程中,问题严重程度的缺失是由于用户在填写自查评结果是漏填,因此笔者默认为问题的严重程度为一般。
2)数据的变换
由于自查评表中的得分率为[0-1]区间,问题的严重程度分为一般和严重两种,那么我们现在将数据离散化。将得分率记为 selfrate,问题的严重程度记为plevel。得分率在区间[0-0.5]之间记为 A1;在(0.5-1]之间记为A2。问题一般记为B1;问题严重记为B2。那么自查评表就转化为最终的数据表。如表1所示。
表1 关联规则模型最终事务表
(2)数据挖掘的实现
首先采用Apriori算法生成频繁项集,然后由频繁项集根据最小支持度和最小置信度产生强关联规则。本模型对自查评表中查评项目1.1.1.1项前300次的查评历史数据进行分析,设定最小支持度为0.4,最小置信度为0.5。具体实现过程如下:
1)扫描自查评最终事务表,得到候选 1-项集C1(见图 2)。
2)频繁项集L1自连接,得到候选2-项集C2(见图 3)。
图2
图3
此时,所有的频繁项集均已找出,算法结束。
(3)挖掘结果及解释
本模型对自查评表中查评项目 1.1.1.1项前 30次的查评历史数据进行分析,设定最小支持度为0.4,最小置信度为0.5。最后得到3条强关联规则。例如规则:A1=>B2,其中支持度为42.8%,置信度为 66.7%。意味着当“得分率”在[0-0.5]之间时,“问题严重程度”的概率为 66.7%。那么针对这种得分率低而且问题严重程度高的关联规则,管理者可以对1.1.1.1项提前提出控制措施,达到预防事故的目的。
4 结论
本文介绍了关联规则在电网安全性评价中的应用,并建立了关联规则模型,挖掘电力系统存在的危险点。管理者针对危险点,对电网提出相应的整改措施,对电网安全性评价有一定的指导作用。
[1]王金萍,樊凤林,刘发旺,等.安全性评价在电力企业中的应用研究[J].华北电力技术,2005,(5)∶23-26.
[2]JiaweiHan,Micheline Kambe 著,范明,孟小峰译.数据挖掘概念与技术[M].北京∶机械工业出版社,2007.
[3]国家电网公司.供电企业安全性评价标准[S].北京∶中国电力出版社.2002.
[4]骆嘉伟,彭蔓蔓,陈景燕,等.基于消费行为的Apriori算法的研究[J].计算机工程,2003,29(5)∶72-74.
[5]杨辅祥,刘云超,段智华. 数据清理综述[J].计算机应用研究,2002,19(3)∶3-5.
[6]高艳霞.Apriori算法在学生成绩管理中的应用[J].计算机时代 2009,(8)∶30-31.