APP下载

基于数据挖掘的电网故障诊断研究

2014-02-24康建东刘宇星秦长锋胡建勇中国电力科学研究院100192国网冀北电力有限公司100053

电子测试 2014年23期
关键词:数据仓库贝叶斯数据挖掘

康建东,李 伟,张 隽,刘宇星,秦长锋,胡建勇(中国电力科学研究院,100192;国网冀北电力有限公司,100053)

基于数据挖掘的电网故障诊断研究

康建东,李 伟,张 隽,刘宇星,秦长锋,胡建勇
(中国电力科学研究院,100192;国网冀北电力有限公司,100053)

在实际电网故障诊断中,面临如何从海量数据中找到所发生的连锁故障之间的相互影响关系、以及一个故障发生可能引起其他故障发生的概率问题。本文研究内容是将数据挖掘技术中的聚类分析、关联规则、贝叶斯网络、综合应用于电网故障的处理。首先应用聚类分析技术对电网的故障数据进行故障聚类,其次对数据进行关联规则分析、发现故障之间的相互影响关系,再次基于贝叶斯网络统计分析故障间相互影响的概率问题,最后结合以上分析结果给出辅助决策信息。

数据挖掘;ETL;电网故障;数据仓库;关联规则;聚类分析;贝叶斯网络

0 引言

随着电网规模的不断扩大,电网发生故障时会有大量的故障信息,这些信息被送入了调度中心,调度员应该快速分析故障特征,判断故障设备并尽快恢复用户供电。除了提高调度员自身的业务素质以外,国内科研机构也正在研究利用计算机辅助决策来提高故障的处理效率。如何从大量的故障信息中有效挖掘信息,从信息中及时发现知识,提供给调度员做出相应决策。针对这些问题本文基于数据挖掘技术对电网故障诊断进行研究,给出相应的辅助决策信息供调度员参考。

1)数据挖掘的概念

数据挖掘(Data Mining简称DM)就是从大量、不完全、有噪声、模糊的或者随机的数据中获取有效的、新颖的、潜在有用的、最终可理解的信息和知识的过程。数据挖掘不是简单的数据查询和检索,而是对数据的统计、分析、综合和推理,为决策提供更多可用数据和判据。

2)数据挖掘的分析方法

数据挖掘的方法可粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法可细分为:回归分析、贝叶斯判别、聚类分析、探索性分析、以及模糊集、粗糙集、支持向量机等。机器学习可细分为:决策树、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。神经网络方法可细分为:BP算法、自组织神经网络等。

3)数据挖掘与传统分析方法的区别

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和实用三个特征。

1 基于数据挖掘的电网故障预测

监控设备故障、通道故障等原因会照成电网设备的部分实时参数丢失或者错误,传统的专家系统无法使用历史数据中的规则进行分析,给出决策。因此要在大量的历史数据中找到与当前故障最相近的模型非常困难。因此通过聚类分析、关联规则和贝叶斯网络进行综合应用对电网故障进行有力的判据。

1.1 聚类分析对故障的分析

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,相似度可以根据数据样本的描述属性的具体取值来计算,通常采用数据样本间的距离来表示。通过聚类分析来完成电网故障的相似度处理,进行故障的归类,并可以作为关联规则的预处理工作。

1.2 关联规则对故障的分析

关联规则是从历史数据集合中发现不同数据项之间的相互影响关联关系。下面就故障发生判断故障的区域进行分析。

关联规则定义:给定一组故障信息F={F1,F2,…,Fm}、故障区域A={A1,A2,…,An},故障关联规则是形如R:X => Y的蕴含式,其中X为规则的条件并且是F的模式,Y为规则的结果并且是A的模式。

如果通过关联规则得到表达式为{F1,F2 => A1},既说明由故障F1,F2这些故障信息诊断得出故障区域是A1。

关联规则的项集支持度:

其中support(X)描述项集X出现的概率

关联规则的可信度:

综合上述支持度和可信度指标进行判定故障之间的关联关系结论的有用性。

1.3 贝叶斯网络对故障的分析

贝叶斯网络是以贝叶斯概率为理论基础,最早起源于贝叶斯统计分析,它是概率理论和图论相结合的产物。多用于专家系统,成为不确定性知识和推理问题的流行方法。

贝叶斯网络主要功能是预测和诊断,在贝叶斯网络工作之前,需要对历史数据进行训练。

贝叶斯网络的建立和训练算法,首先把实际问题的事件抽象为节点,第二步建立两个或者多个结节之间的连线。给定一个节点P,PS和QS分别表示节点的两个状态。从历史数据中训练出节点之间的条件概率和联合条件概率,判断故障发生相互影响的可能性概率。

条件概率:

联合条件概率:

2 电网故障挖掘系统架构设

2.1 数据仓库体系结构

电力系统故障数据仓库的系统架构提出是为了简化设计、建模、管理和实现,用于描述各个模块之间的相互关系。电力系统故障数据仓库系统架构如图1所示,数据源包括文件、数据库、设备,是从EMS/SCADA、PMUs、GIS等系统中进行采集的。数据导入包括对数据抽取、转换和加载,在转换过程中对数据进行检查和出错处理。之后将数据加载到数据仓库中并为后续业务提供服务。

2.2 ETL处理过程

应运专门的ETL工具对数据源进行数据的抽取、转换、清洗、装载到数据仓库中。ETL工具实现的功能包括数据抽取和转换装载、源数据建立和数据仓库建模。所以这些数据都保存到数据仓库中,由于各个数据源采用不同的数据存储形式,所以构建数据仓库时必须通过ETL工具将这些数据按一定规则导入到数据仓库中,来保证数据的一致性,达到综合应用各种数据源的目的。

图1 电力系统故障数据仓库系统架构图

1)数据抽取

数据仓库中的大量历史数据主要是从SCADA/EMS、MIS、DBMS、PUMs、GIS等系统中获得。

2)数据转换

数据转换是更改数据的类型、大小、小数位数、精度或者字段为空性等。

转换工具中提供相应的函数对数据的重新格式化、字符串的处理和类型转换进行处理。在转换过程中应该对不同的数据源,列如:TXT、Excel、Doc、DB等进行相应的转换。

3)数据加载

将转换后的数据进行统一、分类加载到数据仓库中,由于关心的主题不同把数据仓库的数据建立各种数据集市。

2.3 多维数据模型建立

由于故障发生的影响因素众多,因此本文设计了PMUs中心数据仓库的数据采集模块,包括PMUs实测数据采集、EMS/SCADA数据采集及其它可利用的数据源采集。根据研究问题的不同建立故障的数据集市。如下图2中间表格是故障的事实,为四周的每一个维度增加一个字段作为维度表的外键,通过外键和事实表进行互联,在此基础上,可以利用OLAP技术进行各种复杂的查询,掌握故障的一些基本信息。

图2 故障星型模式

3 数据挖掘与结果分析

3.1 数据准备

基于冀北电网2011年到2013年期间的事故数据进行聚类分析、关联规则分析、贝叶斯网络分析。与电网故障的类别划分、关联性分析、贝叶斯网络有关的属性项主要包括发生时间、设备名称、故障区域、故障发生原因和类型。

3.2 聚类分析挖掘

对冀北电网故障数据进行故障相似类型的聚类得到故障相应的分类。

(1)利用欧氏距离作为故障数据样本间的相似性度量。

(2)选择评价聚类性能的准则函数。

(3)选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。

3.3 关联规则挖掘

基于聚类分析结果对变压器类故障利用关联规则对其进行分析,设定最小支持度=0.25时生成频繁项集如表1所示。

通过对频繁项集的分析发现在张家口和唐山易发生220千伏变压器跳闸事故,设备的“产品质量”导致事故占比重较大,“产品质量”与“保护装置故障”的关联性较大。

表1 冀北电网故障频繁项集表(部分)

3.4 贝叶斯网络挖掘

根据关联规则分析结果中相应的故障诊断的特点、建立相应Bayes网络结构如图3所示。Bayes网络是由网络结构和条件概率分布表组成。网络结构是一种基于有向无环图的图表模型,由节点和有向弧段组成。

图3 Bayes网络结构图

1) 网络结构图形

上层节点表示故障原因,下层节点表示故障类型。设有故障样本集F={F1,F2,F3…Fn}和故障类型样本集C={C1,C2,C3,C4…Cm}其中n,m分别代表元素个数。假定两个样本集中的所有元素是相互独立的。

2) 节点的条件概率表(CPT)

表中列出了所有故障节点相对应于其故障原因节点所有可能的条件概率值P。例如对于上述的Bayes网络结构,假设故障原因有两个分别是产品质量和保护装置故障,选取与这些故障相关受影响区域得出其条件概率表如表2。

表2 条件概率表(部分)

3.5 结果分析

1) 测试数据

基于冀北电网2011年到2013年期间的事故历史数据。

2) 系统运行结果分析

通过对关联规则的分析可以得出需要的知识。例如:张家口、产品质量和保护装置故障,说明在张家口由于产品质量很容易导致保护装置故障。如图4冀北电网220千伏变压器跳闸故障关联分析部分关联规则图。

图4 变压器故障关联性分析关联规则(部分)

通过对Bayes网络的分析可以得出需要的知识。如图5 所示诊断结论为秦皇岛、廊坊、承德地区由于维护不当导致变压器故障所占概率比重较大,系统建议维护人员在维护过程中多加注意。张家口、唐山地区由于产品质量导致变压器故障所占比重较大,系统建议在选择产品时多加注意。

4 结束语

本文提出的基于数据挖掘技术的电网故障诊断研究方法有如下特点,首先建立了多数据源的中心数据仓库,解决了数据来源的广泛问题,同时根据不同的需求建立了相应主题的数据集市,使数据检索更加方便。其次利用数据挖掘中的三种典型算法分别是聚类分析、关联规则、贝叶斯网络对数据进行分析,最后对三种算法的结果进行综合分析发现未知知识,对电网故障处理给出辅助建议。

[1] 于之虹,郭志忠.数据挖掘与电力系统[J].电网技术,2001,25(8): 58-62

[2] 张克君,李伯群.基于DWLMS模型的分布式web用户访问模式挖掘[J].清华大学学报,2005,45(S1): 62-66

[3] 陈志泊.数据仓库与数据挖掘[M].清华大学出版社,2009

[4] Jiawei Han,Micheline Kamber. 数据挖掘概念与技术.2版.[M].北京:机械工业出版社,2007

[5] 王珊.数据仓库技术与联机分析处理[M].北京科学出版社,1999

[6] 张耀天,何正友,赵静.基于粗糙集理论和朴素贝叶斯网络的电网故障诊断方法[J].电网技术,2007,31(1)

[7] 冯洁,陶宏才.快速挖掘最大频繁项集[J].微电子学与计算机,2007,24(5):123-124

[8] 顾雪平,张文勤,高曙. 基于神经网络和元件关联分析的电网故障诊断[J].华北电力大学学报,1999,(02):12-17.

[9] 霍利民,朱永利,贾兰英. 基于贝叶斯网络的电网故障诊断[J].华北电力大学学报,2004,(03):30-34.

[10] Liu Bing,Hsu Wynne,Ma Yiming.Integrating Classification and Association Rule Mining. In:Proceedings of 1998 International Conference on Knowledge Discovery and Data Mining.NewYork:1998

Power System Fault Diagnosis Research Based on Data Mining

Kang Jiandong,Li Wei,Zhang Jun,Liu Yuxing,Qin Changfeng,Hu Jianyong
(China Electric Power Research Institute,100192;country Ji North Power Co.Ltd,100053)

In actual power grid fault diagnosis,facing how to find out what happened from the huge amounts of data in a cascading fault between the interaction relations,as well as a fault may cause the probability of other fault issues.In this paper,the research content is to clustering analysis and association rules and Bayes Network in data mining technology,comprehensive applied to power grid fault processing.The first application of clustering analysis technology to power grid fault data clustering,secondly,association rules of data analysis,found the mutual influence of relationship between the fault,again based on Bayes Network Statistics analysis of the mutual influence between fault probability problem,finally combining the above analysis results give auxiliary decision-making information.

Data Mining;ETL;Power System Fault;Data Warehouse;Association rules;Clustering Analysis;Bayes Network

图5 变压器故障原因分析图

猜你喜欢

数据仓库贝叶斯数据挖掘
基于贝叶斯解释回应被告人讲述的故事
探讨人工智能与数据挖掘发展趋势
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
基于并行计算的大数据挖掘在电网中的应用
探析电力系统调度中数据仓库技术的应用
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
一种基于Hadoop的大数据挖掘云服务及应用
基于数据仓库的数据分析探索与实践