APP下载

电力系统中的数据挖掘技术

2014-03-26纪怀猛

长春工业大学学报 2014年2期
关键词:数据模型决策树数据挖掘

纪怀猛

(福州大学阳光学院,福建福州 350015)

0 引 言

由于科技水平的提高和发展,数据库技术越来越多地应用在各行各业中。现有的绝大多数数据库的功能是对数据进行录入、查询及统计等,并且处理后的信息只是当作数据库信息的一部分。如果只是经这样简单的处理,根本就无法正确地对数据的整体性质进行描述,更不用说预测数据的发展方向了。随着数据挖掘技术在数据库中的应用,可以挖掘出许多有用的数据和数据模型,根据挖掘出来的有效信息,可以做出高效的决策。电力系统作为国家重要能源部门,在社会日常生产中有着不可替代的作用,它能否安全运行将直接影响到社会的各行各业能否正常运作,因此必须要确保电力系统安全运行[1]。对电力系统的运行状态进行实时的监控,对运作性能进行查看分析和综合评估,对电力设备的故障进行分析、诊断以及维修,已经变得越来越不可缺少。

1 数据挖掘技术背景知识

近年来,随着数据仓库和统计学等技术水平的提高而出现的一种多领域综合的、新型的数据处理技术——数据挖掘。数据挖掘是指从海量的数据中找出隐藏的、有用的数据模型的过程[2]。针对使用的数据多次使用相应数据挖掘算法从中找出符合要求的数据模型。即是根据预先假定的目标,对海量的数据进行分析处理和挖掘,找出其中隐含的、有用的信息,然后进一步把信息模型化和高效的技术处理过程[3]。随着数据库、计算机技术水平的快速提高和发展,数据挖掘已越来越多应用在各行各业中。

数据挖掘技术与已有的数据分析方式的主要区别是它们在发现数据关系时所使用的方法上有很大的区别。已有的数据分析方式主要使用的是基于验证、分析的方法。然而,数据挖掘使用的是基于发现的方法。数据挖掘采用特有的挖掘算法来分析出数据之间的关系。知识发现过程如图1所示。

图1 知识发现过程

现在对知识发现过程有很多种说明方式,不过它们没有多少本质上的不同。以下简要地描述一下知识发现过程:

1)问题的认识和定义。技术人员与问题领域人士一起深入地理解和分析问题,描述出可能的解决方案和对模型结果的评估方法。

2)数据集成和选择。在文件或数据库中收集相关的数据。

3)数据变换和清理。消除噪声和删除不同的数据,然后通过数据的聚集操作把数据变换为一种统一的形式,方便数据挖掘。

4)算法选择和运行。通过问题的定义和数据的描述形式来确定挖掘算法,然后根据确定的挖掘算法从数据中找出模型。

5)模式评估。根据问题的某种兴趣度量来找出真正有用的模型。由问题的处理人来评价模型的符合度和高效性。

2 数据挖掘的常用算法

数据挖掘的算法很多,常用的几种算法如下。

2.1 K-Means算法

K-Means算法是一个聚类算法,接受的输入为k,根据数据的属性把n个数据划分为k个聚类,k<n。K-Means算法根据各个聚类中数据的均值来获取数据中自然聚类的中心。它以数据来自于空间向量为前提,并且以各个数据组的内部方差总和最小为目标。

2.2 C4.5算法

由于ID3算法在实际的应用中存在缺陷,于是提出了C4.5算法。C4.5算法是一种分类决策树算法,它包含了ID3算法的优点,并针对ID3算法的缺点进行了一些改进:

1)能够离散化处理连续的属性;

2)在树构造过程中进行剪枝;

3)能够处理不完整数据;

4)选择属性的依据是信息增益率。

C4.5算法有如下优点:可以生成易于理解、准确率较高的分类规则。但是在产生树的过程中,需要对待处理的数据进行多次顺序遍历和排序,降低了该算法的效率,这也是它的缺点。

2.3 K最近邻分类算法

K最近邻分类算法是一种机器学习算法,在理论上比较成熟。该方法的思路是:如果一个样本在特征空间中的k个最邻近的样本中的大部分都属于其中一个类别,那么这个样本也属于这个类别。

2.4 分类与回归树

分类与回归树是采用一种二分递归分割的技术生成的结构简洁的决策树。其中有两个关键的思路分别是递归地划分自变量空间和用验证数据进行剪枝[4]。

3 挖掘技术在电力系统日常运行中的应用

近年来,数据挖掘越来越多地应用在电力系统日常运行中。主要包括:

1)电力系统日常负荷调度;

2)电力系统日常负荷预测;

3)电力系统动态安全评估;

4)电力系统故障诊断等。

3.1 数据挖掘在电力系统日常调度中的应用

日常调度是电力系统一项非常重要的工作,主要是实时处理电力系统中的海量信息,并且对实时信息快速做出反应。由于电力系统服务的对象是整个社会,电力系统的调度中心首先要考虑系统能否安全可靠的运行,其次还要考虑国家的经济利益。综合以上因素,制定出较为合理的调度策略和符合市场要求的电价。要做出符合要求的调度策略,就不得不引入数据挖掘技术。我们可以把运行状态分为:1)正常状态;2)警戒状态;3)紧急状态;4)测试状态;5)恢复状态。如果电力系统的某一状态被确定下来,就要将相应的操作方式传递给工作人员,让他们完成工作。挖掘算法可以帮助我们对实时信息进行集成处理,获得更加准确的数据,从而更迅速地下达有效的操作方式,而且还可以获取电力系统的整体运行情况。比如说电力系统中某些器件出现故障,能够快速地响应并定位故障,从而修复故障。

3.2 挖掘技术在电力系统日常负荷预测中的应用

电力系统日常运行中的另外一项非常重要的工作是负荷预测,它涉及到各个电厂、电站新一年的生产计划。是否能够准确预算出社会用电量,这会直接影响电力部门能否高效地满足社会生产需求以及国家的经济效益。根据电力系统历史负荷数据以及社会生产的变动情况,并集合数据挖掘算法和决策工具,可以设计出基于决策树的数据模型,然后在日常电力负荷预测中应用数据挖掘。统计分析结果表明,文中数据模型完全符合实际需求,它能够高效、准确地预测出日常的电力负荷[5]。根据自适应决策树,对电力系统数据库中的用户信息,比如用电记录、天气以及季节等信息进行分析预测,可以帮助电力部门制定出合适的营销策略。

3.3 挖掘技术在电力系统故障中的应用

电力系统故障诊断对于电力系统的稳定运行有重要的作用,主要根据电力系统保护装置信息和继电保护信息来鉴别电力故障的器件类型、故障所在位置,从而确定产生错误操作的装置[6]。

数据挖掘在电力系统故障中的模型设计如图2所示。

图2 数据挖掘在电力系统故障中的模型设计

该模型主要分原始数据收集、数据抽取和精化、数据仓库以及数据挖掘4个阶段。原始数据收集作为该模型的底层,主要负责收集故障原始数据,并将故障数据传输至数据监视器;故障数据到达第二阶段后,对故障数据进行分析,将故障数据进行有序的分类,包括故障时间、故障类型、故障位置等信息进行统计。整理好的数据输送到数据仓库之中保存,并为数据挖掘所使用,及时反馈相关数据。

在该模型中,数据挖掘阶段是核心部分,对于小型电力系统和变电站的故障诊断中较适合使用基于粗糙集理论的挖掘模型。不过该模型在处理发生许多故障叠加的情况时,出现了不适应的情况,粗糙集方法将出现十分巨大的决策表,甚至会产生组合数据量过大等问题[7]。因此,在处理变电站故障时,可以采用决策树的方式。它可以高效地找出以及描述出故障诊断信息,还可以获得具有高效的决策树形式表示的数据模型。对于电力系统这个复杂的大系统而言,可采用一种粗糙集理论的决策表约简新算法,在电网故障诊断中应用故障所对应的综合知识库模型。在处理离散数据中非常适合采用粗糙集理论,在调度部门和各个发电厂之间存在着许多连续属性的数据,因此需要离散化实测数据,然后利用粗糙集理论对数据进行综合分析、集成处理,这样可以及时地处理好电力系统故障。

3.4 数据挖掘在电力系统中运行状态监控中的应用

采用数据挖掘中决策树的划分方法,可以把电力系统的运行状态划分为正常、异常两种状态。在系统数据中,依据数据挖掘的相应算法对数据进行自动处理,直到运行状态变为正常状态为止,运用所提取出的对安全运行有用的信息,从中可以找出电力系统中可能存在的导致系统异常的因素,并且可以综合分析出系统的安全性和可靠性,得到提高电力系统安全可靠运行的解决方案。电力系统的工作人员能够根据数据模型所得出的运行状态的监控信息及故障的预测诊断结果,详细检查电力系统的各种运行状况,并针对发现的问题迅速做出响应,这样可以减少器件的维修成本,延长器件的使用周期,从而确保系统安全可靠地运行。

3.5 数据挖掘实例模型分析

根据某省从2008-2012年的社会实际用电量,采用以决策树算法模型和模糊聚类模型,对2008-2012年的用电情况进行预测,将其预测的值进行对比分析。某省2008-2012年社会用电量误差分析见表1。

表1 某省2008-2012年社会用电量误差分析 ×108 k W·h

由表1可以看出,基于决策树算法模型的预测结果和基于模糊聚类模型的预测结果的误差值均小于标准要求,其中,决策树算法模型预测的结果更接近于真实值。

某省社会用电真实值与预测值曲线如图3所示。

由图3可以看出,我们提出的基于决策树算法的模型对预测结果的误差较小,在与真实值的比较中最大误差为2.1%,在可以接受的范围之内。其中,2012年的用电预测值与真实值完全吻合。因此文中提出的数据挖掘模型是可行和实用的。

图3 某省社会用电真实值与预测值曲线图

4 结 语

介绍了数据挖掘技术基本概念,较为详细地分析了在电力系统各个日常运行中挖掘技术应用情况。与已有的分析方式相比较,数据挖掘计算高效,能更好地管理和检测电力系统的运行状态和故障信息,因此非常适合于电力系统这种大型复杂的系统。数据挖掘在电力系统的很多方面都有应用,并且效果明显。但从我国目前的应用来看,数据挖掘技术还没有大规模和普遍使用,而且数据挖掘本身还有很多问题需要解决,如数据挖掘算法的高效性、数据挖掘模型的通用性等。因此,想要在电力系统中更多地使用数据挖掘技术,还需要对数据挖掘技术进一步探讨和研究。

[1] 郭创新,朱传柏,曹一家,等.电力系统故障诊断的研究现状与发展趋势[J].电力系统自动化,2006,30(8):98-103.

[2] 王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004,32(2):246-252.

[3] 宋佳丽,刘晓梅,王莉莉,等.基于数据挖掘技术的网络入侵检测系统[J].长春工业大学学报:自然科学版,2003,24(4):26-28.

[4] 麋元振.数据挖掘方法的综述[J].南京化工大学学报,2001(5):110-195.

[5] 陈红坤,黄娟.数据挖掘及其在电能质量分析中的应用[J].电力系统及其自动化学报,2009(5):51-55.

[6] 白雪峰,倪以信.电力系统动态安全分析综述[J].电网技术,2004,28(16):14-19.

[7] 束洪春,孙向飞,于继来.粗糙集理论在电力系统中的应用[J].电力系统自动化,2004,28(3):90-95.

猜你喜欢

数据模型决策树数据挖掘
探讨人工智能与数据挖掘发展趋势
一种针对不均衡数据集的SVM决策树算法
面板数据模型截面相关检验方法综述
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
财政支出效率与产业结构:要素积累与流动——基于DEA 和省级面板数据模型的实证研究
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于分位数回归的电力负荷特性预测面板数据模型