APP下载

Apriori改进算法及其在电网运营数据关联性测算研究

2017-12-14夏洪涛施永益宋国超

电力科技与环保 2017年6期
关键词:关联性关联电网

夏洪涛,施永益,宋国超

(国网浙江省电力公司,浙江 杭州 310073)

Apriori改进算法及其在电网运营数据关联性测算研究

夏洪涛,施永益,宋国超

(国网浙江省电力公司,浙江 杭州 310073)

针对传统关联性分析Apriori算法需要频繁扫描数据库的缺陷,提出一种改进型Apriori算法,只需对数据库进行一次扫描,有效提高了计算效率。针对电网企业运营状况评价标准,将所得数据分为结果型数据和驱动型数据,采用关联算法计算结果型数据和驱动型数据的关联关系,并采用传统皮尔逊系数验证分析结果。试验结果证明本算法可以有效得出对结果型数据影响较大的数据,有助于对企业运营状况进行管理和决策。

关联分析;电网企业运营;数据挖掘;Apriori算法

0 引言

随着电力行业的信息化发展,电网企业运营所产生的数据也得到了大量增加。对电力大数据进行研究对电能资源的优化配置、能源效率水平的提升、电网企业运营情况的改善有重要意义[1]。电力大数据在电网运营方面的价值在于挖掘运营数据之间的关系和规律,以满足企业电力生产和经营管理的需要;构建能够反应企业运行状况的核心指标和能够支撑核心指标提升的关联性指标[2]。数据挖掘作为从大数据中提取有效信息的方法,被越来越多的应用在各行各业,主要指的是发现数据库中的隐藏信息和潜在模式[3]。作为数据挖掘最重要的分支之一,关联规则挖掘可以找出数据间的相关性关系,其核心思想是基于频集理论的递推方法,识别出数据集中特定项目集之间的关联关系和频繁项等潜在模式[4]。电网企业运营过程中会产生众多数据项,对该组数据进行关联性分析,以找出对关键数据影响最大的数据,从而通过控制基础变化数据来引导关键数据的变化,以实现管理层根据具体的企业运行状况对企业营运进行指导的目的[5]。

关联规则最早的应用是由Agrawal 和Srikan在1994年提出[6]。随后,关联性规则不仅在商业数据分析中扮演了重要角色,也逐渐在众多领域内成功的挖掘出数据的潜在模型和关系[7-8]。

Apriori算法是挖掘关联规则的常见重要算法,主要通过预定义数据组之间的最小支持度和最小置信度值,筛选出数据组满足阈值条件的频繁项,并根据频繁项之间的支持度和置信度,对数据组之间的关联关系进行进一步的量化[9]。虽然经典Apriori算法的表现比不上现有的最新深度优先搜索方法,但是其仍然被认为是最重要的关联性挖掘算法。因为Apriori算法基本思想是寻找给定数据集中所有频繁项,这种通用的思想和操作办法可以应用在任何数据库中的关联性挖掘中。而深度优先搜索算法则既受到所构建FP-tree的结构复杂性制约,又受到记录节点的物理存储消耗的限制[10]。

近年来也有许多国内外学者在此方面进行了大量的研究工作[11-15]。本文通过总结上述已有关联规则Apriori算法的优点,提出一种改进型Aprioris算法,从三个方面提高了算法效率:(1)避免了频繁扫描数据库;(2)缩减了候选集项的数量;(3)加速了联合和修改的过程。并将其应用在电网企业运营数据关联性分析中,对比现有Apriori算法,本文所提出算法有较高的效率。并且为了验证本算法所得数据库中项目之间的相关性,对比现有灰色关联度算法和经验分析法,验证了本算法在提取影响电力企业运营过程中关键数据的有效性。

1 Apriori算法简介

关联规则来源各实物之间的关系,可以从数据库中找出其中的频繁模式项。Apriori算法的基本思想如下:首先第一次扫描数据库,统计得出1-频繁项目集L1,其次第二次扫描数据库,根据统计得出与所得项目集L1相关的2-频繁项目集L2,以此类推,第k次扫描数据库,统计得出k-频繁项目集Lk。其次通过扫描事物数据库D进而剪枝Ck,删除子集不在Lk-1中的k-候选项目集。

本文的主要创新点如下:(1)提出了一个新的搜索策略用以加速搜索频繁项集;(2)通过压缩向量结构减少了物理存储的消耗。

2 改进型Apriori算法

为了避免频繁扫描数据库,本文提出了以下方法:仅对数据库进行一次扫描,对每一个项目得到事物项标识(TID);计算所有项在Lk-1中出现的次数,删除小于k-1的项,将剩余项保存为候选集Ck;在事物标识集Lk-1和L1下,分别计算候选集Ck的支持度;当迭代次数达到|Lk|≤k时,停止算法迭代。

通过上述算法,不仅限制了候选集项,也节省了计算候选集项支持度的时间。

2.1 改进型Apriori算法伪代码

为了清晰表示本文所提算法,采用伪代码形式将本文所提改进型Apriori算法进行描述。

2.2 改进型Apriori算法应用于电网运营分析

结合某电网公司具体运营数据进行分析,首先将企业运行指标按照分为结果型数据和驱动型数据,针对利润总额、资产总额、购电成本、单位资产售电量、电网投资、交流线路长度等55项具体指标,以利润总额等评价指标为结果型数据,选取基础资源、市场状况等为驱动型数据,

参考平衡记分卡理论[16],对企业运行状况体系进行分类,主要可分为:基础资源、市场状况、运营指标、评价指标四类。各类选取十项基础数据,可得指标分类图,具体如图1所示。

图1 电网企业运营指标分布

设利润总额为关键指标,根据某年1月到12月的具体数值计算其变化率,同时计算其他指标的变化率,可得基础项目集X={x1,x2,…,xi},其中i=11,xi={s2,s3,…,s40}为候选集。首先对数据进行无量纲化处理[16]:

式中:max(X)和min(X)分别表示项目集X的最大值和最小值。通过改进Apriori算法,挖掘候选集xi中的频繁项,部分样本数据如表1,计算结果如表2。从表2可以看出,以各项目变化率为项目集时,与利润总额相关性较高的项目分别为:电网检修运营成本,购电成本,流动资金率,售电量和主营利润率。由于预先设定阈值为0.8,故相关性小于0.8的项目忽略不计。

如表2所示,经过频繁项计算,得到对利润总额支持度80%以上的项目。为进一步验证所得结果正确性,采用皮尔逊积矩相关系数分析[18-19]为对比算法。从皮尔逊相关系数平面高层计算结果可以看出,相关性较大的数据项较为集中。其中,强相关的项目有购电成本与售电量,相关性为0.916;流动资金周转率与主营业务利润率,相关性为0.831;利润总额与输配电单位供电成本,相关性为-0.851等。其中与利润总额有关的项目,按强相关性排序分别为:售电量,购电成本,主营利润率,此结果与本文所提出改进型Apriori算法运行结果基本相同。

表1 部分样本数据

时间利润总额/万元购电成本/万元售电量/亿(kW·h)主营业务利润率/%12月41341.9213487139.19254.94.9511月75632.7212346784.81252.895.6510月57810.7511259301.28241.65.49月-40805.6110163115.85290.085.48月57950.228850473.00305.775.787月44743.597574493.07266.165.76月65215.906331644.69265.925.855月52673.575191343.83257.595.734月55837.304069695.57270.245.923月54636.142898861.85177.846.282月53667.502208220.28224.626.151月53636.471187264.43278.317.83

表2 频繁项和其支持度结果展示

项 目支持度电网检修运维成本0.957购电成本0.952流动资金率0.851售电量0.840主营利润率0.831

3 结语

采用改进Apriori算法,在保证计算结果的前提下提高了计算效率,并且应用在电网企业运营数据分析中。结合相关数据处理得到了对企业运营评价指标相关性较大的指标,并且根据传统皮尔逊积距相关系数进行了结果对比。试验结果证明本文所提算法所得结果较传统算法更全面,可以通过基础变化数据对企业运营的评价指标数据进行分析。

[1]中国电力企业联合会规划发展部. 2016年电力供需形势分析预测与建议[J]. 中国电力企业管理, 2016(4).

[2]魏 曼. 基于知识管理的发电企业绩效评估研究[D]. 华北电力大学(保定) 华北电力大学, 2013.

[3]崔 妍,包志强. 关联规则挖掘综述[J]. 计算机应用研究, 2016, 33(2):330-334.

[4]钱宇华, 成红红, 梁新彦,等. 大数据关联关系度量研究综述[J]. 数据采集与处理, 2015(6):1147-1159.

[5]刘福炎. 基于投资关联性分析的配电网投资效益评价体系研究[J]. 浙江电力,2016,(03):68-71.

[6]Agrawal R, Srikant R. Fast Algorithms for Mining Association Rules in Large Databases[C]// International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc. 1994:487-499.

[7]Karimi-Majd A M, Mahootchi M. A new data mining methodology for generating new service ideas[M]. Springer-Verlag New York, Inc. 2015.

[8]Wang J, Li H, Huang J, et al. Association rules mining based analysis of consequential alarm sequences in chemical processes[J]. Journal of Loss Prevention in the Process Industries, 2016(41):178-185.

[9]Borgelt C. Frequent item set mining[J]. Wiley Interdisciplinary Reviews Data Mining amp; Knowledge Discovery, 2012, 2(6):437-456.

[10]Bhandari A, Gupta A, Das D. Improvised Apriori algorithm using frequent pattern tree for real time applications in data mining [J]. Procedia Computer Science, 2015(46):644-651.

[11]Toivonen H.Sampling Large Databases for Association Rules (Proc Vldb, 2000), pp.134-145.

[12]Song W, Yang B, Xu Z. Index-BitTableFI: An improved algorithm for mining frequent itemsets[J]. Knowledge-Based Systems, 2008, 21(6):507-513.

[13]Bhaskar R, Laxman S, Thakurta A. Discovering frequent patterns in sensitive data[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Washington, Dc, Usa, July. DBLP, 2010:4503-512.

[14]Zhao G, Liu Y. An efficient bittable based frequent itemsets mining algorithm[J]. Journal of Shandong University(Natural Science),2015,50(5):23-29.

[15]蔡志江,胡亚平.基于多目标多元非线性规划模型的电力负荷预测方案设计[J]. 电力科技与环保,2013,29(4):5-7.

[16]He, Yongxiu, Xiong, et al. Risk transmission assessment of electricity price chain in China based;on ISM and ECM[J]. International Journal of Electrical Power amp; Energy Systems, 2013, 46(1):274-282.

[17]李玲玉, 郭亚军, 易平涛. 无量纲化方法的选取原则[J]. 系统管理学报, 2016(6):1040-1045.

[18]王 涓, 吴旭鸣, 王爱凤. 应用皮尔逊相关系数算法查找异常电能表用户[J]. 电力需求侧管理, 2014(2):52-54.

[19]张鸿鹄,张 刚,韩永军,等.大规模新能源并网后用户参与调峰及系统仿真[J]. 电力科技与环保,2015,31(4):1-5.

Research on relative data relativity of the operation of power grid enterprise based on Apriori improved algorithm

ProposeanimprovedApriorialgorithm,onlyascanofthedatabase,effectivelyimprovethecomputationalefficiency,forthetraditionalApriorialgorithmrequiresfrequentscanningofthedatabasedefects.Accordingtotheevaluationstandardoftheoperationstatusofthegridenterprise,theobtaineddataisdividedintotheresultdataandthedrivingdata,andthecorrelationrelationbetweentheresultdataandthedrivingdataiscalculatedbytheproposedalgorithm,andthetraditionalPearsoncoefficientisusedtoverifytheanalysisresult.Theexperimentalresultsshowthattheproposedalgorithmcaneffectivelyobtainthedatawhichhasgreatinfluenceontheresultdata,whichcanhelptomanageandmaketheoperationoftheenterprise.

correlationanalysis;powergridoperation;datamining;Apriorialgorithm

TM933

B

1674-8069(2017)06-058-03

国家电网浙江省电力公司科技项目(5211JY15001V);国家电网公司科技项目(5211011600RJ)

2017-07-08;

2017-08-17

夏洪涛(1977-),男,博士,高级工程师,研究方向为计算机。E-mail: yizhongyangping@126.com

猜你喜欢

关联性关联电网
穿越电网
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
奇趣搭配
四物汤有效成分的关联性分析
智趣
如何准确认定排污行为和环境损害之间的关联性
电网也有春天
CRP检测与新生儿感染的关联性
一个电网人的环保路