基于数据挖掘的短期用电负荷预测

2018-07-31陈钧袁海林王双

科技视界 2018年11期

关键词：决策树数据挖掘

陈钧　袁海林　王双

【摘要】本文采用数据挖掘技术，基于用户用电和电网负荷信息，结合天气、经济、假日、社会事件等等外部因素，构建短期市场电力负荷分析模型，预测各级供电单位1-7天用电负荷曲线，为电力行业电网规划、电能调配等提供决策支持。

【关键词】数据挖掘；决策树；电力负荷预测

中图分类号： TM715 文献标识码： A 文章编号： 2095-2457（2018）11-0004-003

DOI：10.19694/j.cnki.issn2095-2457.2018.11.002

【Abstract】This paper adopts the big data analysis technology， based on the users' electricity and power grid load information， combined with the weather， economy， holiday， social events and other external factors， constructs the short-term power load analysis model， to predict the 1-7 day power load curve of the power supply units at all levels， which provides the decision support for the planning of the power grid and the power distribution in the power industry.

【Key words】Data mining； Decision tree； Power load prediction

0 引言

隨着我国电力事业的发展，电网的管理日趋现代化，电力系统负荷预测问题的研究也越来越引起人们的注意，现在已经成为了现代电力系统运行研究中的重要课题之一[1]。负荷预测可以分为长期、中期、短期、超短期以及节日预测。其中短期负荷预测是电网规划建设的依据，是电力系统安全运行的前提，随着分时电价方式的推广和电力市场化改革的深入，电力公司力求及时、准确地把握负荷变化的信息，将负荷预测的重要性和迫切性提到前所未有的高度，同时也对负荷预测的精度提出更高的要求。

本文将数据挖掘技术应用到短期用电负荷预测中，基于用户用电和电网负荷信息，结合天气、经济、假日、社会事件等等外部因素，构建短期市场电力负荷分析模型，预测各级供电单位1-7天用电负荷曲线，为电力行业电网规划、电能调配等提供决策支持。

1 短期用电负荷预测算法

负荷预测方法可分为确定性负荷预测方法和不确定性负荷预测方法。其中确定性负荷预测方法是把电力负荷预测用一个或一组方程来描述，电力负荷与变量之间有明确的一一对应关系，包括时间序列预测法、回归分析法、经典技术预测法、趋势外推预测法等。而为了解决实际电力负荷发展变化规律非常复杂不能用简单的显式数学方程来描述期间的对应和相关这一问题，随着大数据分析挖掘理论和技术的发展[2]，产生了一类基于大数据类比对应等关系进行推理预测的不确定性预测方法。

结合短期用电负荷预测具体需求，充分调研分析当前负荷预测典型算法的适用场景及优缺点，选取曲线聚类和决策树用于预测单个用户的用电负荷数据，选取时间序列用于预测分行业的用电负荷数据，最后用线性回归修正系数，形成最终结果。

1.1 典型算法

1.1.1 功能算法-曲线聚类

聚类是将数据分类到不同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。

采用K-MEANS聚类算法，对历史负荷数据进行聚类分析。将历史负荷数据作为历史数据集，针对每天的负荷数据曲线，将形状特征相近的两个归为一类，最终将所有零散分布的独立样本逐渐归为趋势相近的若干类，完成聚类。

1.1.2 功能算法-决策树分类

决策树学习是资料探勘中一个普通的方法。在这里，每个决策树都表述了一种树型结构，它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。决策树的每一个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点，多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题，从已知类标记的训练样本中学习并构造出决策树是一个自上而下、分而治之的过程。

采用C50算法，根据指标列取的数据，分行业带入决策树模型。划分到不同的聚类结果中。根据第一部分聚类模型的中位数值，作为此用户的用电负荷值预测结果[3-4]。

1.1.3 功能算法-时间序列

时间序列预测主要是以连续性原理作为依据的。连续性原理是指客观事物的发展具有合乎规律的连续性，事物发展是按照它本身固有的规律进行的。在一定条件下，只要规律赖以发生作用的条件不产生质的变化，则事物的基本发展趋势在未来就还会延续下去。时间序列预测就是利用统计技术与方法，从预测指标的时间序列中找出演变模式，建立数学模型，对预测指标的未来发展趋势做出定量估计。

采用HoltWinters指数平滑算法，根据各大行业用电负荷数据，预测未来几天内可能的用电负荷值[5]。

1.1.4 功能算法-回归修正

在统计学中，线性回归（Linear Regression）是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。变量的相关关系中最为简单的是线性相关关系，设随机变量与变量之间存在线性相关关系，则由试验数据得到的点，将散布在某一直线周围。这种函數是一个或多个称为回归系数的模型参数的线性组合。分析按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。如果在回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。

将决策树的单个用户结果进行汇总形成行业数据结合实践序列的各个行业数据进行回归系数修正，并根据数据及时更新形成新的系数，产生更准确的结果。

1.1.5 特征选择

特征选择也叫特征子集选择（ FSS ， Feature Subset Selection ）。是指从已有的M个特征（Feature）中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高学习算法性能的一个重要手段，也是模式识别中关键的数据预处理步骤。对于一个学习算法来说，好的学习样本是训练模型的关键。

在代入变量之前，进行特征选择。删除变量值都为空的变量，删除变量值只有一个相同数值的变量，删除变量之间完全相同的变量。最后根据决策树的变量重要性结果将重要性低于1%对模型影响甚微的变量一并删除。

1.2 算法选择

1.2.1 聚类算法

聚类算法常用的算法包括系统聚类法、动态聚类法（k-means）。

系统聚类一次形成之后就不能再改变，这需要一次分得比较准确，对分类的方法有很高的要求。相应的计算量也会很大比如Q型系统聚类法聚类的过程是在样本间距离矩阵的基础上进行的。当样本容量很大时，需要占用足够的计算机内存，而且在并类过程中，需要将每类样本和其他样本间的距离。逐一加一比较以决定应该合并的类别，需要很长的计算时间，不适用于海量数据样本。

动态聚类法又称为逐步聚类法基本思想是开始先粗略地分一下类，然后按照某种最优原则修改不合理的分类，直至类分得比较合理为止。适用于大样本的聚类分析。所以选择动态聚类（k-means）方法。

1.2.2 分类算法

常见的分类模型算法包括传统方法和现代方法。其中传统方法有线性判别法、距离判别法、贝叶斯分类器等；现代方法有决策树、支持向量机、神经网络等。

由于代入变量较多所以应该选择更加智能的决策树或者神经网络算法。神经网络算法不允许有缺失值，但是决策树能更好的处理缺失值的问题。由于数据样本有较多缺失值，所以选择决策树。

1.3 过程说明

动态聚类算法后将化为一类的96个曲线值进行比较分析，大体曲线区间以及走势相同，说明此算法较好，如图1所示。

R语言的决策树算法包包含（C50、party、rpart）。根据三种算法比较，raprt运行过程最慢，耗时较长。C50最快并且准确率高于party算法。并且C50算法执行效率和内存使用更适用大数据集。由于变量有部分缺失值较多，C50算法面对数据遗漏和输入字段很多的问题时非常稳健。同时C50比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释。故最终选择C50算法，C50算法决策树的变量重要性如图2所示。

2 短期用电负荷预测建模过程

2.1 主要流程

短期用电负荷预测建模主要包括以下三部分工作：

（1）基于按时间顺序排列的负荷序列数据完成对未来7天用电负荷的预测；

（2）基于行业、天气等多因素及负荷曲线数据完成对历史负荷的曲线聚类并完成对未来用电负荷的分类预测；

（3）基于前2步模型的结果进行回归系数的修正，产生更准确的预测结果，前2步模型可扩展添加。

主要流程如图3所示。

2.2 模型评估

代入某市电力公司2017年12月数据并且以行业最多的工业为例准确率如表1所示，准确率可满足需求。

表1 模型准确率统计

3 总结

本文将决策树、时间序列等数据挖掘技术应用到短期用电负荷预测中，基于用户用电和电网负荷信息，结合天气、经济、假日、社会事件等等外部因素，构建了短期市场电力负荷分析模型。经代入某市电力公司2017年12月数据，短期负荷预测精度接近90%，可为电力行业电网规划、电能调配决策等提供有效的数据支撑。在未来的研究中，将进一步扩大样本数据量，持续完善预测算法以及回归模型修正工作，以进一步提高预测精度。

【参考文献】

[1]钟清，孙闻，余南华，等.主动配电网规划中的负荷预测与发电预测[J].中国电机工程学报，2014，34（19）：3050-3056.

[2]中国电机工程学会信息化专委会.中国电力大数据发展白皮书[S].北京：中国电力出版社，2013.

[3]栗然，刘宇，黎静华，等.基于改进决策树算法的日特征负荷预测研究[J].中国电机工程学报， 2005， 25（24）：36-41.

[4]李响，黎灿兵，曹一家，等.短期负荷预测的解耦决策树新算法[J].电力系统及其自动化学报，2013， 25（3）：13-19.

[5]张素香，刘建明，赵丙镇，等.基于云计算的居民用电行为分析模型研究[J].电网技术，2013，37（6）：1542-1546.