改进决策树在电网超短期负荷预测中的应用

2022-08-02黄星知张文娟张永飞

能源与环保 2022年7期

黄星知，刘星，张文娟，张永飞

(1.国网湖南省电力有限公司信息通信分公司，湖南长沙 410007； 2.北京国电通网络技术有限公司，北京 100000)

目前，在我国电力市场环境下，电力交易的增加和经营主体的不同，使得交易环境出现了多种不确定因素。与此同时，电网负荷对电价的影响程度也随着市场的变化而不断增加，这都给电网超短期负荷预测带来了困难。电网负荷数据中含有4个分量：极端天气下的敏感负荷、节假日/工作日负荷、周期性变化负荷和随机变化负荷。

针对电网数据过于繁杂的特点，张宇帆等[1]提出一种深度长短时记忆网络预测方法。该方法前期对数据进行预处理，提升输入信息精度，再通过深度长短时记忆网络确定训练参数值，利用随机搜索寻优，并且使用最优参数建立泛化能力最优的预测模型。结果表明该方法对离线状态下的负荷数据可以实现很好的预测，但是对于负荷的不确定性以及影响因素并未作出考虑，在线预测精度较低。李滨与陆明珍利用时域卷积网络对电网短期负荷预测[2]。预测前期，综合考虑各种影响因素，提出日负荷数与当日天气因素的相似日选取方法，将各类因素的影响指数作为输入内容输入到预测模型中，最后，根据时域卷积网络训练当前日负荷数，完成建模预测。该方法将气象属性影响因素考虑在内，但是并没有对负荷的周期性变化和非线性问题作出预处理，使得结果与实际相比有误差。

在实际情况中，影响电网负荷预测的因素有很多，例如负荷数据数量巨大、种类复杂且含有的噪声过多，在对这些杂乱数据进行处理时，往往需要用到数据挖掘算法。数据挖掘算法是在已知数据集合内，挖掘需要信息的过程，决策树是挖掘算法中比较常用的一种，可以实现对电网负荷数据有针对性的挖掘，避免陷入随机性中。因此，本文在决策树的基础上，提出了电网超短期负荷预测方法，并将所提方法应用到实际中，通过现场应用对提出方法进行性能测试。

1 决策树算法

1.1 决策树原理

决策树算法是数据挖掘算法中最为常用的一种，根据样本的特性进行划分，并根据取值范围作为分支部分，结合信息论原理实现对繁杂的样本属性的分类和归纳。对所有样本进行属性筛选，找出包含信息量最大的作为决策树[3]的根节点，再以根节点为基础、选取子树中包含信息量最大的样本属性作为树的中间节点划分。决策树的叶子表示样本之间的类别差异，通过样本数据之间的关系分析，即历史情况的参考，对数据进行评估，根据前一天的数据进行后天的预测。决策树算法原理如图1所示。

图1 决策树算法原理Fig.1 Decision tree algorithm

1.2 ID3算法

作为决策树的主要构成部分，ID3算法具有清晰的理论基础、简单的算法步骤以及超强的学习能力，在处理类似电网负荷这种大规模数据时非常有效。将ID3算法与信息增益度量算法结合起来使用，对样本属性信息进行全方位测试，将测试出来的结果作为预测的依据。

选取n个电网历史负荷样本数据，并将所有样本集中在集合S内，对其进行分类，得到c个子类别Ci(i=1,2,…,c)，每个Ci中有ni个样本。那么S中包含c个子类别的信息熵或者期望[4]信息，将Sv定义为S中属性A的值为v的样本子集，将Gain(S,A)定义为A与S的信息增益，Gain(S,A)的值越大，说明属性A在分类时得到的信息就越多；反之，得到的信息就越少。ID3算法的主要目的就是对每个节点信息进行增益(S,A)，然后选取属性值最大的节点作为测试属性。

1.3 电网超短期负荷预测实现

决策树是通过计算样本属性的不同取值范围，实现对样本数据的分类。如果将电网负荷的相关属性作为决策树运算中的条件属性，将负荷看作目标属性[5]，那么就可以将电网负荷数据分为训练数据集和测试数据集。利用建立好的决策树对电网超短期负荷进行预测。

基础信息数据的获取为每15 min选取1个数据点，以1 d为例，可选取的数据点为96个。通过决策树对电网日负荷[6]进行预测就是通过决策树对96个数据点的负荷值进行采样。在采集数据后，结合电网数据特性[7]，选取待测日、待测日前两天、一星期前同一天的气象属性信息以及每一天的实际负荷值。

选取第N+1天的气象属性代入到决策树算法中，此为主要节点，即是框架，以历史数据作为参考依据，为了准确预测，选取第N-1天的实际负荷数据(由于当天的负荷数据无法采集，所以需要选取前一天的数据)进行输入，最终得到预测结果。

对于温差较大的待测日选择以下修正模型：

r=a(F1-Fu)

(1)

式中，F1为与待测日温差相对较小的日期的日负荷数值；Fu为恒定温度下负荷预测结果；a为一个置信系数，满足a=[yη-yη-1/(yr-yr-1)]，其中，yη-yη-1/(yr-yr-1)为待测日与某天温度变化量之比，yη为待测日当天温度数值，yr为某天温度数值。

当遇见温度较高的天气时，建立温度和温度变化、负荷和负荷变化之间的线性回归模型[8]，公式：

r=∂y/∂x,y=f(W,X)

(2)

式中，y为待测日负荷或负荷变化区间；W为预测模型中的参数向量；X为温度变化区间；∂为变化因子。

当高温天气持续一段时间后，需要采取相应措施进行特殊处理：

r=y0[f(η)-1]=y0[(1+q)x-1]

(3)

式中，q为百分量；y0为待测日的预测结果。

1.4 气象属性对负荷预测影响

论文主要考虑了工作日负荷数[9]，将已经完成处理的负荷数进行离散化处理，获得基本数据集，采用决策树算法，对历史数据情况和影响因素进行数据的交叉验证。

建立属性决策表Q=[U,V∈U]，将气象属性看作决策树中的条件属性集V，细分为温度m、气压p、湿度h、风速w和日照l；将负荷数值看作决策树中的决策集D。对气象属性进行数字量化[10]，将温度的取值设置在[-12.8,37.4]，再将其细分为6个更小的区间，并进行标记：[-12.8，-4.5]标记为0，[-4.4,3.9]标记为1，以此类推，[28.9,37.4]标记为5；风速、湿度的标记方法等同于温度；根据日照强度的不同，将其细分为雨天、阴天和晴天，分别用数字表示为2、1、0；气压的标记方法等同于日照；根据历史使用情况，可以将日负荷数值的变化情况分为无、低、高3种，分别用数字表示为0、1、2。气象属性与数字间的量化情况及属性划分见表1。

表1 气象属性划分Tab.1 Division of meteorological attributes

那么，对于风速属性w来说，有γC(D)-γC-|w|(D)=0，从等式中不难看出，风速对负荷结果的预测不会产生任何影响。因此，对其忽略不计。按照此方法，可以忽略空气湿度以及气压的影响，那么得到的最终属性约简集为{m,l}，气象属性中只有温度和日照会对预测结果产生影响，在预测模型中输出预测结果，对预测结果进行分析。

1.5 预测流程

基于决策树的电网超短期负荷预测，实现流程如图2所示。

图2 基于决策树的电网超短期负荷预测流程Fig.2 Flow chart of power grid ultra short term load forecasting based on decision tree

基于决策树的电网超短期负荷预测方法的实现可以总结为：①电网历史负荷数据库的建立，在建立的过程中对历史数据进行缺失、错误等处理，并进行新数据的采集；②利用决策树参考历史情况和影响因素进行数据的交叉验证；③输出验证后的结果；④校验初步输出结果，即验证预测的准确性，并进行修正;⑤输出最终预测结果，实现电网超短期负荷预测。

2 电网超短期负荷预测可行性

为将2节提出的控制负荷预测方法的可行性分析更好地与电力电网超短期负荷结合，需要针对电网超短期负荷预测的设计相应的分析流程。具体在实现过程中，有2个重要的因素会使结果出现误差:①由于未知点的存在，在进行比例尺选取时如果选取不当，就会对结果造成影响。②同样因为未知点的存在，在对负荷进行排序时由可能会出现错误。

(1)造成第1类误差出现的原因，在于未知点无法像正常计算时那样直接计算比例尺，那么可以利用时间序列法以及参考相似日的数据来解决这一问题。利用本文采用的方法可以找出多个被选相似日，根据这些相似日的数据可以确定未知点所在的一个大致区间UN，注意到在区间UN中未知点(xN,yN)的x是可以确定的，只有y是不确定的。如此对于每个已知点xi就可以比较容易地计算出：

(4)

(5)

注意由于θ函数取值的区间性以及时间序列维数计算本身的不确定性，按照这种方法计算出来的最终负荷区间，虽然比不确定的区间范围要小，但仍然是不确定的，所以还是只能作为最终结果的一个估值区间来辅助下面的计算。不过至少根据已经得到的区间，可以确定比例尺d的选值范围。

3 现场应用

目前，已将本文提出方法应用到湖南省长沙市开福区配电网中，该区域拥有10 kV线路280回，共计135 km。但由于能力有限，应用于本文方法进行日负荷测试的区域为秀峰街道附近配电网，秀峰街道电网现场如图3所示。

通过对开福区秀峰街道配电网的现场应用情况以及上述对本文提出的基于改进决策树的电网超短期负荷预测新方法可行性的分析，验证本文方法在实际应用中具有预测精度高的特点，能够有效地应用在实际的电网超短期负荷预测中，具有较好的实用性能。

图3 秀峰街道配电网现场Fig.3 Site diagram of Xiufeng Street distribution network

3.1 负荷数据预处理

在利用决策树对秀峰街道进行电网负荷预测之前，需要对该地区的负荷数据做准备工作，主要包含负荷数据的选取、预处理以及变换。数据选取为决策树算法提供数据来源，从开福区电网数据库内选取一组可以作为代表性的数据，在负荷预测中，选取的数据通常为负荷数据和气象数据。在挖掘电网负荷历史数据时，常常存在记录不全、统计方式不一致和偏差较大等现象。为了使预测结果更加精准，对于这些数据需要进行特殊处理并建立数据库。数据处理包含去重操作、填补缺失数据、去除噪声以及数据类型的转换等。数据变换的主要内容是对负荷数据进行降维操作，在选取的数据中，找到符合预测的有用特征数据，防止在挖掘过程中出现特征量过大的情况。通过过滤算法和规定的数值取值[11]范围，将错误数据筛选出来。例如，气温类数据的取值范围在0～48 ℃；历史数据库中存在一部分数据残缺不全、重要数据缺失的情况。同时，过滤算法筛选数据时，也可能会造成某些数据的丢失。当缺失数据与前后时间相差较近时，可利用线性插值算法进行人工填补，例如，已知t和t+1两个时刻下的符合数据，可求得t+j时刻的数据Tt+j为：

(6)

式中，i为数据类别。

当缺少数据的前后间隔时间较长时，则可以通过观察相邻几天的数据进行填补。假设，当前电网负荷数据的采集频率[12]为1条/min，气象数据的采集频率为1条/6 h，由于二者之间的采集频率不同，需要对其进行相同频率下的转换。本文通过线性插值算法补齐气象数据，使二者的采集频率统一为1条/15 min。

3.2 日负荷预测

为了验证本文方法的可行性，选取湖南省长沙市开福区进行测试。实验中用到的数据来自某电网企业开福区2019年8月10—19日的气象属性以及负荷数据，对该数据库中电网历史数据的缺失、错误等问题进行处理，并将工作日与节假日两个时间划分开来，选择SQL Server 2015软件建立电网负荷数据库，建立预测模型进行日负荷的预测[13]。开福区2019年8月10—19日实验数据的气象属性见表2。当地日负荷数据和预测数据见表3。

表2 气象属性数据Tab.2 Meteorological attribute data

表3 实际日负荷数据与预测日负荷数据Tab.3 Actual daily load data and predicted daily load data

为了使测试效果更加直观，依照表3数据绘制2019年8月10—19日的工作日与休息日的日负荷预测结果图,如图4所示。对开福区2019年8月10—19日的电网日负荷进行预测，可以看出无论休息日的电网日负荷预测结果还是工作日的电网日负荷预测结果，都与实际电网日负荷结果十分相近，仅具有细微差别，说明该方法在电网负荷预测工作中能够实现有效的预测。

图4 2019年8月10—19日的日负荷预测结果Fig.4 Daily load forecast results from August 10 to 19,2019

随机选取2019年8月10—19日中某一工作日与休息日进行24 h预测日负荷数据与实际负荷数据进行对比,如图5所示。通过图5的日负荷数据对比能够看出，无论是休息日还是工作日，用电负荷较大的时间段均为18:00—21:00,通过使用本文方法对日负荷进行预测，预测结果与实际负荷数据几乎一致，最大误差不超过100 W。可以证明本文方法具有较好的实用性与可行性，能够满足对电网超短期负荷预测的需求。

3.3 预测结果准确度和误差

按照预测流程，使用本文方法对开福区的电网日负荷预测结果如图6所示。从图6中的数据可知，应用本文方法进行预测，8月10—19日中，对实验区域8月12日电网日负荷预测的准确率达到了98%，其他时间负荷预测准确率也在90%以上，并且一直处于一个平稳的状态，说明本文方法对电网日负荷的预测不仅准确率高，同时还具有较强的稳定性。

图5 日负荷数据对比Fig.5 Comparison of daily load data

图6 超短期—日负荷预测结果分析Fig.6 Analysis of ultra-short-daily load prediction results

为避免上述日预测误差内可能存在的相互抵消情况，影响数据预测结果[14-15]，根据负荷预测平均绝对误差(MAPE)结果进行分析，图7为分析结果。MAPE的定义公式如下：

(5)

式中，R(i)和K(i)分别为1 h内电网负荷数据的实际结果与预测结果；B为1 h负荷数据采样次数。

图7 平均绝对误差结果分析Fig.7 Analysis of average absolute error of prediction results

由图7可以看出，本文预测的平均绝对误差随时间的增加，呈现出一定程度的增长，但是平均绝对误差值一直在2.0以内，说明本文方法在剪枝的过程中，随着决策树的不断生长，得到越来越多的分枝，同时使得训练误差在逐渐变小，找到最小代价复杂度的最优决策树[16-17]，能够有效降低预测误差值，证明本文方法在超短期负荷预测上有着精度高的优点。

4 结论

电网负荷的预测是一项非常复杂且难度非常高的工作，以往其他方法在进行预测时常常存在误差较大、精度较低等缺点。因此，本文在决策树算法的基础上，针对超短期电网负荷提出了一种新的预测方法。首先，对选取的负荷数据进行处理和变换操作，避免在后续的计算过程中出现错误数据和缺失数据的情况；然后再结合气象属性以及其他影响负荷变化的因素，实现对未来负荷数值变化的预测。最后引入专家系统，对首次预测结果进行修正，确保具有较高的精准度。在实际应用中采集了某电网企业的历史负荷数据，对开福区秀峰街道的电网超短期日负荷与时负荷的预测结果分析，证明了本文方法具有较高的预测精度。