基于大数据的电力负荷预测算法
2020-02-01石晗弘
石晗弘
(陕西理工大学电气工程学院 陕西省汉中市 723001)
在电力发展体系中,电网的负荷预测是一个重要的工作环节。电网负荷预测的有效性关系到电网在升级过程中的规划细节,是对下一个阶段区域内电力网络中,变电站位置确定以及具体选址工作、电网网架结构优化与电源布局等细节有着不容忽视的价值的重要依据。除此以外,有效的负荷预测也是在电网运行过程中发现非常规因素,进一步避免窃电等行为发生的重要武器。然而在展开电力负荷预测工作的过程中,由于电网在运行过程中会受到多个方面因素的影响,因此整个系统中变量偏多,并且系统边界也会难以确定。具体而言,不仅仅区域内的经济结构和人口会影响到对于电力的需求,包括政治规划和气象等因素,也都必须考虑在内。在如此复杂的背景之下,可以选用的预测手段选择就会显得十分重要,当前比较常见的预测模型构建技术,包括神经网络、线性回归法以及系统动力学建模等等都是常见的建模手段,不同的建模方法各有特征,总体而言,都是通过建模来对历史数据进行拟合,从而增加模型本身的可信度,来达到对未来电力负荷需求的预测的目标。
在大数据的背景之下,海量数据为模型的完善提供了更为丰富的支持,因此在这一领域中,越来越多的模型参与到电力负荷的预测工作中来,也因而形成了诸多成果。对电力负荷系统中海量数据的解读和模型拟合,形成了对应的大数据技术。这些技术的核心,都在于要实现对于历史数据的有效说明,只有在这种有效说明的基础之上,才能形成对于未来的合理预测。因此如何挖掘出历史海量数据的特征,并且对其展开分析和解释,就成为电力负荷大数据技术所面临的问题。
1 负荷聚类分析
对于电力负荷的预测工作而言,比较常见于电力负荷的中长期预测环境,对于短期预测,其结果常常会缺乏代表性,因此对应的研究,也多聚集在中长期预测研究领域。而对电力负荷进行考察,可以发现其受到的影响因素众多,即便是系统动力学这样的工具,也会因为系统边界难以有效确定,而导致预测结果精准程度存在争议。但是从根本上看,对于电力负荷的预测,归根结底是不同特征的负荷进行叠加的结果,即便是不同成因而产生的电力需求负荷,也有可能会存在相似的表现结果。例如不同的工业类型,都会在白天存在需求,虽然不同的行业特征,决定了这种电力需求总量会有所差异。又比如农副业更多倾向于产生全天候或者夜间的电力负荷,虽然给植物供暖和给动物照明的需求,在成因上相去甚远,但是最终的表现结果仍然相似。因此从这个角度看,如果将经济和政策等因素都纳入到电力负荷的预测,那就不仅仅是对于区域内电力需求的预测,而成了区域内经济以及各方面发展的预测。由此可见,盲目的扩大系统边界,只会增加系统的运算量,降低其工作效率,对于加强电力负荷预测工作质量水平,益处相对有限。针对此种情况,在展开基于大数据的电力负荷预测工作时,可以考虑选用聚类分析的方法展开工作。
所谓聚类分析,是指将研究对象的集合分组为由类似的对象组成的多个类的分析过程,是一种通过数据建模简化数据的重要方法。通过聚类分析,可以获得若干数据簇,每一个数据簇中的对象具有极大相似性,而不同簇之间的对象则存在极大差异性。在计算机领域中,簇的有效获取,关系到机器学习的效率,也关系到电力系统中海量数据应用的有效性,以及未来电力负荷预测的准确水平。
对于电力负荷聚类分析工作而言,首先要展开必要的标准化处理。对于电力负荷的历史数据而言,其本质是多个时间序列,而这些时间序列的影响因素包括多个方面,诸如季节、产业发展、区域人口等,除此以外不规则的变动也包含在内。将不同的影响因素进行识别,是标准化的根基所在,这就需要标准化的参与。具体而言,对于电力负荷中长期的预测,主要从符合的基本信息、变化趋势、周期性以及波动性四个方面展开。
基本信息是电力负荷数据存在的意义承载,包括负荷数值本身和负荷持续的时间两个方面要素。用这种方式可以对电力负荷数据进行建模定义,确定出其负荷数值和持续时间的对应阈值,令这二者的阈值区间分别为以及则处于同一个阈值空间的负荷允许展开聚类,这是提升聚类本身可靠性的依据。而趋势,就是大的整体发展方向,对于电力负荷而言就是上升的状态,表现为增长率。在大数据环境中,对于电力负荷序列而言,对应的增长序列可以表达为在祛除该序列异常点的前提下,变化趋势的参数可以取其中位数进行代表。
对于负荷变化的周期性而言,这是电力负荷大数据分析的重点之一,表现为电力的负荷的周期性波动,并且单个周期内部波动特征表现出极大的相似性。这种周期性的负荷变化,多与区域内产业环境相关,因产业环境的淡旺季或者其他因素而随之作出变化。对于周期性的数据描述,周期时间长短、波幅大小以及位势增长率都是核心要素。依据电力负荷P 的增长率序列ρ,可以构建起对应的布尔序列w,参见式(1)。
式(1)中,α 为阈值系数。从该式中可以看到,电力负荷需求的周期表现为负荷增长率的周期性变化,并且通过增长率的极大值来确定周期长度,进一步明确波幅与位势。而在确定了周期之后,位于一个周期内波幅 和位势增长率hi则可以分别用式(2)和式(3)表示。
在式(2)和式(3)中,对应的角标min 和max,分别是指同一个周期内符合的极值,对应的均值同样如此。
最后,波动性是电力负荷曲线稳定性的一个反方向表现,同样也是衡量电力网络负荷的重要表达。如果用V 来表示负荷差异系数,并且用以标记同一组数据的离散程度,则可以见式(4)。
在式(4)中,分子为负荷序列标准差,分母为负荷均值。
通过上述标准化处理,可以获取到负荷变化特征的向量Pi,其中涉及的参数共计七个,参见式(5)。
这样的多个负荷向量,构成电力负荷系统中的大数据。可以参与进一步的数据分析和处理,进一步考察数据本身的有效性,最终构成有效的电力负荷预测大数据样本。
2 负荷聚类算法的展开
聚类算法的本质,是将相似性比较高的负荷数据进行归类,从而加强对于电力负荷的种类识别,获取到多个电力负荷种类,并且针对种类展开负荷预测,通过这种方法来提升预测工作的可信度和准确率。聚为一类的数据存在极大的相似特征,因此其在影响因素方面必然也存在较大相似性,这一类数据在未来的发展中,同样也会存在趋同特征,这就大大增加了预测本身的准确率。并且利用聚类算法来处理电力负荷环境中的海量数据,还可以利于该领域数据挖掘的展开,便于发现符合影响因子的相关性,对于建立起更为精准的预测模型,同样有着不容忽视的积极意义。
在聚类的领域中,同样存在有多种算法,不同的算法会呈现出不同的特征,优劣势也有一定差异。具体而言,聚类可以基于多种因素而展开,诸如基于划分、基于层次、基于密度、基于网格以及基于模型等,都可以实现有效聚类。对于电网负荷数据系统而言,随着相关技术的普及和深入,其所能够获取到的数据不断增加,形成大数据根基的同时,也对数据处理和计算提出了更高的要求。在这样的背景之下,如何有效地展开大数据处理,成为一个关键问题。综合聚类计算中各种算法的特征,可以考虑采用基于Map/Reduce并行编程模型而进行改进得到的FKM(Fuzzy K-means)方法展开计算。FKM 聚类方法相对而言能够获取准确结果,但是计算过程复杂,对应的运算时间长,因此想要应用在大数据环境中仍然存在一定的难度。虽然如此,FKM 仍然存在算法优化的可能,但是首先仍然需要对这一算法有一个初步的理解。
假设我们要在数据集X 的基础上进行工作,X 中的元素可以表示为xn(n=1,2,…),将其中的数据划分成为K 类,分别为S1,S2,…,Sk,则FKM 聚类可以通过隶属度来确定不同数据对于不同聚类的隶属关系。如果将隶属度表示为则用于计算聚类依据的目标函数可以用式(6)表示。
式(6)中,m 为模糊权重系数,dij为对应的数据xi到Sj类聚类中心cj的距离,也就是说,dij=||xi-cj||。进一步展开,dij的具体计算参见式(7)。
对该函数进行求解,可以获得式(8)以及式(9),即为实现目标函数最小值的取值。
式(8)和式(9)是实现计算迭代的根基,这种迭代过程会通过更新隶属度ωij以及聚类中心cj来获取到符合收敛条件的结果,并且最终将样本归于对应的类中。
在大数据环境之下,为了提升FKM 算法的整体效率,需要对其展开并行优化。具体而言,就是要在大数据相关基本信息的基础之上,对负荷数据展开一个预处理,即实现负荷的初步关联分类,并且以此作为基础进一步展开数据分块工作,最终实现算法效率的整体提升。在这一方面,Map/Reduce 是一个可供选择的方案,该方案由谷歌提出并且进行编程实现。从根本上看,此种方案首先将问题分解成为映射和规约两部分操作,先通过Map 即映射程序来对原始数据进行切分,获取不相关的大区,并且配给对应的计算资源,最终通过Reduce 程序,即规约程序进行运算并且汇总最终处理结果。在运算过程中,Map 以及Reduce 两个程序是核心价值所在。
对于FKM 聚类算法而言,其核心精神就在于通过迭代算法来确定出聚类的中心,并且计算出数据样本与该中心的距离,从而确定数据样本是否应当归于某一个类。对于不能合理归类的数据样本,算法还需要确定是否要确立起一个新的聚类。这样的两个功能,形成了FKM 算法的核心职能。
在实现这两个职能的过程中,首先FKM 算法要依据海量数据的基本信息,将其进行划分,形成多个数据群落。确定初始化的隶属度矩阵,对模糊度以及簇的数目都要进行确定。而后对各个聚类中心进行选取,并且使用Map 功能来对每一个数据样本展开FKM聚类算法处理,确定出对应的数据样本与之前预选的数据群落之间的关系,查看其与群落中心的距离,并且考察能够聚类进入该群落。在确定可以聚类进入该群落的时候,还需要考察在增加了一个新的数据样本的时候,是否需要调整对应数据群落的中心位置。在这个过程中,Map 会通过构建起名为Centerlist 的全局变量,来实现距离以及隶属度的计算,并且形成
通过对运算过程的分析可以发现,最初的聚类中心的确定,直接关系到整体计算量和收敛的效率。因此为了控制初始聚类对于运算结果的影响,可以考虑依据符合数据的基本信息来进行预处理,将同类复合数据进行一个初步的判断,并且集中存储,进一步将其划分为多个区间,分别从这些区间中选出典型值作为初始的聚类中心。这种对于负荷数据的初步区分并没有充足的依据,也会常常出现偏差,但是对于加速收敛,降低数据的熵值等方面,仍然有着不容忽视的重要意义。
考虑到在电力负荷网络环境中,多种数据收到不同方面因素的影响,在变化趋势和周期性等方面的表现必然存在诸多差异,因此可以考虑分别以聚类内全部负荷变化规律为基础建立预测模型。假设有负荷类Cj的平均增长率用δt表示,则有类Cj在t年之后的负荷可以用式(10)表示。
并且有平均增长率用δt参见式(11)。
在上面两个式子中,wi为负荷权重,m’为Cj负荷总数,Ai为平均波幅,Ti为平均周期,而φ 则为相位的修正角。
3 结论
在大数据这个整体背景之下,如何展开有序有效的电力负荷预测,是该领域共同面对的重要问题。虽然目前已经取得了诸多成绩,包括聚类计算以及神经网络等算法层出不穷,为相关的负荷预测提供了有力支持,但是预测本身的精确程度,以及预测的效率,仍然存在提升空间。实际工作中唯有加强学习,并且发现电力负荷环境中的数据特征,才能展开对于算法的更为有效的优化,提升其预测效率。