基于混合算法的智能电表计量自动化研究∗
2018-07-10鲁观娜吕言国李文文姜振宇
鲁观娜 吕言国 李文文 姜振宇 黄 凡
(1.国网冀北电力有限公司电力科学研究院 北京 100045)(2.华北电力科学研究院有限责任公司 北京 100045)(3.深圳市科陆智慧工业有限公司 深圳 518057)
1 引言
电力负荷预测是制定发电计划和电力系统发展规划的基础,精确的负荷预测对于电力系统经济、安全、可靠地运行具有重要意义[1]对电力系统短期负荷预测方法的探索,一直是国内外学者关注的一个热点,多年来已经提出了许多预测方法,如时间序列预测法[2],神经网络预测法[3],组合模型预测法[4],取得了很多卓有成效的进展。目前已有的预测模型都是针对全部用户的负荷值进行预测[5~7],并未考虑到不同用户的用电类型对负荷结果的影响。
本文针对城市电力负荷预测中存在的行业类型多,不同行业用户乃至同一行业不同用户用电负荷差异大,大量的用户无明确的行业类型特征,城市不同时刻电力负荷差别大等问题,设计智能电表计量自动化系统采集计量点数据,开展基于用户分群策略研究的电力实时负荷研究,提出了聚类算法与回归算法结合的预测方法,对城市实时电力负荷预测具有一定的指导意义。
2 智能电表计量设计
2.1 系统概述
在实验中,设计智能电表计量自动化系统采集计量点数据在进行负荷预测时,采用先对用户进行细分,再分别进行预测的方法。即先对用户按照负荷特性进行分类,计算合适的用户聚类簇数,利用聚类算法将用户分为不同用电特征的几大类,然后对各分群分别采用回归算法进行负荷建模与预测,再将各个群组的预测结果进行累加求和,形成最终的城市负荷预测。另外还可以将实际预测结果与历史实际数据进行对比,对预测结果评价,并反馈至预测模型,通过调整建模参数,提升预测模型精度,具体流程如图1所示。
2.2 计量自动化系统
某供电局的智能电表计量自动化系统采集的计量点数据主要包括:通信流量数据、表码数据和瞬时量数据。通信流量数据包含终端编码、数据日期、发送(下行)字节、接收(上行)字节、重连次数、数据流量、报警流量、心跳流量、在线时间等终端与主站之间的通信流量数据。表码数据[8]包含正向有功表码、反向有功表码、正向无功表码、反向无功表码等用户累计用电信息。瞬时量数据[9]包含有功功率、电流、电压等用户实时的用电信息。
本论文以某供电局2016年12月份的计量自动化系统采集的58995个大客户的瞬时量数据作为实验对象,以用户实时功率数据为基础,研究电力用户的分群策略,寻找在分群效果稳定的数据簇数目的确定方法,并在此基础上,使用局部加权线性回归算法,对每一类用户进行负荷预测,并形成最后所有用户的负荷。瞬时量数据表各字段属性如表1所示。
3 电力用户分群策略
为了精确描述电力负荷随时间变化的规律,分析各种因素对电力负荷特性的影响程度,找出不同行业用户具备的相同的用电模式,本文选取供电局提供的大客户的连续4周的整点时刻的数据的均值作为该客户每个小时的负荷值,以0点到23点共24个整点时刻的负荷作为聚类的维度,利用K-means算法[10]进行聚类,分析各用户的负荷波动指标。
表1 瞬时量字段表
将归一化的用户负荷均值数据利用K-means聚类算法在24个时间点维度上进行聚类,从而将所有行业每个用户的所有计量点按照负荷波动指标进行分类,最终得出每个用户所属的用电负荷类别。
3.1 数据预处理与特征提取
不同时刻的用电负荷的差值很大,例如白天工厂的用电负荷远远大于凌晨时刻的用电负荷。如果直接聚类,数据点距离会偏向于负荷值较大的时间维度影响,从而掩盖其他时间维度的数据特征,导致聚类结果不准确。所以需要对24个时间特征维度进行数值归一化处理,将所有的特征指标维度缩放到同一尺度内。
实验中采用z-score标准化(zero-mean normal⁃ization)方法[11],计算时对每个特征分别进行,如式(1)所示:
其中,μ和σ分别代表数据集某特征列的均值和标准差,经过该方法归一化的数据属性的均值为0,标准差为1。将每个用户、每个维度归一化之后的24个小时点的负荷均值作为该用户的聚类维度,如表2的例子所示。
上述的例子中,F1是第一个特征维度,表示归一化后0点时刻的负荷值,该用户原始负荷值为3244.194kW,0点时刻所有用户的负荷均值为3936.549kW,负荷标准差为4212.466kW,故由(3244.194-3946.549)/4212.466得到该用户0点时刻的归一化负荷值。
表2 聚类特征选取例子
3.2 聚类簇数K的确定方法
K-means是一种将给定数据集划分为K个数据簇的算法。需要划分的簇的数量是需要提前指定的,簇的中心是在该簇中的所有数据的质心(本文采用均值计算),由簇的中心来描述这个簇。算法运行前需要指定簇的数目K及收敛条件。
一种用于度量聚类效果的指标是SSE(Sum of Squared Error,误差平方和)[12],即计算聚类稳定后的所有数据点距离其所属数据簇的中心的距离的总和,SSE值越小表示数据点越接近于它们的质心,聚类效果也越好。因为对误差去了平方,因此更加重视那些远离中心的点,可以通过遍历所有质心并计算点到每个质心的距离来完成,如式(2)所示。
其中,表示第i条训练数据的第 j个特征,表示第i个训练数据所属聚类质心的第 j维特征。
为确定对数据集合适的K的选取,实验中令K从1(将所有的用户归到一个数据簇)到K为43(因为K-means一般作为数据预处理,或者用户辅助分类给数据添加标签,同时在实验室中发现随着K的增加,聚类误差的变化已经接近于0,所以K的设置一般不会很大),在每个K值上重复运行数次K-means(避免局部最优解)并计算当前K取值的误差平方和[13],如图2所示。
图2中,X轴表示聚类数据簇K的取值,左侧Y轴的图例表示聚类结果的误差平方和,对应图中的三角形图标的线条,右侧Y轴的图例表示误差平方和的梯度。
从图2可以看出,当K取值为14的时候,聚类效果的误差平方和已经接近于水平轴,同时负荷差值的梯度在0附近波动,表明即使增加K的取值对聚类效果的误差不会产生太大的影响,故选定14作为用户分类的数据簇的数目。
4 局部加权线性回归的实时负荷趋势预测
基于上述的用户分群策略,将用户依据其用电模式,将其划分到不同用户组,接下来需要针对每一类用户使用局部加权线性回归算法[14],使用历史负荷数据作为模型特征,预测未来某一天每个小时的负荷值,设计准确性评价指标,将其与真实的负荷值进行比对,验证模型的有效性。
考虑到局部加权线性回归算法优越的运算性能和大量用户负荷的规律性,实验采用局部加权线性回归分析方法。局部加权线性回归算法只要求几个简单的特征就能快速地预测出曲线的趋势,实验中将其与线性SVR算法[15]进行比对,实验结果表明局部线性回归算法在实时电量负荷预测方面非常有效。
4.1 数据预处理简介
通过上述的聚类,将用户数据聚为14类数据簇,每一类均包含大量的计量点。在负荷预测的数据预处理阶段,需将每一个数据簇中的计量点的负荷值按照整点时间叠加,得到该数据簇中所有的计量点的整点时刻的负荷总和,并按照时间排序。
为预测未来某一个时间点的负荷,将该时间点之前连续几天的负荷数据作为其特征,数据构造如下表所示,以8天共192维的数据作为特征的维度。
表3 回归特征选取
预测某一天每个整点时刻的负荷值均从当天零点时刻的负荷着手预测,并将预测出来的负荷与之前的195维的数据组成新的训练样本,以滑动窗口的形式预测下一个时间点的负荷,不断往复,直到预测出最后一个时间点的负荷,从而将当天所有时间点的负荷预测出来。
为确保仿真结果的准确性,选取12月份最后一周的数据作为验证数据集进行7次交叉验证,每次预测一天24个小时的负荷,并以7天的预测准确性的均值作为最后的实验结果。
4.2 局部加权线性回归算法介绍
局部加权线性回归(Logically Weighted Linear Regression,LWLR)是对线性回归的拓展,主要思路是给待预测点附近的每一个点赋予一定的权重,然后在这个子集上基于最小均方差来进行普通的回归,其目标函数是加权的最小二乘:
其中,ω是权值,其作用在于根据要预测的点与数据集中的点的距离来为数据集中的点赋权值,当某一点距离待预测的点较远时,其权重较小,否则较大。
4.3 准确性评价指标
因为每次模型均预测一个时间点的负荷值,需要评价的是预测负荷与真实负荷的差距,故实验采用如下的数据准确性评价指标:
其中,Testvalue表示真实负荷值,Predictvalue表示预测负荷值,通过上述公式计算预测值与真实值之间的拟合程度。
5 实验结果分析
5.1 特征维度的确定
在上述的数据预处理阶段,为预测某时刻的负荷值,将该时刻之前的负荷值作为模型的特征,为确定合适的特征数目,以1天(24个数据点)的数据到14天(336个数据点)的数据作为模型特征,分别计算线性回归和线性SVR的准确性,结果如图3所示。
由图3可以看出,当选取的数据特征在10天以内时,线性回归的准确率高于SVR,同时,当特征选取为8天(192维)的时候,两种方法均达到最高的准确性,故选用8天共192维数据作为负荷预测的特征数据。
5.2 各个整点时刻的负荷预测准确性评价
以8天共196维的负荷值作为预测模型的特征,以上述的负荷预测模型使用滑动窗口方法分别预测12月25日~12月31日所有时间点的负荷值,并按照时间点叠加求7天的均值,计算模型对每个时刻的预测准确性,结果如图4所示。
从上图可以看出,在绝大多数的时间点上,线性回归模型的预测准确性均大于SVR,同时预测值均在97%以上,模型预测准确性较高,具有一定的实用价值。
以8天共196维的负荷值作为预测模型的特征,以上述的局部加权线性回归预测模型预测12月30日(周五)当天每个整点时刻的负荷值,如下图所示图5基于LWLR的12月30日的整点时刻负荷预测结果
从图5可以看出,局部加权线性回归算法的预测值与原始负荷值基本匹配,由于使用前一个预测值加入训练数据来预测下一个时间点,随着误差的累计,后面的时间点较前面的时间点有更大的误差。
6 结语
采用某供电局的智能电表计量自动化系统采集到的用户负荷数据,基于K-means聚类算法和线性回归算法构建了基于用户分群研究的智能电表计量电力负荷预测模型,实验结果证明了该混合算法能依据历史负荷信息有效地对预测当天每个时刻的负荷进行准确性的预测,表明在智能电网的负荷预测上,利用智能电表计量自动化的数据挖掘理论是一种有效的尝试。
[1]王保义,赵硕,张少敏.基于云计算和极限学习机的分布式电力负荷预测算法[J].电网技术,2014,38(02):526-531.
[2]侯海良,孙妙平,蔡斌军.基于RBF-ARX模型的短期电力负荷预测[J].河海大学学报(自然科学版),2015,43(03):271-277.
[3]金鑫,李龙威,季佳男,等.基于大数据和优化神经网络短期电力负荷预测[J].通信学报,2016,37(1):36-42.
[4]苏士美,王明霞,姚猛,等.基于WHAC-E组合预测模型的短期电力负荷预测[J].郑州大学学报(工学版),2014,35(03):86-89.
[5]肖白,周潮,穆钢.空间电力负荷预测方法综述与展望[J].中国电机工程学报,2013,33(25):78-92,14.
[6]肖勇,杨劲锋,马千里,等.基于模块化回声状态网络的实时电力负荷预测[J].电网技术,2015,39(03):804-809.
[7]崔和瑞,彭旭.基于ARIMAX模型的夏季短期电力负荷预 测[J].电 力 系 统 保 护 与 控 制 ,2015,43(04):108-114.
[8]刘庆.电力营销系统自动化抄表问题探讨[J].通讯世界,2014(17):20-21.
[9]Kavousian A,Rajagopal R,Fischer M.Determinants of residential electricity consumption:Using smart meter da⁃ta to examine the effect of climate,building characteris⁃tics,appliance stock,and occupants'behavior[J].Ener⁃gy,2013(55):184-194.
[10]赵莉,候兴哲,胡君,等.基于改进k-means算法的海量智能用电数据分析[J].电网技术,2014,38(10):2715-2720.
[11]曲朝阳,陈帅,杨帆,等.基于云计算技术的电力大数据预处理属性约简方法[J].电力系统自动化,2014,38(08):67-71.
[12]成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报(自然科学版),2015,35(02):102-107.
[13]张斌,庄池杰,胡军,等.结合降维技术的电力负荷曲线集成聚类算法[J].中国电机工程学报,2015,35(15):3741-3749.
[14]张素香,赵丙镇,王风雨,等.海量数据下的电力负荷短期预测[J].中国电机工程学报,2015,35(01):37-42.
[15]Hong W C,Dong Y,Zhang W Y,et al.Cyclic electric load forecasting by seasonal SVR with chaotic genetic al⁃gorithm[J].International Journal of Electrical Power&Energy Systems,2013,44(1):604-614.