基于分箱灰色预测的月用电量数据缺失值处理方法
2017-11-22彭泽武
彭泽武
(广东电网有限责任公司信息中心,广州510030)
基于分箱灰色预测的月用电量数据缺失值处理方法
彭泽武
(广东电网有限责任公司信息中心,广州510030)
在月用电量数据缺失问题的预处理方法中,如何使预处理的数据更接近原数据,一直是研究的重点内容。采用分箱灰色预测的方法,先将月用电量数据进行分箱处理,再用灰色预测方法进行线性填补,最终得到填补后的月用电量数据。
0 引言
电力系统是人民生产生活中必不可少的一部分,在对电力系统的研究中,企业可以通过预测未来的月用电量,做出例如供电量等准确的决策。将企业往年的月用电量做成时间序列数据,但是在对时间序列进行预测的过程中,往往会出现数据缺失的问题。时间序列是将某种统计数据,按时间先后顺序排列所形成的数列,时间序列预测法就是通过对时间序列的性质进行分析,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。
在时间序列预测过程中,现实世界的数据不一定是完整的,针对数据缺失值的填补问题,特别是针对波动数据的预处理方法,在现有的方法中还未有较好的处理方法。通常情况下处理缺失数据的方法主要采取忽略元祖,人工填写,使用属性中心度(入均值或中位数)等方法,然而,往往这些方法预测出的缺失值与数据本身差异较大,通过这种方法填补缺失值容易导致后期预测出现偏差。因此,我们对缺失值处理方法进行改进,在对缺失值的处理过程中,先将用电量数据进行分箱数理,再进行线性填补,从而使结果更加准确。
1 分箱法及灰色预测简介
1.1 分箱法
分箱是一种简单常用的预处理方法,可以将波动数据分成几组平稳数据,从而达到局部平滑的目的。分箱法顾名思义是将数据进行分箱处理形成多组数据的过程,通过考察相邻数据来确定最终值。分箱法实际上就是将时间序列数据按照一定的规则放入一些箱子中,使每个箱子中的数据都是平稳数据,通过这种预处理方法再进行灰色预测可以减小误差。其中每个数据位于对公式:
取余数所得的值的箱中,p为该数据在时间序列中的排序值,n为时间序列的周期。且每组中共有个数据,m为时间序列数值的总个数。
在运用分箱法的过程中,如何求出分箱的个数,即时间序列的周期,是问题的重点,在这里采用ACF检测算法计算非平稳时间序列周期数。ACF算法是计算时间序列自相关函数,其公式为:
由于非平稳时间序列的自相关函数与时间序列具有相同的周期,从而求出时间序列的周期n,这些箱中的数据都是平稳数据。
1.2 灰色预测
灰色预测方法就是对既含有已知信息又含有未知或非确定信息的系统进行预测,就是在对一定方位内变化的、与实践有关的灰色过程的预测。在这里由于每个箱中的数据较少,用灰色预测方法,利用缺失值前后值进行线性填补,对于连续缺失问题,进行前后数据延顺。具体公式为:
2 基本数据
以佛山从2004年1月至2015年12月的用电量为例,其时间序列图像为:
图1
由图像可直观看出该时间序列为波动数据,且间断点则为时间序列中存在的缺失值。
3 模型建立
3.1 数据预处理
为了使计算简便,现将月用电量数据的时间补充定义为每月的15日结算。
3.2 线性填补法
将间断点利用前后值进行线性填补,可得图像如图2所示。
(1)分箱法
用acf检测算法计算出佛山市月用电量时间序列的周期,将月用电量数据代入公式:
计算出时间序列的自相关函数,再将函数求导可得到自相关函数的周期。
计算可得,月用电量数据时间序列的自相关函数周期为12,即时间序列的周期为12,因此将时间序列分为12个箱。
图2
(2)灰色预测
对每个箱中的缺失值进行线性填补,可得填补后的图像:
图3
4 结果评估
分箱灰色预测:q=1422.3
线性填补法:q=4076.8
可得,用分箱灰色预测方法填补的准确性更高。
图4
其中,黑色线条为原始数据,蓝色是线性填补方法,红色是分箱灰色预测方法,可以看出红色线条与黑色线条拟合程度较高。
5 结语
本文以提高数据预处理准确性为出发点,提出了分箱灰色预测的缺失值填补方法,并通过比较,最终证明分箱灰色预测比线性填补更符合现实规律。
[1]郭淑婷,赵明辉.基于ACF的基音检测算法[J].郑州轻工业学院学报(自然科学版),2011.
[2]肖正安.基音周期检测ACF算法及MATLAB仿真[J].湖北第二师范学院学报,2011.
[3]夏殿松,胡淼,洪夏俊.一种基于AMDF和ACF的基音周期提取算法研究[J].军事通信技术,2009.
[4]崔立志.灰色预测技术及其应用研究[D].南京航空航天大学,2010.
彭泽武(1987-),男,湖北荆州人,工程师,研究方向为电力大数据技术
2017-07-13
2017-09-28
Binning;Grey Prediction;Time Series
Missing Value Processing Method of Monthly Electricity Consumption Data Based on Box Grey Forecast
PENG Ze-wu
(Information Center of Guangdong Power Grid Co.,Ltd.,510030)
In the pretreatment of data loss in monthly electricity consumption,one of the important things is how to make preprocessing data closer to the original data.Makes the monthly electricity consumption apart first,and predicts the losing data by grey prediction and finally obtains the monthly electricity consumption.
分箱法;灰色预测;时间序列
1007-1423(2017)29-0017-03
10.3969/j.issn.1007-1423.2017.29.004