基于灰色-ARIMA耦合模型的中国发电量短期预测
2023-01-14周彬彬黄嘉昕耿冉冉尹新然徐宝靖
周彬彬, 黄嘉昕, 耿冉冉, 尹新然, 徐宝靖
(1.南京工程学院 电力工程学院, 南京 211167; 2.南京工程学院 工业中心, 创新创业学院, 南京 211167; 3.北京大学 光华管理学院, 北京 100080)
近年来中国电力需求迅猛增长,对电力产业发电量在未来需要提出更高的指标。采用科学的手段可以预测目前至2030年的短期发电量数据,为中国制定对应的新能源措施及其电力发展规划具有重要意义。经济增长与电力发展的关系密切相关[1],为实现可持续发展与碳中和、碳达峰的时代响应,在供电能源消耗方面发挥着非常重要的作用[2-3]。关于预测的算法众多,如多元线性回归[4]、时间序列分析[5]、支持向量机[6]、神经网络[7]等。在时序变化下短期预测,采用灰色预测所需样本少,不需计算均值、方差等特征量[8-9]。
目前灰色预测被广泛用于各领域之中,如人口、水电、医疗、金融、环境质量、耕地面积、资源供给以及机械零件残余预紧力等方面。陈磊等[10]将GM(1,n)应用于电力负荷预测方面;蒋红霞等[11]通过全信息新陈代谢的GM(1,1)灰色预测模型对双流县电力需求量方面进行了预测;陈洁等[12]基于2000—2009年江苏省的发电量数据,采用了改进后的灰色预测GM(1,1)模型预测了江苏省2015、2020年的发电量;阳建中等[13]通过运用信息熵和多因素灰色系统模型在碳排放方面进行了分析与预测;吴凤华等[14]以贵州省2001—2017年的发电量和电力消费量数据为基础,使用ARIMA模型预测出2027年电力供需。根据前人预测方法的回顾,针对单一模型预测精度不高等问题,本文基于灰色预测与ARIMA模型进行发电量方面的预测工作,构建灰色-ARIMA耦合模型。将原始数据划分为训练组与试验组进行灰色预测模型的选取,对传统GM(1,1)模型与改进GM(1,1)模型[改进的GM(1,1)模型为新信息GM(1,1)模型[15]、新陈代谢GM(1,1)模型[16-17]]展开比较。利用试验组中后3年的原始数据与预测出的后3年数据,求解模型各自的SSE(误差平方和),对比出SSE最小模型与ARIMA模型耦合,再进行2022—2030年的中国短期发电量预测,对国家制定电力新能源等措施及发展规划有着重要的参考价值。
1 传统、新信息、新陈代谢GM(1,1)模型
1.1 灰色预测模型理论介绍
灰色预测在数据处理后,挖掘变动规律,形成数据序列,得到对应ODE模型,即可测得未来数据变动趋势[18-19]。传统GM(1,1)原理:设x(0)=x(0)(1),x(0)(2),,x(0)(n)为原始数据列(非负数据),对其采取策略为依次累加,便可生成新数据列x(1)。
x(1)=x(1)(1),x(1)(2),,x(1)(n)
(1)
令z(1)为数列x(1)的紧邻均值生成序列,即
z(1)=z(1)(1),z(1)(2),,z(1)(n)
(2)
式中,z(1)(m)=[x(1)(m)+x(1)(m-1)]/2,且m=2,3,,n。
方程x(0)(k)+az(1)(k)=b为GM(1,1)基本型(k=2,3,,n)。其中-a为GM(1,1)模型中的发展系数,b为GM(1,1)模型中的灰作用量。引入矩阵u=[a,b]T。
(3)
则GM(1,1)模型x(0)(k)+az(1)(k)=b可表示为Y=Bu,利用最小二乘法可以得到参数a与b的估计值为
(4)
(5)
推导出GM(1,1)模型的白化方程:
(6)
(7)
故有
(8)
式中,m=1,2,,n-1。
(9)
式中,m=1,2,,n-1。
介绍改进GM(1,1)模型如下:
1)新信息GM(1,1)模型。设改进新信息为x(0)(n+1),并将x(0)(n+1)放入x(0),定义x(0)=x(0)(1),x(0)(2),,x(0)(n+1)为新信息GM(1,1)。
2)新陈代谢GM(1,1)模型。放入最新信息x(0)(n+1),同时移去旧信息x(0)(1),定义x(0)=x(0)(2),,x(0)(n+1)所构造的模型为新陈代谢GM(1,1)。
1.2 准指数规律检验
对初始数据一开始要采取准指数规律检验,定义累加r次序列
x(r)=x(r)(1),x(r)(2),,x(r)(n)
(10)
定义级比为
(11)
(12)
假设x(0)为非负序列,则随着k增加,最终ρ(k)逐渐趋近0,故要使x(1)服从准指数规律,即对于任意的k,δ<0.5,只需要保证ρ(k)∈(0,0.5)即可,此时序列x(1)的级比σ(k)∈(1,1.5)。定义指标1:对于ρ(k)<0.5的数据占比规定要大于60%;指标 2:去除最前2个年份之外,ρ(k)<0.5的数据占比要大于90%。当指标1,指标2同时满足,则数据通过检验。根据国家统计局公开的2012—2021年中国发电量数据信息进行统计,见表1。图1为表1的数据可视化。
表1 2012-2021年中国发电量
图1 2012—2021年中国发电量数据处理可视化
根据准指数规律检验,软件用MATLAB来求解,得ρ<0.5的数据占比为77.777 8%;除去首部两个年份外,ρ<0.5的数据占比为100%,于是可知:数据通过检验。
2 灰色预测算法的比对与选取
由于原发电量数据的年数超出4个年份,故将原始发电量数据拆分成训练组与试验组。
划分训练组为[49 000, 53 223,55 233,56 180,59 198,65 000,67 914];试验组为[71 422,76 200,81 122]。
依靠MATLAB求解灰色预测中3种模型的-a与b,得出各自对于试验组预测的误差平方和(SSE),见表2。
表2 3种灰色预测模型的运行结果比对
图2为3种模型对于试验组预测结果的比对,予以验证预测的准确性。
图2 3种模型对于试验组的预测结果
可知新陈代谢GM(1,1)的SSE最小,故选用新陈代谢GM(1,1)作为耦合模型之一。用新陈代谢GM(1,1)模型预测时,对原发电量数据的拟合程度也需要检验,依靠残差检验和级比偏差[20]检验参与模型评价。
1)残差检验。定义相对残差
(13)
式中,k=2,3,,n。
则有平均相对残差
(14)
(15)
则有平均级比偏差
(16)
使用新陈代谢GM(1,1)模型对中国2022—2030年的短期发电量进行预测,其中相对残差、级比偏差的迭代结果如图3所示。
图3 相对残差与级比偏差的迭代结果
依靠MATLAB可得到平均相对残差为0.014 341;平均级比偏差为0.017 582。根据检验比对,中国2012—2021年的发电量数据使用新陈代谢GM(1,1)模型时的拟合效果较好。故利用新陈代谢GM(1,1)模型,使用MATLAB绘制出中国2022—2030年的短期发电量初步预测图,如图4所示。
图4 2022—2030年中国发电量初步预测
可以发现,预测数据在随着年份的增加,发电量数据可能趋向指数爆炸,故需要引入阻尼效应,加强预测效果的鲁棒性。
3 时间序列分析
3.1 ARIMA预测模型介绍
ARIMA模型——ARIMA(p,d,q)模型(差分自回归移动平均模型)。其中p表示自回归项,d表示时间序列平稳差分次数,q表示移动平均项数[21-23]。用SPSS处理2012—2021年发电量数据,选择ARIMA(1,1,2)模型进行2022—2030年的拟合预测。ARIMA(1,1,2)模型又叫阻尼趋势模型,适用条件:线性趋势逐渐减弱且不含季节成分[24],模型本身在Holt模型基础上引入阻尼效应,可缓解较高线性趋势,考虑到未来发电量预测稳健性,改善单一灰色预测的无阻尼性,故使用阻尼趋势模型作为耦合模型。阻尼趋势模型具体表示为
(17)
如果φ=1,则阻尼趋势模型就转化为了Holt线性趋势模型,当0<φ<1时,则φ值会对趋势产生阻尼效应。
3.2 ARIMA模型的拟合
利用SPSS软件分析得出残差自相关图、残差偏相关图,如图5所示。
图5 发电量的残差自相关和偏相关
用阻尼趋势模型得到中国2022—2030年发电量的拟合预测图,见图6。
图6 ARIMA模型的发电量拟合
由图5可看出所有滞后阶数的自相关系数、偏自相关系数均和0无显著差异,模型拟合度中R2为0.982,这表明估计效果较好,ACF和PACF图形显示残差为白噪声。故使用ARIMA(1,1,2)模型(阻尼趋势模型)来进行预测是可取的。图6中置信区间上限为紫色虚线段UCL,置信区间下限为LCL。
4 灰色-ARIMA耦合模型的预测
选取2种或2种以上的预测模型分别进行预测,由模型预测结果,确定耦合权重,搭建耦合关系,实现不同模型之间的组合预测,即为耦合预测模型[25]。由上述新陈代谢GM(1,1)与阻尼趋势模型分析结果可知两种模型皆可用于发电量预测,为防止单一模型预测精度不高等问题,将二者耦合,搭建出等权重的灰色-ARIMA耦合模型,对中国2022—2030年发电量作短期预测,得到相应的耦合预测趋势图。
图7 灰色-ARIMA耦合模型的中国2022— 2030年发电量预测结果
图7中绿色的虚线段表示模型耦合后的置信区间上限(UCL),红色的虚线段表示模型耦合后的置信区间下限(LCL)。
灰色-ARIMA耦合预测得出2022—2030年的发电量数据,见表3。
表3 2022—2030年中国发电量耦合预测数据 单位:亿kW·h
5 结语
基于新陈代谢GM(1,1)与阻尼趋势模型之间的耦合预测了中国2022—2030年的短期发电量。在发电量预测中利用试验组中的后3列原始数据与预测出的数据,求解模型各自SSE,对比出SSE最小模型,予以验证预测的准确性。在模型评价中,通过残差检验/级比偏差检验可知中国2012—2021年的发电量数据(原始数据)使用新陈代谢GM(1,1)模型时的拟合效果较好。故新陈代谢GM(1,1)模型来充当耦合模型是可靠的,算法在短期预测时具备一定稳健性。再由阻尼趋势模型的引入,其中ACF和PACF图形的残差检验合理,且拟合度中的R2为0.982,则将阻尼趋势模型其与新陈代谢GM(1,1)模型进行耦合,搭建灰色-ARIMA耦合预测模型,对中国2022—2030年的发电量短期预测具备一定的鲁棒性,为中国制定新能源措施与电力发展规划提供了参考。