基于自编码网络和经济增长数据的工业负荷预测模型
2018-09-08柳文轩赵俊华
孙 钢,杨 宁,柳文轩,吴 磊,韩 蕾,赵俊华
(1.国网浙江省电力有限公司电力科学研究院,杭州 310014;2.国网浙江省电力有限公司杭州供电公司,杭州 310009;3.香港中文大学(深圳)理工学院,广东 深圳 518100;4.国网浙江杭州市富阳区供电有限公司,杭州 311400;5.浙江华云信息科技有限公司,杭州 310008)
0 引言
电力是国民经济的重要基础,电力行业在支撑其他行业的发展中起着不可或缺的作用。由于电力目前存在着不可大规模储存的关键特点,其消耗量能够直接反映产业经济发展的实际情况,因此被视作宏观经济的标尺性指标。所以,用电量是宏观经济增长的一个重要指标,可以用于产业经济预测。反之,宏观经济的变化也可以用来进行行业电力负荷的预测。
近年来,电力需求与GDP(国内生产总值)增长之间存在的增长背离现象正引起学者们的广泛关注。就目前收集到的数据,用电量和宏观经济增长的趋势并不完全一致。以浙江省统计年鉴为例,2015年下半年浙江省总耗电量下降1.35%,但GDP仍然增长了6.7%。同样,全国用电量累计增长也出现了下降,而宏观经济保持正增长。这种背离现象甚至远高于1998年的亚洲金融危机时期。基于这类现象客观存在的考虑,研究如何建立合适的模型来准确预测电力负荷与经济增长之间的相关性和可能的分歧性是至关重要的。
传统的宏观经济学是通过研究经济周期的变化来预测不同行业的状况的[1]。这种研究一般需要遍历若干个完整的经济周期。一个周期包含在一段相同时间内若干个产业内部所发生的扩张、衰退、收缩和复苏[2]。其中比较常用的有经济景气分析法[3]。经济景气分析法主要使用计量经济学的方法,利用时间序列的线性自回归模型分析时差相关系数、K-L统计量等参数,筛选并构建先行、一致和滞后指标体系,从而为判断宏观经济和相关行业的走势与预测提供可行的参考依据。
传统方法的优势包括:
(1)模型中的解释和控制变量都具有明确的经济含义,可以在决策时提供对应的经济学解释。
(2)模型不需要大量和高频的样本数据。
由于经济景气分析法是基于线性的模型,模型往往伴随着欠拟合的缺陷。同时,由于该方法中的指标体系来自经济学家的个人经验,对应一些特定的行业,同样的指标体系会显得缺乏相关行业的解释性。进一步,即使全部的模型参数都通过了统计和经济检验,线性模型的结果依然会存在由样本的多重共线性和异方差所带来的不可靠[4]。所以,基于线性回归的模型在做预测时往往会表现得很差。为了解决传统方法存在的预测不准确问题,将创造性地引入目前主流的深度学习技术,从而构建经济变量间的非线性回归模型。
AE(自编码网络)是一类特殊的前馈神经网络,是目前深度学习中的三类主流方法之一,属于无监督学习[5]。自编码网络一般用来提取样本数据中的有用先验信息,常见的应用有除噪。一个自编码网络至少包含两个部分,一个将原始样本关键信息提取出来的编码层,和一个依据关键特征信息还原样本的解码层。和大多数神经网络模型一样,自编码网络的训练目标也是最小化某个损失函数。不一样的是,不同的自编码网络会在损失函数上添加不同的正则项,以达到所需特殊信息的目的。目前,自编码网络已经应用于图像、电力、医疗等多个领域[6]。
为了构建合理的基于经济增长数据的行业用电量预测模型,选用自编码网络来提取行业经济增长数据中与行业用电量最相关的特征。然后用这部分特征进行行业的用电趋势预测。该模型会与以经济增长数据为自变量、用电量数据为因变量的传统经济景气分析中所使用的ARMA(自回归滑动平均)模型进行对比。从而体现其优越性。
1 文献综述
1.1 经济增长对行业用电的预测
文献[7]应用经济周期理论和状态空间模型对我国的电力需求的周期性变化进行预测,并得出了电力周期波动和经济周期波动的频率基本保持一致。该文献还指出了,根据对电力需求曲线的“拐点”分析,产业结构调整和经济周期波动是用电量呈周期性波动的主要原因。
文献[8]采用年度面板数据对比了16个重要国家的用电量和宏观经济发展关系。研究发现用电量和经济增长的关系主要体现在电力消费弹性系数的变化上。影响用电量和宏观经济增长关联的主要因素有单位产值电耗、电力消费结构和终端市场的变动频率。
文献[9]主要研究了第二产业内部的增值变化和电力消耗变化的关系。研究发现行业内部的结构变化是电力消耗下降的主要原因。另外,研究认为导致第二产业不同行业的电耗差异较大的主要因素是经济结构变化和节能降耗效应。
文献[10]采用了半参和非参的统计模型对我国用电量及其相关影响因素做出了研究。结果表明我国经济的快速增长、人口和经济结构的转变都是影响我国用电量的重要原因。
以上都是基于传统的经济周期波动理论对行业用电量进行的周期性研究。
1.2 自编码网络的应用
自编码网络观点的提出起于神经网络模型的伊始[11]。后来因为不同的特征提取标准,演化成了多种形式:稀疏自编码器[12]、降噪自编码器[13]、正则自编码器[14]、收缩自编码器[15]和边际降噪自编码器[16]。并且在工业、图像、文字等领域得到了广泛的应用。
文献[17]将自编码网络用于人类免疫缺陷病毒的分类。通过来自南非的问卷调查数据,研究发现自编码网络在测试集上的准确度达到了92%,高于传统前馈神经网络模型的84%。
文献[18]在跨模式搜索中引入了自编码网络。研究表明,在图片和文字混合的模式下,自编码网络对关键信息的检索频次要高于传统的主成分分析法。自编码网络的准确度为93%,而被比较方法的准确度为81%。自编码网络的高准确度搜索能力不仅可以被用到具体的应用中,还可以被用到强化学习的求解过程中,以替代传统的梯度下降法[19]。
在图像识别和还原上,自编码网络从二维图像中识别出人的形象,并且能够还原到三维的立体图形中,其还原误差相较于传统的方法下降了20%~25%[20]。在自然语言生成上,已经有成型的基于长短时记忆模型的自编码网络可生成人工校对流畅的语句和段落[21]。
现在大多数自编码网络还未应用于经济相关领域。在该研究中,创造性地考虑利用自编码网络的特征提取能力,从电力与经济数据中自动识别出相关的因素。
2 模型介绍
根据行业经济增长数据和用电量数据建立了一个经济景气模型。由于大部分电能都是由第二产业消耗的,所以工作内容主要集中于研究第二产业中各行业的经济增长与电力需求间的关系。
模型的前半部分为线性的ARMA模型,用于描述行业经济增长的时间序列与当下用电量间的定性线性关联性。对ARMA模型做了对数化处理,旨在削弱由样本数量级引起的异方差对模型的影响。然后,模型的后半部分使用了自编码网络模型用于对行业用电量进行定量预测。这两种方法会在数值实验部分进行比较和评价。
2.1ARMA模型
ARMA模型是最常见的平稳时间序列模型之一,并广泛应用于计量经济分析里。ARMA模型可以清晰的展示平稳随机过程与自身滞后项、残差滞后项之间的定量关系。此处所使用的是ARMA模型的一种特殊建模,叫做ADL模型(自回归分布滞后模型,其形式为:
式中:Yt为因变量,即文中的时间t行业用电量;Xt为自变量,即文中的时间t行业的经济增长量;ε为残差向量,包含了时间t以来的全部残差项及其权重系数。
目标是根据样本数据,估计出模型中的所有系数a0,a1,…。通过一些基本的假设[22],这里采用简单最小二乘估计法[23]来求解它们。
系数估计完毕以后,需要对系数进行T检验以确保系数的可靠性。然后计算皮尔逊线性系数R2值,来确认模型对样本的拟合度。
2.2 自编码网络模型
传统的多元线性回归方法虽然具有原理简明、易于实现等优点,但由于其构建的回归模型是线性的特点,难以用于有效拟合经济数据中隐藏的非线性函数关系。因此,此处将创造性地引入目前主流的深度学习技术,从而构建经济变量间的非线性回归模型。自编码网络是一类特殊的前馈神经网络,是目前深度学习中的三类主流方法之一,如图1所示。
图1 自编码网络原理
单隐层自编码网络由一个编码映射层f和一个解码映射层g组成。输入向量X经过编码与解码两次非线性映射后得到的输出X′=g[f(X)]应与输入X近似相等。此时,由于网络的中间层结果f(X)经过解码映射g即可基本还原出X。这表明f(X)包含了原始输入X中绝大部分的关键信息,是X的一个有效的特征表示。在实际应用中,令f(X)的维数小于X,在保留输入关键信息的前提下实现降维的目的。
自编码网络的训练在数学上可抽象为如下的优化问题:
式中:JAE为自编码网络优化的目标函数;L为度量输入X与输出X′之间距离的损失函数(如平方误差);W为决策变量,表示网络参数(输入与输出权重及激发函数参数)。
为了确保从数据中提取有意义的,且具有某些良好数学性质的特征,在优化目标中引入正则项。例如,在优化目标中加入网络参数的二范数:
式中:JAE+WD为加入网络参数影响后的优化目标函数;λ为正则项的偏差系数。
则可以避免过拟合问题,这称为二范数正则自编码。若在优化目标中加入编码映射对输入导数的二范数:
式中:JCAE为加入输入导数影响后的优化目标函数;∂为偏微分算子。
则可以增强对于输入当中的随机扰动的鲁棒性,这称为收缩自编码。
当自编码网络的训练完成,在实际应用时只使用其编码映射层用于提取数据特征。常见的深度自编码网络首先应用多个编码映射层进行复杂特征的提取,然后再利用一到两层的全连接层进行分类与预测。此处考虑利用自编码网络的特征提取能力,从电力与经济数据中自动识别出相关的因素。
3 算例试验设计
为了以实证的方式证明所提出方法的有效性,选择过去6年中国主要省份的日工业用电量和月工业收入数据来训练和测试对数化的ARMA模型和自编码网络。然后比较这两种方法的差别。
3.1 数据集描述
在这两个试验中,有20个第二产业的相关行业被选取。
试验选取了2012年1月1日—2017年12月31日6年间的20个行业月度工业产出值及对应的同比增长率数据。为每一个行业建立单独的模型,每个行业的月度产出为自变量,而相应的每个部门的日用电量为因变量。数据来自中国某省统计局和电网公司。
3.2 模型描述
第1个试验使用的是对数化的线性ARMA模型。经过对AFC和PAFC系数的检验,最终确定为ARMA(2,1)模型,即自回归项为2阶,移动平均项为1阶。这个ARMA模型最终会作为整个试验的对照组。
第2个试验使用的是一个自编码网络模型。常见的自编码网络模型的节点特征函数见表1。
表1 自编码网络中常见的节点特征函数
试验中,设定了一个2隐层10个节点的自编码网络,节点特征函数皆为sigmoid函数。
4 算例与分析
4.1ARMA分析的结果
模型的自变量是月度工业产出值的月环比(单位是%),因变量是月度耗电量(单位是kWh)。每个产业的对数线性回归结果如表2所示。
通过回归分析发现回归系数大多无法通过统计检验且调整R2的数据不高(只有电力和热量产供应业、医药制造业超过了0.5),所以通过月度工业产出值的月环比来预测月度耗电量的线性回归模型效果不理想。这是由经济数据的采样频率过低,而无法匹配相对高频的用电数据导致的。
4.2 自编码网络的结果
自编码网络模型的输入为不带标记的月度工业产出值的月环比数据和月度耗电量数据,输出是月度耗电量。因为模型包含有2层10个sigmoid函数的节点,所以不方便把模型的完整形式一一写出。这里给出均方差以对比预测的准确度。两种方法的均方差对比如表3所示。
根据结果,可以得到几个结论:
(1)在大多数情况下(在12个行业中),自编码网络的预测比经典线性回归模型更好。
表2ARMA模型的回归结果
(2)然而,仍有7个行业,线性回归比自编码网络有更好的表现。
(3)其中废弃资源和废旧材料回收加工业中自编码网络的预测和经典线性回归模型结果几乎一样。
4.3 基于自编码网络的经济景气模型
通过自编码网络,可以利用行业的经济增长数据预测相关产业的用电量。再用预测值对现有观测值求相对增长率(即求差后除以现有观测值):当该值大于50%时,可以认为所求行业是十分景气的;25%~50%时,可以认为是一般景气的;0%~25%是略为景气的;-25%~0%是略为不景气的;-50%~-25%时是一般不景气的;当增长率小于50%时,基本认为该产业已处于完全衰退的状态。
5 结语
提出了基于自编码网络和经济增长数据的工业负荷预测模型。在这个模型中,自编码网络首次被用来基于经济增长数据预测各行业用电量。应用统计局数据的实证研究表明,在第二产业的大多数行业中,自编码网络表现出更高的准确性。这个模型可以作为地方政府对其工业发展作出决策的基准。
表3 ARMA模型与自编码网络模型的预测结果