上下游行业用电变化的因果关系及预测方法
2021-04-20包永迪杨一帆王旭强周佳禾
包永迪,杨一帆,王旭强,周佳禾
(国网天津市电力公司信息通信公司 数据管理服务中心,天津 300010)
0 引言
地区经济与行业发展存在着密切的联系。以细分行业为立足点,并结合相关发展数据和政府政策,可以分析地区经济的产业结构,梳理区域内行业间的上下游关系,这对公司、政府等主体进行宏观战略制定具有重要意义。
目前,一些研究探讨了电力消费结构与经济增长、行业发展的关系[1-2],其结论表明电力消费结构与经济和行业的发展存在明显的相关性,而电力发展的趋势也能反映经济和行业发展的态势。一些研究从商品链、企业或产业链的视角分析其上下游对其自身的影响[3-4],通过分析上下游关系来为其自身提供决策支持。然而,缺乏将这两种视角结合起来的研究,即从电力消费结构的角度,探讨相应层次的上下游关系。
本文提出了一种关联性分析模型,利用天津市区域级、行业级的电力消费数据,从宏观上分析区域内的行业上下游关系。除此以外,还对区域内的行业进行了用电量建模,从而预测行业在滞后时段内的用电量。
1 问题分析与数据收集
电力消费结构与地区经济中的产业结构有着密切的联系。基于一定的技术关联,在产业结构内部客观上存在着具有时空布局关系的链条式关联形态,链条上的每一个节点都可以由一个细分行业来替代,因此这种关联实际上揭示了行业间的上下游关系[5]。行业上下游关系反映了整个产业结构背后的价值、企业、供需、空间关系。国内外学者对行业上下游关系及产业结构做了一些相关的研究。然而,这些研究在揭示行业上下游关系时,往往具有特定的限制,缺乏适应性强的方法,还有一些研究则是基于主观上的定性分析,而非利用定量的方法反映客观状况。因此,本文提出了一种定量分析的具有较强适应性的方法,即通过研究电力消费结构来揭示行业的上下游关系。
研究行业上下游之间的时间周期、关联程度可以抽象为对多个时间序列进行滞后周期的分析和验证。有很多方法可以分析时间序列间的动态关系,其中最被广泛使用的方法就是向量自回归模型(VAR)。向量自回归模型是一种计量经济学方法,可以在不带有任何约束条件的前提下,估计联合内生变量的动态关系。另外,在判定行业上下游关系时,依靠经验和相关查证仍然不够客观。因此本文利用格兰杰因果检验方法对变量间进行双向因果检验。
本文使用的电力数据来自于天津市国家电网电力系统内部获取的天津市不同行业用电量数据,行业按三大产业分为3个大类,数据为按行业分类的2012年1月—2019年9月的月度用电量。
2 上下游行业用电关联性分析模型
上下游行业用电关联性分析模型是用来预测某一区域内行业上下游关系的模型。首先需要搜集相关的月度电力数据,并按照行业进行整理,然后将数据进行归一化等预处理操作。模型主要从时间序列分析出发,利用格兰杰因果关系检验验证行业之间是否会互相影响,在此基础上构建向量自回归模型找出存在的线性关系。
2.1 数据搜集与预处理
搜集的数据主要以月度电力数据为主,为了使模型结果具有可信度,必须搜集具有足够跨度的电力月度数据,本文利用了共计93个月月度电力数据,然后将电力数据以CSV形式进行存储。
为了方便处理,统一量度,本文将整理好的电力数据利用归一化方法完成了预处理。这里使用离差标准化方法即:
2.2 向量自回归模型与格兰杰因果关系检验模型
向量自回归模型描述了一组联合内生变量随时间演变的关系,并且可以通过将一组变量建模为由其过去值组成的线性函数。根据过去时间段数量上的不同,VAR模型可以有相应的变体,通常情况下,一个p阶的VAR模型指的是考量过去p个时间段的VAR模型,并可以表示成如下矩阵形式:
其中,yt-1表示相比于yt提前了i个时间周期的向量,c则是作为模型偏移常数的k维向量,A是维k×k的非时变矩阵,et则是用作误差项的k维向量。
格兰杰因果关系检验是用于分析变量间因果关系的一种方法。给定两个变量X和Y的时间序列,则可以定义格兰杰因果关系:若单独由Y的过去信息对Y进行预测的效果,不及同时利用变量X和Y的过去信息对Y进行预测的效果,则可以认为变量X有利于解释变量Y发生的变化,这时就可以认为变量X是导致变量Y的格兰杰原因。
在进行格兰杰因果关系检验前,必须具备的一个条件是变量的时间序列必须具有平稳性,否则可能会出现虚假回归问题。
2.3 建模过程与计算示例
整个建模过程可以分为6个步骤。
(1)平稳性检验。利用单位根检验法可以进行平稳性检验。若存在单位根则时间序列不平稳,当变量不平稳时,需要进行进一步差分,一般一阶差分后时间序列达到平稳,可继续进行协整检验。
(2)协整检验。针对非平稳的单个序列,但它们的线性组合可能是平稳的,若平稳性检验后为一阶单整的,且为非平稳时间序列,则各变量之间可能存在协整关系,如果某组要对所选择的内生变量进行VAR模型的构建,需要验证两者之间是否具有相同的趋势,所以要进行协整检验,以判断各个变量之间是否存在长期稳定的协整关系,处理各变量之间的是否存在伪回归问题。
图1 农业、农副产品加工业用电量趋势
(3)确定滞后阶数。两个时间序列回归存在一定的滞后阶数,其代表在几个时间点内的数据是较为相关的。通过AIC或HQ等不同信息准则选择出合适的结果。
(4)格兰杰因果关系检验。利用上一步选择的滞后阶数进行双变量的双向格兰杰因果关系检验,判断两变量是否对对方具有显著影响。在当前应用场景下,主要思想就是先利用目标行业自身时间序列进行AR模型的构建,即用前几个月的用电量对下个月回归,然后在此基础上加入另一行业前几个月的电量数据,同样对目标行业进行回归,若此时得到的回归模型好于之前,则说明此行业对目标行业有显著影响。
(5)拟合VAR模型。同样使用滞后阶数以及回归的方法,计算VAR模型的系数,得到相应阶数的方程。
(6)脉冲响应分析以及预测。利用上一步得到的VAR模型衡量脉冲响应值,并进行分析和预测。脉冲响应值即衡量在外部波动后存在的影响强度,正值代表正向影响,负值表示负向影响,绝对值越大,影响越强。
3 实验结果与分析
3.1 实验环境
本文实验的硬件平台为Intel(R)Core(TM)i7-9750H CPU@2.60 GHz、16 GB内存、1 TB大小的SSD硬盘以及Windows10操作系统,软件环境为R及RStudio。
3.2 平稳性检验与滞后阶数
依靠经验和相关查证可以预想,农业与农副产品加工业存在一定的上下游关系。
首先进行两个行业的时间序列图对比,如图1所示,可以看见趋势具有相似性,符合猜想预期。
经检验后两序列平稳,无须进行协整检验,这里选取的滞后阶数为3。
3.3 格兰杰因果关系检验
进行格兰杰因果关系检验,结果如图2所示。
两者P值均远小于0.01,可认为互相之间均存在显著的影响。
图2 农业、农副产品加工业格兰杰因果关系检验
3.4 拟合VAR模型
进一步进行VAR模型拟合,结果如图3所示,农业主要与1、3月前的用电量和1、2月前的农副产品加工业用电量显著相关,而农副产品与1、2、3月前的农业用电量显著相关。
图3 农业、农副产品加工业VAR模型拟合结果
3.5 脉冲响应分析
由VAR模型得到的农业脉冲响应图如图4所示。在一个时间点对农业施加一个冲击,对自己的影响随时间逐渐减弱,到7月后消失,对农副产品加工业同样具有相似的影响。
图4 农业脉冲响应
图5 农业预测与实际电量对比(2012.3—2019.9)
3.6 用电量预测
利用VAR模型可以对后续电量进行预测,为检验预测结果的准确性,利用模型对每个月都进行拟合,农业预测与实际值对比如图5所示。
农业的预测值与实际十分接近,而农副产品并不能完全吻合,但总体趋势一致,这意味着VAR模型的有效性。因此,利用这种方法,可以对滞后时间段内用电量进行预测。
4 结语
本文利用关联性分析方法,对区域内行业用电量进行建模,挖掘不同行业间的上下游关系。整个建模过程包括平稳性检验、协整检验、确定滞后阶数、格兰杰因果关系检验、拟合VAR模型、脉冲响应分析以及预测。实验结果表明,使用关联性分析建模,可以揭示行业上下游关系,预测滞后时间段内该行业未来的用电量,这意味着关联性分析模型的有效性。除此以外,本文仅仅分析了两个变量,若选择更多的行业进行关联分析,则可以得到更加准确的VAR模型和预测结果。