新冠肺炎疫情对我国季度GDP增速影响估测
——基于机器学习回归预测模型
2021-04-20李颖谭广
李 颖 谭 广
一、引言
2020年以来,受新冠肺炎疫情持续蔓延影响,我国当年前三季度GDP同比增速分别为-6.8%,3.2%,4.8%,出现了自1992年季度GDP核算以来的首次负值。此次新冠疫情致病性强、传播范围广、持续时间长、影响层次深、不确定性大。我国GDP增速不仅面临国内经济结构转型压力,还受到中美贸易摩擦博弈明显的影响,在国内外双重压力共振下,新冠疫情的持续存在,让我国经济环境盘根错节。
所得数据均以均数±标准差表示,采用SPSS 24.0软件进行统计学分析,组间比较采用单因素方差分析,两两比较采用LSD-t法,P<0.05为差异有统计学意义。
历年以来,SARS、H1N1、埃博拉疫情等突发性公共卫生事件对经济的影响持续受到学界广泛关注。新冠肺炎疫情发生后,陈林等基于文献回顾视角,梳理重大传染病疫情大规模传播原因。周新辉等选用贝叶斯岭回归模型估测在三种情景下,中国中小服务型企业所受疫情冲击的数值。周梅芳、张文斗、吴婷婷等从供给侧、需求侧、区域经济与行业经济、产业链及供应链等方面探讨新冠疫情对我国经济造成的负面冲击。
通过梳理相关文献发现,现有研究多侧重于从微观角度分析疫情对某一经济产业或行为主体的影响,未能量化评估新冠疫情对我国宏观经济的影响。而GDP作为宏观经济的基础性指标,探究疫情对GDP增速的影响,可为我国找寻疫情损失提供理论依据。基于机器学习算法无需对数据作出假定要求,以及结果可用交叉验证判断的特点,本文利用开源的Python语言,通过机器学习不同回归算法模型对历史数据进行建模测算,再选取最优预测模型估测未发生新冠疫情情况下,2020年第一季度至第三季度的GDP增速,定量分析在现有防控体系下新冠肺炎疫情对我国GDP增速的影响。
经测算:按税后利润由高到低排序为:贸易融资、其他零售、住房按揭、大公司授信、信用证、贴现;按RAROC由高到低排序为:住房按揭、贸易融资、其他零售(贴现并列)、信用证、大公司授信;按考核得分由高到低排序为:贸易融资、住房按揭、其他零售、大公司授信、信用证、贴现。
二、机器学习回归预测模型理论
(一)机器学习回归预测模型
GDP季度增速的预测指标体系已有多篇文献进行讨论,结合我国经济发展的阶段性特征,并参考肖争艳做法,综合选取反映消费水平、国内外贸易水平、重点产业、投资及能源、金融及财政等方面的指标,构成14个变量(见表1)以预测GDP季度增速。
(二)梯度提升回归树(GBRT)算法理论
接下来进一步利用上述前五种效果较佳的回归模型对被解释变量GDP增速进行预测,得到2018Q1-2019Q4预测结果见图1。从图1可以明显看出,梯度提升回归树(GBRT)模型的预测值与实际值的拟合度最高,预测效果最好。XGBoost、ElasticNet、BayesianRidge、Bagging这四个模型的预测稳定性相对较差,阶段性预测结果偏高或偏低情况明显。
对3种预处理方法处理的枸杞子原料的外观、粉碎后粉末流动性、作业难度、设备损耗、工作效率等进行比较,为选择合理的干燥方法提供参考依据。经过预处理后的枸杞子颗粒,粉碎后仅少量粉末黏附在粉碎设备内部,样品损失较少,具体情况见表2。
收集并处理好相关数据后,利用Python工具以及机器学习库(Skearn)对数据进行建模分析。具体地,划分样本数据的60%作为训练集,20%作为验证集,20%作为测试集,再把训练集导入到不同的回归模型中进行建模训练,然后用验证集对模型进行参数调整以达到该模型最优效果,再将训练集和验证集数据所训练出的模型作为最终模型。最后用测试集对模型效果进行评估,比较得到泛化误差最小的优化回归模型。为了合理评估模型的泛化能力,选取更优的预测模型,选取拟合优度(R2)、解释方差(Evar)、均方误差(MSE)、平均绝对误差(MAE)四个评估指标对13种模型结果进行检验。检验效果如表2所示。
三、季度GDP增速预测指标体系构建
(一)变量选取
本文采用的经典机器学习方法有bagging回归、Adaboost回归、XGboost回归、随机森林回归(RF)、梯度提升回归树(GBRT)、弹性网络回归(ElasticNet)、贝叶斯岭回归(BayesianRidge)、决策树回归(DecisionTree)、支持向量机回归(SVR)、K最近邻回归(KNNRegressor),其中前7种属于集成学习,是将多个弱学习器组合成的强学习器。同时还辅以传统预测方法:线性回归(LR)、lasso回归、岭回归(Ridge)。将这13种方法的预测结果进行比较,优选出梯度提升回归树(GBRT)算法模型进行2020年第一季度至第三季度的GDP增速预测。
(二)数据来源及处理方式
指标的获取来源主要为国家统计局官网(http://www.stats.gov.cn)和中经网统计数据库(https://db.cei.cn)。月度数据选取时间为1997年1月至2020年9月,季度数据的选取时间为1997年第一季度至2020年第二季度,缺失值用Python中的interpolate()进行插值处理。指标解释及处理方式如表1所示。
表1 指标解释及处理方式
表2 13种回归模型的评估指标结果比较
四、预测模型比较及选择
(一)模型效果检验
对两组患者的PLT(血小板)、WBC(白细胞)、中性粒细胞、淋巴细胞等血常规指标,以及TBIL(总胆红素)、ALT(谷丙转氨酶)、ALB(白蛋白)、A/G(肝功能白球比例)等生活指标水平进行观察与记录。
由上述分析得知,梯度提升回归树(GBRT)模型的预测效果最好,接下来将主要采用该模型来估测未发生疫情情况下,我国2020年第一季度至第三季度的GDP增速。
(二)预测结果比较
其次,计算负梯度rti及回归树每个叶子节点区域Rtm的输出值ctm, 并更新强学习器:
五、基于GBRT模型疫情下我国GDP增速预测分析
根据上述评估指标结果(表2),可以看出梯度提升回归树(GBRT)模型相较于其他回归模型有较稳定的表现,预测精度较好;而XGBoost、BayesianRidge、ElasticNet、Bagging等集成学习回归模型效果也相对不错;剩余回归模型效果相对较弱。
(一)模型调参及解释
运用梯度提升回归模型进行建模分析时,重点对模型参数中的学习率(learning_rate)以及回归树数量(n_estimators)进行调参。基于模型参数的特征,最终采取网格搜索的方法进行模型参数设定,以此得到最优模型参数。
表3 备特征向量的重要程度
由于特征向量中不同的变量对预测结果有着不同的影响,遂通过GBRT模型输出各解释变量对最终预测结果的重要性比重。表3给出了各解释变量对于预测结果的重要程度排序,其中工业增加值同比增速、第三产业增加值同比增速、发电量同比增速、出口额同比增速对于预测结果的贡献度最大,这与实际情况比较符合。
(二)预测结果分析
由图2可以看出,未受疫情影响下,2020年一、二、三季度GDP增速预测值分别为6.74%、6.43%、6.46%。与发生疫情后的GDP真实值对比发现,2020年第一季度GDP增速损失13.51%,第二季度GDP增速损失3.23%,第三季度GDP增速损失1.56%。结果表明,此次疫情对我国GDP增速带来短期巨大冲击,但由于率先控制住疫情,且系列恢复经济的举措加快推进,刺激消费的措施不断出台,我国GDP增速在第三季度达到较好效果。
《中共中央关于全面推进依法治国若干重大问题的决定》指出,法律是治国之重器,良法是善治之前提。中国海外投资保险法律制度是中国促进、管理和保护海外投资的基本法律制度,应当国家立法化,走良法善治之路。美国在 1961 年的《对外援助法》中详细规定了海外投资保险制度,1981 年还制定了《美国海外私人投资公司修正法》。德国在《联邦预算法》、日本在《出口保险法》、英国在《出口和投资保证法》中对海外投资保险事项作出详细规定。上述国家的成功经验表明,以国家立法方式,建立和实施完善的海外投资保险法律制度,防范和补救海外投资安全风险损失,是一国发展海外投资,树立国际地位的重要法律途径。
六、结论
为了定量估测新冠疫情对我国GDP增速的影响,构建了GDP增速预测指标体系,择优选出梯度提升回归模型(GBRT)对未发生疫情情况下2020年第一季度至第三季度GDP增速进行预测,并得出以下结论:一是在GDP增速预测中,以梯度提升回归模型为代表的集成学习,比一般机器学习具有更优良的泛化能力;二是工业增加值同比增速、第三产业增加值同比增速、发电量同比增速、出口额当期同比增速对GDP增速预测的贡献度相对较大;三是新冠疫情的暴发导致我国2020年第一季度至第三季度GDP增速分别损失13.51%、3.23%、1.56%。