基于可视化及多元线性回归探究影响人均GDP的因素
2019-11-11蒋秉烨
蒋秉烨
摘要:在国民经济发展的过程中,国内生产总值(GDP)无疑是衡量一个国家综合国力的重要指标,本文通过使用CIA所收集的各国经济数据,基于可视化分析及基本統计数据寻找与人均GDP相关的数据特征,并通过多元线性回归预测各国人均GDP,此方法可为相应的决策部门提供科学依据。
Abstract: In the process of national economic development, gross domestic product (GDP) is undoubtedly an important indicator to measure a country's overall national strength. This paper uses the economic data collected by CIA to find the data characteristics related to GDP per capital based on visual analysis and basic statistical data, and predicts the GDP per capital of each country through multiple linear regression. This method can provide scientific basis for the corresponding decision-making departments.
关键词:国内生产总值;经济数据;可视化分析;多元线性回归
Key words: gross domestic product;economic data;visual analysis;multiple linear regression
中图分类号:O212.4 文献标识码:A 文章编号:1006-4311(2019)29-0011-04
0 引言
国内生产总值(GDP),是一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果。GDP是国民经济核算的核心指标,也是衡量一个国家或地区经济状况和发展水平的重要指标[1]。
在经济形势分析中,常常需要对主要经济指标进行预测,特别是对GDP的总量和增长速度进行预测(政府统计部门和发展计划部门的这种要求尤为迫切)。对GDP的增长速度以及总量的分析是主要的经济形势分析指标,准确地对未来几年的GDP状况进行了科学预测[2],并对影响GDP发展的主要因素进行了系统分析,确定了各因素相对于GDP发展的关联程度,为相应的决策部门提供科学依据。
本文通过可视化分析数据的基本属性以探究人均GDP与多因素间的关系,并构建多元线性回归模型预测各国人均GDP,相关决策单位可对预测值进行分析,并对接下来的经济以及其相关领域的发展方式做出判断和改良。
1 相关研究
精准地预测地区或国家GDP对指导发展具有重要的意义,不少研究表明基于统计的方法可推算出各类经济指标的发展趋势,如刘海涛对国内外GDP质量的评估研究进行综合评述,后根据多个原则设计了中国GDP质量的评价指标体系,基于层次分析法,离散数据法,综合指数法测算出中国GDP质量水平发展趋势[3]。
综合多种预测模型或考虑数据时间序列的方法也获得高模型精度[4,5,6],如薛倩,涂值凤等人应用时间序列分析中的指数平滑法和ARIMA模型以及组合预测模型分别对重庆市GDP进行预测,结果表明组合预测模型精度最高[7];王红超,王红蕾等基于指数平滑法和回归分析相关理论对时间序列历史数据近期数据构建预测模型,并对我国2017年进行预测,结果表明该方法在数据短中期预测时的可行性[8]。
在预测GDP的未来趋势中,使用单变量的方法难以综合考虑各类影响因子,如刘浏使用一元线性回归对甘肃省GDP进行预测,虽然结果基本符合国家十三五规划期间预测值[9],但仅利用单一变量进行预测,模型缺乏复杂度无法真正拟合GDP的数据特征,故本文提出以多变量的线性回归对各国人均GDP进行预测。
2 研究方法与分析
2.1 数据基本分析
本文使用数据来自于CIA所收集的World Factbook数据,其包含世界227个国家的基础资料,包括国土面积、人口数量及密度、历史GDP指数、各工业产值、出生率及死亡率、所属大洲等20个栏位。
在分析数据前,本文对数据进行前处理,包括对以数据平均值填充空数据NaN、转换数据格式以符合模型的处理规格。为了筛选与人均GDP相关的因素,本文对数据进行基本的统计及可视化分析,如图1是CIA收集的人均GDP前20的国家。
度量两个变量之间线性相关性常常用皮尔逊相关性统计量。从图2分析可知,人均GDP高的国家,其服务业占经济产值总比较高,而农业占比较低,同时,这类国家的人们识字率也相对较高,推论得知识字率较高的人群往往受比较好的教育,而其生育欲望也较为低下,这与数字所表示的出生率、死亡率与人均GDP呈反比。另外,每千人手机拥有量也与人均GDP高度相关,21世纪科技的高速发展也是导致这一现象的原因之一,推测手机等通讯设备可促进信息的流通。
2.2 多元线性回归
为了对上文线性相关图表作进一步分析,以探究与人均GDP相关联的因素与选取线性回归模型所需的特征值,本文通過分析各变量与人均GDP的散点图,如图3所示,其中千人手机拥有量、服务业占GDP比重、识字率、净移民与GDP呈正相关;出生率、婴儿死亡率、农业呈负相关;而农作物收成率、死亡率与GDP无明显相关。
综上分析,本文选取人口数、国家面积、人口密度、海岸线的长度、净移民、婴儿死亡率、识字率、每千人手机拥有量、出生率、死亡率及各产业所占比值等13个变量作为线性回归的变量特征。
2.3 流程介绍
本文设计研究流程框架如图4所示,首先将收集的数据进行前处理,包括对数据缺失值及错误数据的删除,随后将数据划分为训练集及测试集。
在构建模型之前,本文随后以基本统计分析和可视化分析两种方法找出影响GDP的关联因素,使用Sklearn建立多元线性回归模型并进行训练及模型评估。Sklearn是一个用于分类、回归、聚类、模型选择等机器学习的Python工具库;多元线性回归是一个预测模型,根据历史数据样本,在不需要未来数据的情况下预测未来回归参数,并将预测结果与实际值进行比较分析[10]。
2.4 比较与分析
在评估模型性能表现上,本文选用RMSE(均方根误差)与MSLE(均方对数误差)计算模型损失[11]。RMSE是一种常用的测量数值之间差异的量度,其数值常为模型预测的量或是被观察到的估计量。MSLE计算的损失是对数变换的真实值和预测值之间的平方差异的平均值,如公式(1)。
公式(1)MSLE计算模型损失
模型的损失如表1所示,可看到其在训练集和测试集的表现较为接近,而由于人均GDP的数据特点,使用RMSE显得损失太大,故如果在多模型进行对比时,可考虑使用MSLE进行评估。
3 结论
本文通过使用CIA所收集的各国经济数据,基于可视化分析及基本统计数据寻找与人均GDP相关的数据特征,并通过多元线性回归预测各国人均GDP,最终使用两种损失计算评估模型性能。
准确的预测国家人均GDP具有重要的意义,本文研究发现千人手机拥有量、服务业占GDP比重、识字率、净移民与GDP呈正相关;出生率、婴儿死亡率、农业呈负相关;而多元线性回归的结果表明通过一个国家的基本经济数据,可以较为准确地预测国家的GDP。在未来的研究中,学者可以收集更加详细以及具备时间序列的经济数据,从而更加准确地预测经济的发展。
参考文献:
[1]徐菁.对财政收入与GDP相关性的分析[J].浙江金融,2007(1):49-50.
[2]James, Spencer L., et al. "Developing a comprehensive time series of GDP per capita for 210 countries from 1950 to 2015." Population health metrics 10.1 (2012): 12.
[3]GB/T 7714 刘海涛.中国GDP质量的评价体系研究[D].西北师范大学,007.
[4]李凯,张涛. 上海市2017-2020年GDP预测研究——基于改进的GM(1,1)模型[J].华东经济管理,2017,31(10):11-15.
[5]张静.基于贝叶斯时序模型的甘肃省人均GDP预测[J].数理统计与管理,2018(2):205-210.
[6]张竞文,李洋,孙德山.时间序列模型在辽宁省GDP预测中的应用[J].中国集体经济,2017(7):61-62.
[7]薛倩,牟凤云,涂植凤.组合预测方法在重庆市GDP预测中的应用[J].重庆工商大学学报(自然科学版),2017(1).
[8]王红超,王红蕾.基于指数平滑法与回归分析相结合的GDP预测[J].经济研究导刊,2018(7):1-6.
[9]刘浏.基于线性回归的甘肃省“十三五”时期GDP预测[J]. 淮海工学院学报(人文社会科学版),2017(3):90-92.
[10]王惠文,孟洁.多元线性回归的预测建模方法[J].北京航空航天大学学报,2007,33(4):500-504.
[11]Willmott, Cort J., and Kenji Matsuura. "Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance." Climate research 30.1 (2005): 79-82.