APP下载

基于聚类中心人口对经济的影响

2021-01-21苏理云白婷婷

重庆理工大学学报(自然科学) 2020年12期
关键词:省市线性聚类

苏理云,白婷婷,张 彤,王 倩,戴 菲

(重庆理工大学 理学院,重庆 400054)

世界各国经济学家对于人口过度增长阻碍经济发展均持肯定态度[1]。人口增长对经济发展的影响分为2个方面:一方面,人口增长为经济发展提供了必要的劳动力;另一方面,人口数量通过消费影响经济发展。在《中国发展报告:社会与发展——中国社会发展地区差距研究》第4章中,胡鞍钢博士使用多元回归分析技术,根据我国31个省市有关数据,测算了初始条件人口增长、人口质量等因素对经济的影响[2-4]。得出结论:人口增长率每降低1个千分点,人均GDP增长率可提高0.36~0.59个百分点,进而推论出:人口自然增长率降低几个千分点时会明显促进人均GDP的增长[5-6]。这佐证了人口过度增长阻碍经济发展这一观点。

人口的发展一方面反映了经济的发展,另一方面又影响、制约着经济的发展[7]。从某种角度而言,一个国家的发展在根本上取决于具有社会属性的人,人口素质的提高会为国家社会经济的发展带来一定的促进作用。经济全球化时代,低素质人口不仅不会促进经济的发展,还会成为经济发展的阻碍[8-9]。虽然现有的研究尚不能准确反映人口素质与经济增长有关指标的数量关系,但控制文盲率有利于经济发展。本文中,选取文盲率表示人口素质,文盲率越低的地区,人口素质越高,人才越多,经济发展水平在一定程度上就越好;当然,除人口素质以外,人口结构也会对经济的发展产生重要的影响[10]。由于改革开放时期到2014年计划生育政策的实施,我国人口结构模型极不科学。受传统封建思想的影响,使得女性人口逐渐减少,造成了人口性别比不协调,这在经济发展落后地区尤为突出[11-13]。此外,从目前的人口结构来看,农村人口较多,人口城乡构成比例大多小于1,这在贫困地区尤其明显,并在一定程度上影响了我国现代化建设的进程。

人口是社会经济发展的前提和最终归宿,经济的发展在很大程度上受制于人口数量、人口质量、人口结构及其变化的状况。尽管如此,由于发展之间的关系千差万别,不同地方人口对经济发展的影响有一定的区别[14-15]。要实现人口对经济发展的促进影响,必须控制人口密度、人口自然增长率,降低文盲率,优化人口结构(即人口性别比、总抚养比、人口城乡构成等),让社会经济保持适度的增长[16]。

本研究拟对我国31个省市人口对经济的影响展开分析,新颖之处在于将聚类分析这一经典算法引入了该研究,使文章具有更深远的经济意义。本研究先用聚类方法将全国31个省市划分为四类,再以聚类中心为基础,最后采用多元线性模型和神经网络分析方法对四类省市进行深入分析。

1 研究方法、指标选取及数据来源

1.1 研究思路

为了研究人口对经济发展的作用,本研究综合考虑地区差异因素,故把全国各省市分类研究。选择了反映经济和人口的12项指标,经综合考虑,通过K-均值算法将31个省市聚为四类,用6个经济指标将四类省市经济状况做了基本分析,排出优劣等级。然后保留人口的6个指标与反映经济发展的首要因素——人均GDP,根据分类结果,利用R软件建立多元线性回归模型以及BP神经网络模型进行深入分析,并对模型进行合理的检验和预测,然后通过神经网络进行探究预测,将2类结果进行比较,从而深入剖析人口对经济发展的影响,对影响经济发展的主要人口因素进行分析,阐明人口数量、质量以及结构对经济发展的作用。通过回归模型说明诸如人口密度、人口性别比、总抚养比、文盲率、人口城乡构成、人口自然增长率对经济发展的影响,对其重要程度给出客观评价及预测。

1.2 模型指标选取

决定经济发展的因素众多,选取的指标应反映我国经济的发展水平、地区经济发展的趋势,同时应考虑指标的科学性、客观性、合理性和可获得性。本研究结合聚类的结果进行筛选,选取了反映经济发展情况的一项指标:人均地区生产总值作为因变量,保留了聚类分析中的指标,即人口密度、人口性别比、总抚养比、文盲率、人口城乡构成、人口自然增长率作为自变量。选取的12个指标,其含义见表1。

表1 人口与经济综合评价指标体系

1.3 数据说明

本研究搜集了全国31个省市2003—2017年人均地区生产总值、人口密度、人口性别比、总抚养比、文盲率、人口城乡构成、人口自然增长率等数据,主要来源于国家数据网、国家统计局网、中国就业网、中国统计年鉴等网站和书籍报刊上,将数据进行整合分析,并且将经济增长与人口状况结合研究,参考经济学的理论基础,然后运用R软件进行分析和作图,更加直观地分析预测。

2 实证分析

2.1 聚类结果及解释

运用R软件对31个省市的相关数据进行了k均值聚类分析,得到了聚类分析结果。

由图1可知:当聚类个数从4开始之后,折线波动比较平缓,本研究遵循了选取纵坐标取值降低有减缓趋势时聚类个数这一原则,因此本研究选择将31个省市聚为四类。

通过各指标4个类别的聚类中心绘制曲线(如图2),对这4个类别做出了以下解读:聚类后的聚类中心是纯粹的数字,但由于对数据进行了标准化处理,因此无法根据聚类中心的数值把握其真实意义,只能通过正负来判断该指标是远高于平均水平还是远低于平均水平(平均水平为0)。

第一类地区的人均地区生产总值和居民消费水平均远高于平均值,物质基础雄厚,城市规模大,经济处于成熟阶段,因此将其划分为发达地区;第二类地区的各指标均为正值,工农业基础雄厚,拥有大批科技人才,水电资源、矿产资源丰富,经济处于成长性阶段,因此将其归纳为小康地区;第三类中除死亡率外均为负值,经济指标均高于第一类,人口指标大多低于第一类,其中大多为主要传统工业基地,矿产资源丰富,目前在转型阶段,发展优于第一类地区,因此划分为一般地区;第四类省市各指标大多为负值,都低于平均水平,人口出生率和自然增长率远高于其他三类,自然条件较差,交通不便,经济文化较为落后,但资源比较丰富,发展前景可观,经济处于开发性阶段,发展较为落后,因此将其划分为落后地区。

通过图3可以直观看出省市的分类,这四类地区分别为:

第一类:北京市、上海市、天津市

第二类:江苏省、浙江省、山东省、广东省

第三类:内蒙古自治区、重庆市、山西省、陕西省、湖南省、湖北省、河南省、河北省、吉林省、黑龙江省、辽宁省、安徽省、福建省、四川省

第四类:西藏自治区、广西壮族自治区、新疆维吾尔族自治区、宁夏回族自治区、贵州省、甘肃省、青海省、云南省、海南省、江西省

在该经济区域版图配色中,红色代表第一类省市,绿色代表第二类省市,蓝色代表第三类省市,紫色代表第四类省市,与上文聚类得出的四类地区相一致,四类地区的经济发展水平等级呈现逐渐下降的趋势。

2.2 一类省市的人口与经济的分析

为研究一类省市的经济发展与人口因素之间的关系,首先进行相关分析,变量的相关系数如图4所示。

据图中的阴影处可得:因变量y与自变量x1、x3、x5、x6之间存在强相关性,与x2、x4之间的相关性很弱,且与x1、x2、x5之间呈正相关,与x3、x4、x6呈负相关。此时假定因变量人均GDP与人口自变量之间存在线性相关,建立多元线性回归模型,得到的回归模型为

根据检验的结果发现自变量的回归系数均不显著,在以AIC准则为最优准则,寻求最优子集时得到的结果中,逐步回归剔除了一半自变量,且得到的模型中还有不显著的系数,这说明线性回归效果并不好,该类别不适合做线性分析,采取BP神经网络模型对一类省市再次进行分析。

该模型由每组数据的各项人口指标作为输入层,以人均GDP作为输出层,所以输入层的节点数为6,输出层的节点数为1,隐层数为c(4,2),设定完参数后,开始训练网络,得到了4层网络拓扑结构图,如图5所示。

根据图5可知:所报告的SSE(通过SSE度量)为0.090 469,训练的步数为34步,考虑到4层的神经网络模型比较复杂、训练速递较快、误差较小、精度较高,图中的黑线表示每一层与其相关权重直接的关系。因为前文分析了不适合建立多元回归模型,在此计算线性模型与神经网络模型的预测值,并且分别计算他们均方误差(MSE),线性模型的均方误差为7.5,神经网络模型的均方误差为0.85,进一步说明了线性回归不适用于此分析,而神经网络的精确度更高。

通过度量本研究预测的人均GDP与其真实值之间的相关性,发现二者之间的线性相关程度达到了83.37%,表明二者之间具有相当强的线性关系。下面分别采用回归方程以及神经网络对人均GDP进行拟合,将拟合值与真实值进行比较。

根据表2可知:BP神经网络与回归模型的拟合值相差不多,与真实值较接近,由于数据量的限制,测试集选取了4个个案,通过比较,发现BP神经网络的拟合值更好,同样回归模型拟合值与真实值的相关性也没有BP神经网络效果好。因此针对一类地区,采用BP神经网络效果更强,通过交叉检验,将得到的预测误差值绘制箱线图(如图6),平均误差为0.263 5。

表2 测试集个案的拟合值和真实值

根据图6可知无异常值,标准BP算法的预测结果,与真实的数据都存在一定的误差,这可能是由于样本的数据量太小,导致最终的结果存在误差,但产生的误差在预定的误差范围内,精度满足模型需要,从而使神经网络的准确性较高,因此认为该BP网络具有较好的预测能力。在对人均GDP进行预测前,首先采用时间网络模型对已有的自变量历史数据进行预测,通过对人口指标预测2018—2037年的数据,再通过神经网络,对因变量人均GDP进行预测。

将预测自变量的数据与原随机生成的测试集合并为新的测试集,对人均GDP进行预测,预测值折线图如图7所示。

通过图7可知:在2010年前后,人均GDP的波动较大,人均GDP的走势在2019年后一直呈现稳步增长的趋势,人均GDP的增长率也呈稳定增长的速度,在已知人口指标的情况下,利用BP网络模型能够有效预测经济的走势,同时也使研究经济和人口的关系是有效的一种途径,在实际运用中,可以将经济的指标不断加入模型中,使网络模型更加精准有效。

2.3 二类省市的人口与经济的分析

在对二类省市的经济发展与人口因素之间的关系进行分析前,同样需要进行相关分析,变量的相关系数如图8所示。

据图8中的阴影处可得:因变量y与自变量x1、x3、x4之间存在强相关性,与x2、x6之间的相关性较弱,此时假定因变量人均GDP与人口自变量之间存在线性相关,建立多元线性回归模型,得到的回归模型为

由于普通最小二乘回归模型的一些系数不显著,x2、x6之间相关性较强,需要对模型进一步优化。根据AIC准则为最优准则,寻求最优子集时得到的结果中,逐步回归后自变量系数均高度显著,且得到的模型拟合效果较好,通过检验,模型不存在自相关、共线性、异方差等,这说明线性回归有一定的成效。此时,最优的回归模型为

为比较回归模型与神经网络拟合效果的强弱,采用回归方程以及神经网络对人均GDP进行拟合,所得到的拟合值与真实值如表3所示。

表3 测试集个案比较

根据表中的数据进行比较,发现回归拟合值更贴近原始真实值,而BP神经网络拟合值有很大出入,通过检验,BP神经网络预测值与原始值之间的相关性为0.44,相关性较弱,预测结果没有说服力,同时,通过回归模型预测的均方误差为0.19,而通过BP神经网络预测的均方误差为0.78,因此BP神经网络针对二类省市的情况下,没有回归模型的效果好,因此采用回归模型对二类省市进行预测,但由于多元线性模型进行预测的实际意义并不大,故而,这里只针对2018年进行预测,预测2018年的二类省市的人均GDP的聚类中心为0.625 4,比平均值略高,因此可以认为二类省市的发展会越来越好,与前期的人均GDP的聚类中心相比,差距不大,比较平稳。

2.4 第三类省市人口对经济的影响以及预测

2.4.1 多元线性回归的初步尝试

首先,对人口指标以及人均GDP进行了相关分析,做出了相关系数排列如图9,可以看出y与x2、x3、x4、x6的相关性较强,相关系数绝对值均大于0.6,则这4个自变量与y有较强的相关性,同时也可以直观地看出有的自变量之间也存在较强的相关性。

其次,用普通最小二乘法进行多元线性回归,发现除常数项显著,各自变量系数均不显著,可初步判断出该三类省市不适合进行多元线性回归,然后进行了逐步回归,剔除变量后只留下x2、x6,并且x2不显著,因此证实了上述想法,该类省市不适合做多元线性回归。

最后,本研究对预测的人均GDP与其真实值计算相关系数为0.856,SSE值为0.092,可初步推测该模型预测效果不佳。

2.4.2 基于神经网络BP算法的研究

通过上述普通最小二乘法建立多元线性回归模型,发现预测效果不佳,因此本研究决定采用BP算法探究人口对经济的影响。

将数据集划分为一个具有75%案例的训练集(11个)和一个具有25%案例的测试集(4个)。选好训练集后,对于6个人口指标和人均GDP之间的关系建立模型,使用多层前馈神经网络,将隐藏节点设置为双层,即c(4,2);然后使用训练集建立神经网络模型,通过R软件得到了网络拓扑结构(如图10)。可以观测到训练的步数为109步,误差平方和即SSE的值为0.012 916,SSE极小,而前文中多元线性回归SSE为0.092,因此可知神经网络模型拟合效果较好。

为了评估模型的性能并且与以上的多元线性回归模型进行比较,对剩下的4年数据做预测,通过R软件度量出后4年真实人均GDP值和预测人均GDP之间的相关系数为0.924,说明二者有很强的线性关系,模型拟合数据极好。这与线性模型的相关系数0.856相比提高了很多,因此选择神经网络模型对未来人均GDP做预测。

接下来对该神经模型进行交叉检验,将测试数据集分离,基于训练数据集拟合一个模型,用测试数据集测试模型,然后计算预测误差,经过10次重复之后,最后计算平均误差,观察该模型的拟合程度,通过计算的平均误差为0.019 94,将10个预测误差值画箱线图(如图11),可知预测误差值中没有异常值,预测误差值的范围集中在0.004~0.039,都是极其小的,因此认为该模型拟合数据效果非常好,可用于预测未来数据。

2.4.3 未来人均GDP的预测

1)运用时间序列模型预测未来自变量

由于测试集较少,因此要想做未来20年人均GDP的预测,必须先进行未来20年人口指标的预测。因此本研究选择用时间序列模型预测未来自变量,根据已有15年的人口指标对未来20年的人口指标进行预测。首先应检测6个自变量序列的平稳性,通过平稳性检验判断是否为平稳序列。如果是平稳序列,则开始确定模型;如果是非平稳序列,需对非平稳序列进行差分算子的方法将非平稳序列变换为平稳序列,这里采用ARIMA模型做自动的模型选择进行拟合,得到了未来20年的6个人口指标。

2)运用神经网络模型对未来人均GDP的预测

本研究通过神经网络预测未来20年人均GDP,得到的预测数据以及原始数据如图12所示。横坐标为年份,黑线部分为训练数据中的因变量值趋势,蓝线部分为预测的人均GDP值。

图12可以直观体现出未来三类省市人均GDP在2020年之前处于大幅度增长后又持续上下波动,2020年之后,人均GDP只有小幅度的波动然后趋于平稳。可以初步推断出,在未来的20年,我国政策和各方面人口结构的优化以及人口素质的提高会短时间内使我国三类城市GDP的增长更加明显,但是由于产业转型阶段可能会造成小幅度的不稳定,而长远来看,我国三类省市的人均GDP将会呈现出高水平发展趋势。

2.5 第四类省市人口对经济的影响以及预测

2.5.1 多元线性回归模型的建立

首先通过相关系数排列图(图13)可以看出:y与x3、x5、x6的相关性较强,系数分别为-0.869、0.811、-0.689,其绝对值均大于0.6,这3个自变量与y有比较高的线性相关关系;还能看出有的自变量之间存在较强的相关关系,可能存在多重共线性。

本研究最先使用普通最小二乘法建立回归方程,可以看出只有x4、x5回归系数显著,说明该回归方程存在不必要的变量,下一步进行逐步回归,根据AIC最小原则剔除x1、x3后,各回归系数均显著,该回归方程为

接下来对逐步回归后的方程进行异方差检验,检验数据如表4,可以看出各变量p值均大于0.05,因此认为在显著性水平为0.05时,异方差不显著。

表4 异方差检验数据

然后对该回归方程进行残差正态性检验,p值为0.676 8,再进行自相关检验,可以得到DW值为1.932 2,p值为0.928 7,因此在显著性水平为0.05时,认为残差是正态分布的,并且自相关不显著。

最后对方程进行多重共线检验,各变量的VIF值如表5,可知自变量x4的VIF值为16.97且大于10,说明逐步回归方程存在多重共线性。

表5 共线检验的VIF值

本研究可以先通过绘制岭迹图判断存在共线性变量,如图14(a),发现x2的岭回归系数非常不稳定,变化特别大,因此剔除x2再次绘制岭迹图如图14(b),发现各变量岭回归系数都较为稳定,初步判定该方程不存在多重共线性。

然后剔除x2再次进行普通最小二乘回归,回归方程显著,各回归系数均极其显著,再次计算VIF值,发现均小于10,因此证实了上述结论,该回归方程的多重共线性已消除,得到最优回归方程如下:

为了进一步验证方程的准确性,再次对该回归方程进行异方差检验、自相关检验和残差正态性检验,各检验均通过,因此该方程为多元线性回归最优方程。

本研究利用此最优方程进行预测,发现预测值和真实值之间的相关系数高达0.989,SSE值为0.088 3,说明最优方程拟合较好。

2.5.2 神经网络模型的建立

为了进一步选择最优的预测模型进行预测,选择神经网络的非线性模型进行尝试,与上述多元线性回归模型进行比较,利用得到的神经网络模型预测后4年的人均GDP,发现该预测值与真实值之间的相关系数为-0.632,SSE值为0.391,说明该数据用神经网络模型极不合理,不应该继续使用。

2.5.3 运用多元线性回归模型进行预测

通过比较预测值和真实值相关系数以及SSE值,本研究选择用多元线性回归模型进行预测,由于多元线性回归不适合做长期预测,因此这里只对2018年的人均GDP进行预测,预测出四类省市人均GDP的聚类中心为-0.473,较往年来说低于全国平均水平,因此认为国家各项政策以及经济措施的施行,四类省市的人均GDP在不断提高。

3 结论

1)在探究人口对经济的关系过程中,发现二类省市及四类省市适合做线性回归,拟合效果较好,而另外两类省市则适合做神经网络模型。根据回归模型对人口和经济的关系做出如下客观评价:人口性别比、人口城乡构比及人口自然增长率对人均GDP有显著影响。但是由于地区发展阶段以及社会背景的差异,人口自然增长率对经济发展影响不同。较发达地区,人口自然增长率的增加对人均GDP有显著的促进作用;而较为落后且面临产业结构转型的地区,过快的人口自然增长率和经济的发展是不协调的。两类地区具有明显的差距与我国的国情和实际情况相符。通过上述分析发现:人口密度和人均GDP存在弱相关关系,在此研究中,人口密度对经济发展没有显著的影响,这说明该指标信息较为片面,随着社会的发展,产业结构和经济的发展方式不断发生变化,只通过单一的人口密度不能全面体现经济状况。

2)针对回归模型的分析和神经网络的预测,人口和经济的发展问题历来是社会最基础的问题,人口问题始终是制约经济发展的关键因素之一,根据研究结论,针对人口结构和经济的可持续发展提出几点建议:适度控制人口增长,我国的人口和经济的效益关系朝着和谐的方向发展,但整体效益不高,且存在明显的区域差异,人口是主要的压力和瓶颈,人口净增长的压力仍然巨大,实现经济的持续发展,必须构建科教同步发展的理念;提高人口素质,保证未来劳动力人口的受教育水平较高,特别注重高技术人才培养,加大教育投资,将人口政策的重点转移到提高人口素质,发展多层次教育,适应不同的劳动者对知识的需求,并且根据国家要求,鼓励促进职业教育,为促进社会主义现代化建设培养具有较高实践能力的应用型人才;合理优化产业人口结构,扩大第三产业对于经济发展的贡献度。改革开放以来,我国第一产业人口加速下降,虽然这一结构不断趋于合理化,但与发达地区相比,我国第三产业对经济的影响还有很大的提升空间,合理的调整三大产业人口结构对我国经济具有显著的促进作用。

猜你喜欢

省市线性聚类
一种傅里叶域海量数据高速谱聚类方法
二阶整线性递归数列的性质及应用
一种改进K-means聚类的近邻传播最大最小距离算法
线性回归方程的求解与应用
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
非齐次线性微分方程的常数变易法
线性回归方程知识点剖析
省市大报头版头条
省市大报头版头条
省市大报头版头条