APP下载

基于主成分分析和聚类分析的城镇居民收入研究

2021-07-04吴成鑫

黄山学院学报 2021年3期
关键词:群集中西部城镇居民

吴成鑫

(黄山学院 数学与统计学院,安徽 黄山245041)

1 前言

改革开放以来,我国经济得到迅速发展,人民的生活水平不断提高,但与此同时各地居民收入分配差距也在扩大。为了研究目前各地区的城镇居民收入差异,本文采用多元统计分析中的聚类分析和主成分分析方法[1],选取《中国统计年鉴-2018》中适当的指标变量,利用SPSS软件构建出统计模型,得出相应的研究结果,进而提出合理的意见和建议。

2 多元统计分析方法

2.1 聚类分析

系统聚类[2]是按照一定的层次将样本进行分类。先将距离得比较近的样品分为另一类,然后将距离比较远的样品聚成另一类,一直重复这个过程进行下去,直到所有的样本都聚到合适的类中为止,然后结束过程。

2.2 主成分分析

主成分分析[3]采用降维的思想,将多的指标转换成少的且彼此之间没有关系的综合性指标。首先构造适合原始变量的少数线性组合,产生互不相关的新变量,然后提取其中几个包含原始变量绝大多数信息的变量去解释原始变量,提取的新变量即为主成分。

3 搜集数据材料及确定指标

本文选取《中国统计年鉴-2018》中与我国31个省市城镇居民人均收入相关的5个指标变量,分别为人均可支配收入、工资性收入、经营净收入、财产净收入、转移净收入,记为X1、X2、X3、X4、X5。

4 利用SPSS软件进行分析

4.1 系统聚类分析

利用SPSS软件,对上述5个指标变量进行系统聚类,可得出结果如表1。

表1 群集成员

表1中第二列和第三列是群集成员分类情况,在第二列中,全部样本分为3类,在第三列中,全部样本分成2类,其中相同数字的表示分在同一类。

可以看出,当聚成3类时:北京,上海为第一类;天津,内蒙古,江苏,浙江,福建,山东,广东为第二类;辽宁,山西,黑龙江,吉林,江西,安徽,贵州,河南,甘肃,陕西,宁夏,青海,湖北,山东,广西,湖南,重庆,海南,云南,四川,新疆,西藏为第三类。当聚成2类时:北京,上海为第一类;其它均为第二类。

运用SPSS软件画出冰挂图,如图1所示。

图1 冰挂图

从图1可以直观地看出,2017年中国城镇居民收入的分类情况,群集数由上至下依次递增,以图上端最少群集数为例,北京和上海连在一起,因此它俩聚成一类,其他城市则聚成另一类,此时群集数为2。

运用SPSS软件画出树状图,如图2所示。

图2 树状图

图2 反映了31个省市区的分类情况,展示了分类状态和各类之间的距离。以宁夏,新疆和海南为例,它们距离最近且相似性较高,将它们合并成一类,按照此步骤进行下去,最后所有的省市个体聚成一类,此时类间距离已经很大,聚类过程完成。

综合以上结果可知,我国的东部和沿海地区的城镇居民收入水平比东北和西北地区要高,尤其是北京和上海两个城市,各项收入均处于较高水平,属于我国经济发展的繁荣地带,其次是东南沿海地区,它们能够较好地吸收外来资源,因此发展水平也较好,而中西部等地区由于地理、政策等各种因素的影响,导致其人均收入相比其他地区仍处于较低水平。

4.2 主成分分析

利用SPSS软件,对上述5个指标变量进行主成分分析,可直接输出结果,如表2-表5。

表2 相关矩阵

表5 成份矩阵

表2为变量X1,X2,X3,X4,X5的样本相关系数矩阵,其中大部分变量的相关系数都比较高,一些相关系数都达到了1,因此选取的样本特性较好,各变量之间存在相关线性关系,可以进行主成分分析。

表3中KMO为0.278,巴特利特(Bartlett)的球度检验统计量的观测值为589.360,如果显著性水平取α=0.05,则其明显大于概率p值,应拒绝零假设,因此可以认为相关系数矩阵与单位阵之间有显著性的差异,进一步验证上述数据进行主成分分析是可行的。

表3 KMO和Bartlett的检验

表4说明了前两个主成分的累计贡献率已经达到89.094%,所以提取前两个主成份进行分析。

表4 解释的总方差

运用SPSS软件画出碎石图,如图3所示。

图3 碎石图

图3 给出了不同成分数下的特征值,其中5个变量在第1个成分数上的载荷都很高,意味着它们与第1个主成分的相关程度高,到第2成分数时已趋向平缓状态,往后第3、4主成分更加平稳,进一步验证提取两个主成分是合理的。

综上分析可知,本次主成分分析应提取两个主成分,接下来利用所得数据计算得分计算式。

根据表4及表5可以计算出两个主成分的特征向量,可得第一主成份:

F1=0.535X1+0.507X2-0.083X3+0.523X4

+0.42X5

第二主成分:

F2=0.179X1+0.151X2+0.916X3+0.069X4

-0.316X5

可以看出,在第一个主成分里,载荷系数比较高的有第一、二、四、五指标,所以可以把第一主成分看作反映了城镇居民人均收入中除去经营净收入的其他收入的综合性指标。在第二个主成分里,载荷系数较高的只有经营净收入,因此第二主成分可以看作经营性因子。

结合表4中第一、第二主成分各自的贡献度,可得出下面得分计算式:

W=0.67271F1+0.21823F2

将31组数据代入上面的得分计算式,可得出31个省市的收入排名情况,如表6所示。

表6 各省市收入排名

由表6可以看出,我国各地区的城镇居民人均收入仍然存在差距,其中北京、上海排名高居前列,东南沿海的省市普遍比中西部省市的收入高,此外,中西部地区城市的收入得分差距较小。

5 结论和建议

综合聚类分析和主成分分析的结果,可以得出以下结论以及相关建议。

首先,北京及东南沿海地区城镇居民收入仍然比中西部地区的收入高很多,这和它们的地理位置、历史因素、政治因素等都有关。东南沿海交通便利,自然资源丰富,历史上就有一定经济基础,在国家改革开放政策的影响下,抓住了发展机遇,经济有了长足有效的发展,在短时间内,中西部地区难以赶上东南沿海地区的经济发展水平。其次,中西部地区的城镇居民收入差距较小和国家扶持政策息息相关,在国家政策的影响下,中西部地区的经济水平也有了明显的提高,特别是在国家扶贫政策的有力推动下,一些地区特别贫穷和落后的情况正在逐步消失。

为缩小我国不同区域居民收入差距,政府应加快落后地区的产业转移,引导其经济合理健康的发展;实施积极的就业创业政策,鼓励特色产业和新兴产业的发展,支持自主创业,吸引人才和资金进入中西部地区,提高这些地区经济活力;加快基础设施建设,完善城市交通网络,为经济发展打好硬件基础;完善社会保障体系,提高落后地区的民生投入,增加居民转移性收入,改善居民生活水平。

猜你喜欢

群集中西部城镇居民
城镇居民住房分布对收入不平等的影响
“天宫课堂”在中西部青少年中点燃航天梦
基于ELES模型的河北省城镇居民消费结构分析
让航天梦想在中西部地区扬帆启航
中餐女王的传奇人生
Cecilia Chiang, pioneer of Chinese cuisine
基于强化学习的低时延车联网群密钥分配管理技术
浅析Windows Server 2016四种数据恢复方案
农民工回流释放中西部崛起积极信号
天津城镇居民增收再上新台阶