基于SPSS的我国各省市自治区经济发展状况分析
2019-10-08陈龙陈婷袁莹静
陈龙 陈婷 袁莹静
摘 要: 本文运用2016年我国31个省市自治区的农林牧渔业,工业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,金融业,房地产业,其它等方面统计的各产值的样本数据,采用聚类分析、主成分分析和因子分析的方法,通过SPSS软件输出结果进行分析,对我国31个省市自治区进行分类排名,进而可以了解到我国各个省市自治区现阶段的经济发展状况,并可以根据相关结果对于不同地区的发展提供理论指导。
关键词: 经济发展;聚类分析;主成分分析;因子分析;SPSS软件
【Abstract】: This paper uses 2016 China's 31 provinces, cities and autonomous regions of ecological-economic, industry, construction, wholesale and retail, transportation, warehousing and postal service, accommodation and catering industry, finance, real estate industry, other aspects such as statistical sample data of each output by cluster analysis, principal component analysis and factor analysis method, through SPSS software output were analyzed, and the ranking of 31 provinces and autonomous regions in China are classified, which can learn the various provinces and autonomous regions in China's current economic development situation, and can according to relevant results provide theoretical guidance for the development of different regions.
【Key words】: Economic development; Cluster analysis; Principal component analysis; Factor analysis
0 引言
我国现阶段的经济处于高速发展的状态,对于各个地区经济状况的了解和分析也应具有一定的时效性,只有这样才可以对我国各个不同地区的经济情况有一定的了解,进而可以对它们的发展及时的提出相应的指导建议。在目前对于我国经济情况的相关研究中,随着数据的更新各个地区的发展情况也都随之改变着,再使用以前的研究结论就会显得
有些信息滞后,本文采用中国统计局最新公布数据,运用多元统计分析[1]相关理论知识和SPSS软件,对我国各个地区的经济发展情况进行分析和研究,使得可以对我国现阶段不同地区的经济发展情况有一个最新的认识和了解。
1 相关理论方法
1.1 聚类分析
聚类分析[2]是建立一种分类方法,将一批样本和变量,按照它们在性质上的亲疏,相似程度进行分类的一种多元统计分析防范。聚类分析的内容十分丰富,按照聚类分析方法可以分为:系统聚类法,动态聚类法,最优分割法,模糊聚类法,k-均值法,分解法,加入法等等,聚類分析的原则是直接比较样本中各事物之间的性质,将性质相似的归为一类,而将性质差别比较大的分在不同类中,也就是说,同类事物之间的性质差异小,类与类直接的事物性质相差较大,描述样本间的亲疏程度最常用的是聚类,其中欧式距离在聚类分析中用的最为广泛,表达式为:其中表示第i个样品第k个指标的观测值,表示第j个样品的第k个指标的观测值,表示为第i个样品与第j个样品之间的欧式距离,若值越小,那么表示第i与j两个样品间的性质越接近。性质接近的样品就可以归为一类。
当确定了样品的距离后,就要对样品进行分类,分类的方法很多,其中系统聚类法是应用最为广泛的一种方法,系统聚类的思想为:开始时每个对象自成一类,然后每次将最为相似的两类合并,合并后重新计算新类与其它类的距离或相似程度,这个过程一直持续到所有对象合并成一类为止[3]。系统聚类的分析方法也有很多,其中包括:最短距离发,最长距离法,中间距离法,重心法,类平均法等等。
1.2 主成分分析
主成分分析[4],是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析是指将多个变量转化为少数几个变量的过程,其中转换之后的这几个变量包含了原变量的信息,且彼此之间互相独立,通过转换之后的变量能够线性地表示原始变量[5]。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法[6]。
主成分分析的具体步骤可以分为以下5个:
1. 指标数据标准化(SPSS软件自动执行);
2. 指标之间的相关性判定;
3. 确定主成分个数m;
4. 主成分Fi表达式;
5. 主成分Fi命名。
1.3 因子分析
因子分析[7]模型是主成分分析的推广,其原理是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表了一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子[8]。对于所研究的某一具体问题,原始变量可分解为两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子[9]。
因子分析的的步骤一般包括如下几步:
1. 根据研究的问题选择原始变量
2. 对原始变量进行标准化并求其相关阵,分析变量之间的相关性。
3. 求解初始公共因子及因子载荷矩阵。
4. 因子旋转。
5. 因子得分。
6. 根据因子得分值进行进一步分析
2 数据准备及处理
本文以2017年中国统计局所公布的数据,根据统计年鉴中2016年31个省市自治区的农林牧渔,工业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,金融业,房地产业,其它等方面各产值的統计数据为基础进行分析,数据见下表1。
运用spss软件中的数据处理方法,聚类分析和主成分分析,对上表1中的数据进行处理分析。
2.1 聚类分析
利用spss软件中的聚类分析组间对数据进行分析得到的结果如下。
从聚类分析结果谱系图中可以看出,将31省市自治区大致可以分为四类:
第一类:青海,宁夏,西藏,海南,贵州,新疆,甘肃,黑龙江,云南,山西,吉林,重庆,江西,陕西,内蒙古,广西,辽宁,天津。
第二类:北京,上海。
第三类:湖北,四川,河南,安徽,福建,河北,浙江,河南。
第四类:江苏,广东,山东
从聚类结果可以看出北京,上海两地经济发展状况大致相近,湖北,四川,湖南,安徽,福建,河北,浙江,河南发展情况相近,江苏,广东,山
东相近,其余省市经济发展情况相近。
2.2 主成分分析
利用SPSS软件中,因子分析组件进行主成分分析,分析结果见下表。
从上表5中的排名可以明显看出,排在较前位置的省份为广东,江苏,山东等,这些省份的经济状况也相应较好。而新疆,甘肃,海南,宁夏,青海,西藏等省市自治区排名相对靠后,经济状况还有待很大的提高和发展空间。
2.3 因子分析
在spss中采用因子分析的方法,可以得出以下输出。
从表6可以看出选取两个公共因子时其累计方差贡献率为93.421%。已经可以达到很好的效果。
由旋转后的因子载荷矩阵可以看出,公共因子在金融业、房地产业、其它、批发和零售、工业、交通运输、仓储和邮政业上的载荷都很大,公共因子在农林牧渔业、建筑业、住宿和餐饮业上的载荷相对较大,结合综合得分,对各个城市的综合发展水平进行评价。在因子上得分最高的前5个地区依次为广东、江苏、上海、北京、浙江、其中广东,江苏,远高于其它省市自治区,这就是说这两个城市在金融业、房地产业、其它、批发和零售、工业、交通运输、仓储和邮政业上的发展情况远高于其它地区,相对的新疆、云南、贵州这些地区在这些指标上的表现不是很好;山东、河南、江苏在上得分较高,而上海、北京、天津相对较低,说明山东、河南、江苏这些地区在农林牧渔业、建筑业、住宿和餐饮业相对于其它地区较好。
将各个省市自治区在两个因子上的得分进行加权综合,就可以得到综合得分。根据综合得分就可以分析各个地区的综合经济发展情况,从表9可以看出,综合排名前3位的地区分别为:广东,江苏,山东。综合得分最低的3个地区为:西藏、青海、宁夏。结合因子得分分析可得,在广东,江苏,山东三个城市中金融业、房地产业、其它、批发和零售、工业、交通运输、仓储和邮政业,都有着很好的优势,而在农林牧渔业、建筑业、住宿和餐饮业上相对不是很强。西藏、青海、宁夏这些地区,在这些经济中的表现都不是很好。因此国家应加大对这些地区的建设。以提高我国整体的经济水平能力。
3 结论和建议
本文运用2016年我国31个省市自治区的农林牧渔业,工业,建筑业,批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,金融业,房地产业,其它方面产值样本数据,采用聚类分析、主成分和因子分析的方法对其进行分类和降维排序,从聚类的方法中可以将我国31个省市自治区共分为4大类第一类:青海,宁夏,西藏,海南,贵州,新疆,甘肃,黑龙江,云南,山西,吉林,重庆,江西,陕西,内蒙古,广西,辽宁,天津。第二类:北京,上海。第三类:湖北,四川,河南,安徽,福建,河北,浙江,河南。第四类:江苏,广东,山东。根据在主成分和因子分析中的排名可以明显的看出,江苏,山东,广东方面的经济状况相对较好,综合经济发展情况也是远高于其它省市自治区的经济发展情况,而第一类中的省市自治区青海,宁夏,西藏,海南,贵州,新疆,甘肃,黑龙江,云南,山西,吉林,重庆,江西,陕西,内蒙古,广西,辽宁,天津的经济状况较江苏,山东,广东等地区还有着很大的差距。在因子分析中,经由因子分析旋转后矩阵可以看出广东、江苏、上海、北京、浙江、在金融业、房地产业、其它、批发和零售、工业、交通运输、仓储和邮政业上的载荷都很大说明这些地区在这些指标方面的发展相对较好,而相对的山东、河南、江苏在农林牧渔业、建筑业、住宿和餐饮业相对于其它地区较好。
从我国现阶段发展来说,广东,江苏,山东等地聚集了我国大量的工业,批发零售业和其它一些产业,给我国的经济发展提供着大量的资金支持,这些城市也成为了我们在选择就业不错的选择,广大的现阶段的毕业生想要求得一个较好的发展空间和城市,可以优先的从这些地区中进行选择。相对于经济发展情况相对迟缓的第四类中的西藏,青海,宁夏,贵州等地区,国家在政策方面也应有所调整,想要提升我国的综合实力,实现中华民族的伟大复兴,只靠着单单的几个龙头城市是不可行的,恰恰应该着手去发展这些地区的经济,一个国家的综合国力的强弱也和这些短板城市有着很大的关系,因此国家的发展应对这些经济发展缓慢的城市多一点点的关注。对于这些地区的发展和建设应该从多方面进行入手,从而可以整体实现这些省市自治区的发展,进而使我国的综合实力得到提升。
参考文献
何晓群. 多元统计分析. 北京: 中国人民大学出版社, 2004.
朱晶, 李大卫. 多元统计分析方法在经济评价中的应用[J]. 鞍山科技大学学报, 2003(04): 295-298.
王友明. 多元统计分析方法及其在经济研究中的应用[J]. 安徽水利水电职业技术学院学报, 2003(02): 42-44.
王艳梅, 张广梅, 陈希镇. 山西省各地市经济发展的多元统计分析[J]. 温州职业技术学院学报, 2013, 13(02): 41-43+57.
张文宇, 王秀秀, 任露, 等. 改进的主成分聚类分析法在教育信息化中的应用[J]. 软件, 2015, 36(7): 10-16
徐秋栋. 《应用多元统计分析》[J]. 工业工程与管理, 2014, 19(01): 22.
Michael Porter. The Economic Performance of Regions[J]. Regional Studies . 2003 (6-7).
张珍花. 运用多元统计分析综合评判江苏省经济效益[J]. 统计与决策, 2001(09): 23-43.
Champagne M, Dudzic M. Industrial use of multivariate statistical analysis for process monitoring and control[C]. American Control Conference, 2002. Proceedings of the 2002. IEEE, 2002, 1: 594-599.
王媛媛. 區域经济协调互动发展的多元统计分析[J]. 中国统计, 2018(03): 62-64.