基于主成分和聚类分析的中国省域经济发展水平分析

2017-02-01黄智

辽宁农业职业技术学院学报 2017年6期

黄智

一、引言

经济发展是一个长久不衰的话题。当前的中国经济已步入“新常态”时期，全国31个省市、自治区的经济发展也面临着不同的机遇与挑战。新常态的“新”在于它的新高度、新深度，这对于我国经济政策的选择与企业的经济转型，以及对各省份产业结构的升级都有着深远影响。新常态经济追求的是高质量和可持续增长的经济，并非传统意义上经济总量的大幅提高，所以要找准中国经济发展的增长点、完成经济结构转型、实现经济机制的稳步发展，摆脱传统经济的“快”，转向新常态经济的“稳”，从而保证中国经济能够维持中高速的可持续增长。

新形势下各省域的经济发展正同现实问题和未来机遇进行挑战，由传统经济增长模式到新常态时期经济发展路径的转变，使得各省份的经济发展都处于一个重要的历史转折期。目前，中国东中西部各省域经济状况的不平衡仍在影响我国整体经济的发展。为研究经济增长的可持续性，文章以多元统计方法中的主成分分析与聚类分析对我国31个省市、自治区在2015年的经济发展状况进行具体分析，以期在新常态下对各省域的经济发展水平进行综合评价。

二、构建评价指标体系

（一）评价方法的选取

在实证研究过程中，研究者往往希望获得更多的信息。因此研究者选择多个观测角度，采用多个变量来衡量事物多方面的特征。较多的变量在给研究者提供丰富信息的同时也导致信息的重叠现象，从而增加了问题分析的复杂性和探求事物本质关系的难度。针对这种情况，国内学者的杨茜[1]在研究我国各省域经济与环境协调发展状况时，采用主成分分析与聚类分析两种方法对我国经济可持续发展进行评价及预测；吕岩威、孙慧、周好杰[2]等学者则通过主成分分析和聚类分析对我国西部12个省市的经济实力进行排序分类，为相关管理部门制定扶持西部发展的方针政策提供参考依据。

根据上述分析，文章采用“主成分分析和聚类分析”的方法对全国31个省市、自治区的经济发展水平进行综合评价。其中：（1）主成分分析利用原始变量的线性生成主成分，通过导出非观测综合变量去描述原始的多个变量之间的相关关系[3]；（2）聚类分析则是选择相关的观测指标，通过不同的距离定义实现分组，使组内的数据对象具有高度的相似度[4]。

（二）指标说明与数据处理

1.指标的选取与说明

为有效反映各省域的经济发展状况与水平，以进行全面分析，其综合评价体系必须选取足够的指标。文章选用中国31个省市、自治区2015年国内生产总值GDP的变化情况来反映经济发展水平，对于其他指标变量的定义如下：依次选择居民消费水平、第三产业生产总值，财政收入、固定资产投资、外商投资企业货物进出口总额、R&D经费支出、城乡人均可支配收入和地区生产总值作为我国省域经济发展水平的评价指标。这9个指标涵盖了经济总量、经济效益和经济结构三方面的情况，其中的GDP值、地区生产总值、财政收入和固定资产投资主要反映了该地区的经济规模与经济总量。

2.数据的来源与处理

各个指标的数据均是从2016年发布的《中国统计年鉴》中收集得到。针对数据的预处理有：（1） GDP生产总值换算为人均GDP值；（2）第三产业生产总值换算为第三产业所占比重（第三产业生产总值/GDP生产总值）；（3）居民消费水平换算为居民消费水平绝对数；（4）城乡人均可支配收入换算为城乡人均可支配收入比（城镇/农村）。为便于观测指标，在参考相关文献的基础上，最终文章选取9个指标构建如下评价体系，如表1所示。

表1 指标体系

根据上述选定的指标，汇总2015年全国31个省市、自治区的相应数据并列入评价体系中，得到原始的统计数据。

三、实证研究

（一）主成分分析

文章利用SPSS24.0软件对全国31个省市、自治区进行主成分分析，通过设定累积贡献率来选取主成分，并根据所选主成分的贡献率列出相应的回归方程。最终，结合主成分线性组合中各原始指标系数所反映出对经济影响的程度进行比较分析，进而分析并评价各个省域的经济发展水平。文章采用多元统计分析的方法，依次描述对统计指标进行主成分分析的主要步骤和结果分析。

由于原始的统计数据具有不同单位以及各指标数值之间具有较大差距，为避免影响数据的结果，在数据的处理上采用了标准化，用以消除量纲、变量变异以及数值大小对结果的影响[5]。文章选用Z-score归一化方法，使得经过处理的数据符合标准正态分布（即均值μ为0，标准差σ为1），具体的转化函数为：

式子中，X*ij表示第i个样本的第j个指标在经过标准化后的数据值，Xij表示为第i个样本的第j个指标的值，EXj、Sj分别为第j个指标的样本均值、样本标准差，n表示观测指标的样本个数。其中：i=1,2,……,n；j=1,2,……,p。

获得标准化数据后，首先应该对变量之间进行相关性分析，检验所构建的指标体系是否具备相关操作的先行条件。只有当各变量之间的相关度符合一定要求时，才适合做SPSS降维分析中的因子分析和主成分分析[6]。特别是在选取指标较多的情况下，各个变量之间更有可能出现高度相关的情况，通过SPSS24.0软件计算体系中9个指标的相关系数矩阵，结果如表2所示。

表2 指标之间的相关系数矩阵

在表2显示的相关系数矩阵中，各指标变量之间的相关系数都较高，绝大多数两两变量间的系数值都超过了0.6，仅有少数几个变量间的相关系数处于0.3以下。同时，结合KMO和Bartlett球形度检验，判断评价体系是否可以采用主成分分析方法进行研究，结果如表3所示。

表3 KMO和巴特利特球形度检验

根据表3得到的结果，KMO取样计量数为0.722，表明存在多元线性相关的可能性较大。其中，KMO统计量的定义如下：

式子中，Rij表示第i个变量与第j个变量的简单相关系数，Pij是第i个变量与第j个变量在已控制剩余变量之后的偏相关系数。其中：i=1,2,……,n；j=1,2,……,p。

KMO统计量MSA的取值为0～1，表3中其值大于常设标准值0.7且很接近于1，说明该评价指标模型“合适”用主成分分析法进行研究。而Bartlett球形检验的原假设为相关系数矩阵为单位阵，表中Sig值为0.000，显然小于显著水平5%，因此拒绝原假设，表示各指标变量之间存在多元关系，因此适合做SPSS多元统计的降维分析。于是，依据指标之间的相关系数矩阵计算各个主成分的特征值、贡献率以及累计贡献率，并提取主成分的因子，结果如表4所示。

表4 因子贡献率

提取方法：主成分分析法。

表4给出了因子贡献率的结果。其中，“方差%”指的是该因子的特征值占总特征值的百分比；“累积%”表示累积的百分比。根据因子特征值大于或接近于1且累计方差贡献率在85%以上的两条基本原则[7]，从表4中提取前3个主成分替代原有的9个指标。并且3个指标便能解释91.766%的方差变动，达到了减少变量的目的。由此，绘制3个主成分的因子载荷矩阵如表5所示。

表5 因子载荷矩阵

提取方法：主成分分析法。旋转方法：凯撒正态化最大方差法。

根据表5得到的结果，将第一主成分与X1、X2、X3、X5、X7、X8和 X9的关系定义为经济发展的综合实力，用F1表示；第二主成分与X1、X2、X3、X4、X7、X8和X9的关系定义为对外经济的综合实力，用F2表示；第三主成分与X1、X2、X3、X5、X7和X9的关系定义为对内经济的综合实力，用F3表示。这3个主成分的公因子性质及其提取顺序能够体现对经济发展的影响状况。根据表5计算出每个因子的得分，得到以下三个主成分的线性组合。

表6 各省市、自治区经济发展水平主要得分及其排名

湖南 -0.15140 -0.54049 -0.10680 -0.79869 21广东 2.55251 -0.86006 2.49919 4.19164 3广西 -0.67678 -0.43107 0.23360 -0.87425 22海南 -0.78276 0.84183 -0.22654 -0.16747 14重庆 -0.29539 0.35816 0.06540 0.12817 11四川 -0.10898 -0.84715 -0.16793 -1.12406 24贵州 -0.94234 0.05281 1.61771 0.72818 5云南 -0.85678 -0.21504 1.41093 0.33911 8西藏 -1.18510 0.64122 1.08474 0.54086 7陕西 -0.48508 -0.42003 0.60968 -0.29543 17甘肃 -1.13508 -0.06634 1.87516 0.67374 6青海 -1.10517 0.16871 0.58707 -0.34939 18宁夏 -0.90893 0.55314 0.08854 -0.26725 16新疆 -0.72951 0.02967 -0.17977 -0.87961 23

运用Excel软件计算出3个主成分的贡献率，在得到度量省域经济的线性回归方程后，再根据样本评价分析函数求得中国31个省市、自治区经济发展的得分及其排名。具体得分和排名结果如表6所示。

（二）聚类分析

文章采用系统聚类法，对各省域经济发展水平进行分类。在聚类方法上，选择离差平方和法（瓦尔德法）；而聚类的关键在于类之间距离的选择，距离测量为平方欧式距离。同样对原始数据采取标准化处理，聚类结果如下图所示。

图1 各省市、自治区经济发展水平系统聚类

根据SPSS软件所得到的层次聚类图，文章将31个省市、自治区按照经济发展水平分成为四组：（1）第一组包括北京、天津、上海；（2）第二组为山东、浙江、广东、江苏；（3）第三组有重庆、广西、新疆、山西、宁夏、青海、西藏、海南、云南、甘肃、贵州；（4）其他的地区是第四组。为刻画不同组的经济发展状况，依据相对发展水平将4个小组分别定义为：经济发达组（第一组），经济次发达组（第二组），经济中等发展（第三组），经济落后组（第四组）。

从上述聚类结果可以看出，前两组的省市、自治区均为我国改革先行区域、或者沿海省市，第三、四组的省份基本处于我国中西部地区。总体得到的分类结果与我国各省域经济发展水平的实际情况基本是相符合的。

四、实证结果分析

文章针对全国31个省市、自治区的经济发展状况，从经济总量、经济效益和经济结构三个维度分析我国各省域的经济发展水平。其中，经济发展综合实力因子得分依次是上海、北京、江苏、浙江、山东、广东；对外经济综合实力因子排序为上海、广东、北京、天津；而对内经济综合实力因子则是贵州、云南、西藏、甘肃；代表各个省域经济水平F1、F2、F3（经济实力综合加权值）的综合得分依次是北京、上海、广东、江苏。排名靠前的均是沿海省份或中心大城市，大部分西部省份则排名靠后，这也基本符合历年来中国经济发展的现状。

根据多元统计的聚类分析，对各组省域经济发展水平的评价为：（1）分别作为我国政治、经济中心的北京和上海，其经济发展始终处于我国各省域的最前端，引领着中国经济的前行。其第三产业占生产总值的比重也是最高的，达到了60%以上的水平，俨然可以看出第三产业在该类省域已经成为了经济发展的主要动力来源，服务型与高科技产业比例均达到我国经济的领先水平；（2）排在第二组的省域均是我国沿海发达省份，但仍然是以工业为主导的经济发展模式，并且目前的工业水平、经济结构都没有达到发达国家的程度，造成经济发展的不协调；（3）第四、五组的省份基本都位于中西部地区，工业发展起点晚、农业占一定比重，外商投资与R&D经费投入也不足。各方面指标与沿海地区还是存在很大的差距，产品多为劳动密集型产业，产品附加值也比较低。

综合上述分析，我国各省域经济发展水平存在较为严重的不协调性，北京、上海引领我国经济的发展，东部地区个别省份经济已接近中等发达国家水平。东中西部地区的经济发展存在很大的差距，这不仅是由于我国地域辽阔、地理位置不平衡等客观因素的原因，也与政治扶持和投资引进上的不平等有关。

五、对策与建议

（一）调整省域经济发展的战略格局，健全协调经济的可持续发展机制

在经济新常态时期，中国经济出现区域发展不协调的状况，部分省域引领中国的经济发展趋势，中西部经济发展相对滞后。由于发展基量与速度不一致，出现了贫富省份差距很大的现象。对此，各省域应该积极调整经济发展的战略格局，提升经济增长质量；扩大外商投资，提高R&D经费投入，缩小贫富省份差距。

（二）发挥核心地区的发展优势，强化经济中心的辐射作用

以北京、上海为代表的大城市在经济发展中，不论是发展速度还是水平，均处于绝对领先的优势。应该通过强化中心城市的辐射作用，带动周边省域的经济发展；运用技术创新的手段，提高综合经济水平，并因地制宜、规范推进经济新常态的推进，最终形成中国新形势下的新常态经济结构体。

（三）改善落后省域的基础建设，提高特色地区的经济效益

我国西部省份处于中国的边远地区，交通基础设备相对缺乏、公共设施不够完善；并且中西部省内各个地区的经济实力也相对悬殊；轻重工业均比较落后，部分居民的生活来源仍是以农耕为主。应该发展各省域的特色经济，改善当地基础设施，提升居民日常生活水平，摆脱如今落后的现状。

[1] 杨茜.我国地区经济发展与环境污染状况的主成分分析[J].统计与决策，2005，（18）:74-77.

[2] 吕岩威，孙慧，周好杰.基于主成分聚类分析的西部地区经济实力评价[J].科技管理研究，2009，（12）:157-160.

[3] 曾鸣，王亚娟.基于主成分分析法的我国能源、经济、环境系统耦合协调度研究[J].华北电力大学学报（社会科学版），2013，（03）:1-6.

[4] 薛薇.SPSS统计分析方法及应用.第3版[M].电子工业出版社，2013.

[5] 何晓群.多元统计分析.第4版[M].中国人民大学出版社，2015.

[6] 缪炯.基于主成分分析和聚类分析的江苏省各城市经济发展水平评价[J].经济研究导刊，2017，（08）:17-20.

[7] 林师武.全国31个省市经济发展多元统计分析[J].经济研究导刊，2016，（05）:5-10.

猜你喜欢

省域变量指标

一类带临界指标的非自治Kirchhoff型方程非平凡解的存在性

抓住不变量解题

也谈分离变量