基于多元统计分析的区域经济研究

2018-02-08宋扬扬

价值工程 2017年35期

宋扬扬

摘要：目前有效的缩小区域经济的发展差距是区域经济领域研究的重点，运用因子分析找到影响经济发展的关键因素；根据因子分析得出因子得分情况。以云南省为例利用回归分析重点对第三类地区进行经济指标的分析。通过以上的数据分析确定影响区域经济差异的因素并得出城镇化建设的重要性。

Abstract： At present， the effective narrowing of regional economic development gap is the focus of regional economic research. This paper uses factor analysis to find the key factors that affect economic development and obtain factor scores. Taking Yunnan Province as an example， the regression analysis is used to analyze the economic indicators of the third category. Through the above analysis， the factors that affect the regional economic differences are determined and the importance of urbanization is found.

关键词：区域经济；因子分析；回归分析；多元统计

Key words： regional economy；factor analysis；regression analysis；multivariate statistics

中图分类号：F061.5 文献标识码：A 文章编号：1006-4311（2017）35-0070-05

0 引言

近十年随着中国的经济快速的增长，对于协调区域经济发展的研究也取得了一定的成果，陈斐等人[1]将空间统计分析嵌入到GIS系统中进行可行性分析。李雪梅等人[2]将主成分分析应用于区域经济分析中，吴涛等人[3]基于粗糙集理论对区域经济进行了分析。S.Luo[4]通过聚类分析研究中国区域经济。但是区域不平衡的现象并没有真正地解决，为了对每一类地区制定合适的经济发展的方案，本文对近几年中国的各类经济指标运用因子分析和回归分析方法进行了研究，确定了影响经济发展的因素并找到加快发展的动力。

1 分析方法的理论

本文在对区域经济的数据分析过程中采用了两种数据多元统计的方法，分别是因子分析法和回归分析法。

因子分析（factor analysis）模型由主成分分析发展而来。在降低维度思想的基础上，将多个变量之间的复杂关系转变为少数因子的一种多变量统计分析的方法。与主成分分析方法相比，因子分析的特点是更注重于描述原始变量之间的相关关系。近年来随着数据挖掘技术的提高，人们将因子分析的理论成功地应用于经济学、心理学、医学等各个领域，不断丰富了因子分析的理论和方法。

回归分析属于统计学中的基本分析方法，一般用来确定因变量与若干个因素变量之间的关系表达式，通常称为回归方程或数学模型；此外，还可以通过控制可控变量的数值，通过建立的数学模型对因变量进行预测；回归分析还可进行因素分析，寻找出影响显著的变量，从而可以区别重要因素和次要因素。回归分析主要研究变量之间的线性关系因此又称为线性回归分析，多元线性回归的一般数学模型是：

2 经济指标的选择

区域经济指的是在一定区域内经济发展的内部因素与外部条件相互作用而产生的生产综合体区域经济反应不同地区内经济发展的客观规律以及内涵和外延的相互关系。每一个区域经济的发展都受到自然条件、社会经济条件和技术经济政策等因素的制约。本论文以下9个经济发展的指标：

X1——工业增加值（亿元）；

X2——每万人拥有公共交通车辆（标台）；

X3——房地产开发企业个数（个）；

X4——城镇人口（万人）；

X5——批发零售业增加值（亿元）；

X6——居民人均儲蓄（元）；

X7——金融业增加值（亿元）；

X8——全社会固定资产（亿元）；

X9——生产总值（亿元）。

本文通过在国家数据统计局网站获得的2015年中国各省份的各个指标的原始数据作为经济分析的数据基础。

3 区域经济的数据分析

3.1 因子分析

本节主要应用因子分析的方法根据相关性大小对原始变量进行分组，从而提高同组内的变量之间相关性，通过该方法提取影响经济发展的主因子。将收集的资料导入数据分析软件SPSS19.0，通过计算得出表1相关矩阵。

从原始数据计算得到的相关矩阵可以总结得出，原始数据大部分变量的相关系数都大于0.3，因此所搜集的原始数据可以采用因子分析的方法。

KMO和Bartlett的检验表明，KMO作为观测相关系数值和偏相关系数值的一个指标，KMO值越大表明因子分析的相关性越强，因此越适合于作公共因子分析，获得的因子分析的结果越好，表2显示KMO=0.808>0.5，说明原始数据适合做因子分析；Bartlett的球形检验P值为0.000<0.05，也说明原始数据适合进行因子分子。从上面的三个方面来看，影响中国区域经济的各指标适合于因子分析，本节采用的方法是有效可行的。endprint

表3为因子分析的解释总方差，选取的两个主成分F1、F2的方差占全部方差的比例为92.978%，选取的主成分能够解释选取的9个变量的绝大部分，基本上是对原来指标的信息保留，并且将原指标的9个维度降为了2维，利于分析。

表4为旋转成分矩阵（Rotated Component Matrix），也为载荷矩阵，是一个系数矩阵，原变量可由各因子表示，如：X1=0.984×F′1+0.050×F′2，其矩阵模式：X=AF′。

将各因子的方差贡献率占3个因子总方差贡献率的比重作为权重进行加权汇总，得出各城市的综合得分公式为：F′=（77.388×F1′+15.590×F2′）/92.978（2）

因子得分和综合得分如表5所示。

通过上述因子分析得出的结果，大致可以将2015年全国区域经济划分为以下几类，如表6全国各省份因子分析所示。

从因素分析的结果来看，旋转后的因子载荷矩阵，公因子F1′在X1（工业增加值）、X3（房地产开发企业个数）、X4（城镇人口）、X5（批发零售增加值）、X6（居民人均储蓄）、X8（全社会固定资产）、X9（生产总值）上的载荷值很大，因此这7个经济指标的综合反映；公因子F2′在X2（每万人拥有公共交通车辆）、X7（金融业增加值）上的载荷值远远高于其他指标，这说明F2′综合反映的是每万人拥有公共交通车辆、金融业增加值两个方面。

结合各个省份在公共因子和总得分情况，对全国各省份的发展情况进行评价。在经济方面综合指标F1′得分最高的几个省份是江苏省、山东省、广东省；综合指标F2′得分最高的是北京市和天津市；总得分最高的几个省份是江苏省、山东省、广东省这说明综合得分高的区县在选取的指标各方面发展比较均衡。

3.2 多元回归分析

通过对以上各省份的区域经济的划分，可以得出属于第三类地区的省份最多，为了实现我国经济的均衡发展必须大力促进第三类地区的省份的经济的发展，从因子分析的结果分析选取了三个因子得分较高的指标X1（工业增加值）、X2（城镇居民人口数）、X3（房地产开发企业个数），为了便于分析第三类地区的经济发展状况这里以云南省为例，选取2005-2015近十年的数据，采用回归分析的方法建立回归模型，以便于对未来的生产总值做出预测。将数据导入SPSS软件中得到的分析结果如下：

如表7所示，3个自变量都进入模型，说明选取的解释变量都是显著并且是有解释力的。

表8概述了模型整体拟合效果，模型的拟合优度系数为0.999，反映因变量与自变量之间具有高度显著的线性关系。并且表中显示了R平方以及经调整的R值的估计标准误差，另外还得出了杜宾-瓦特森检验值DW=2.521（DW是用于检验一阶变量自回归形式的序列相关问题的统计量，DW在数2到4之间说明模型无序列相关）。

表9为分析方差分析表，可以得出模型的设定检验F统计量的值为702.943，显著水平的P值约等于零，于是所建模型通过了设定检验，说明因变量与自变量之间的线性关系明显。

表11中显示了预测值、残差、标准化预测值、标准化残差的最小值、最大值、均值、标准差及样本容量等值，根据概率的3西格玛原则，标准化残差的绝对值最大为1.613，小于3，说明样本数据中没有奇异值。

研究图1中的散点分布状况，10个散点大致散布于斜线附近，因此可以认为残差分布基本上属于正态分布。

从回归系数表（表10）中可以看出所建模型需要剔除变量X3，用本次实验中使用的方法和步骤，重新使得Y对X1、X2回归，得到的主要结果如表12-表14所示。

根据上面的分析结果，剔除X3变量后，模型的拟合优度为0.994比原来有所降低；而F检验与通过了模型设定检验与原模型相同；新模型的各个系数都通过了显著性T检验，因此更加合理，从而可以得出结论：剔除变量X3后所建立的模型更加合理。

图2是经过修正后的正态概率P-P图。根据上述的初步的回归方程能够通过城镇居民人口数和工业增加值可以粗略的估算出云南省的生产总值。

4 结果分析

通过以上的数据分析，可以得到区域经济的划分，无论是通过聚类分析得出的区域划分还是通过因子分析得出的区域划分都能够得出属于第三类地区的省份占到绝大多数，所以在进行经济战略部署的时候，应该以第一类地区的发展带动第三类地区的发展为重点才能够达到缩小经济区域发展差异的目标。通过区域的划分我们可以看到以下区域经济问题：①以广东、山东、江苏为首的发展迅速的三大省份，都是位于东部沿海地区，这说明中国沿海地区的省份拥有经济发展的资源更加的丰富，也可能在地区经济制度方面更加的完善，从而有利于该地区经济的发展。②从第二类地区中我们可以看到几乎包括了所有的直辖市，这说明该类地区的发展影响因素最大的应该是社会因素，人类的活动在促进经济发展方面起到了决定性的作用。③第三类地区的占到全国省份的2/3，这些地区的地理条件有很大的差异，说明影响这些地区发展的因素是多方面的，不仅应该从自然条件方面找到制约经济发展的因素，还应该从社会资源等方面寻找该地区经济发展的瓶颈。

5 结语

我国的区域经济差异的因素虽然是多方面的但是也是有规律可循的，经过上述的数据分析在众多的指标中确定了影响经济发展的关键因素是工业生产增加值，所以应该从行业发展的状况中找到适合各类地区的有针对性的经济发展策略。

以第一类地区作为全国经济发展的先锋，继续保持该地区省份的经济发展势头，整合该地区的各种发展资源，能够为第二、三类地区提供有效的经济发展资源，能够起到各地区相互帮扶的作用。

为了加快第三类地区的经济发展，应该以第二类地区为联系的纽带，通过第一类地区对第二类地区的经济带动，进一步的使得第二类地区帮助第三类地区的发展，形成一个经济发展的链条。

通过建立的回归分析模型可以得出城镇人口在促进经济发展的过程中起到了很大的作用，这也是国家要推进城市化建设的重要的原因，所以在今后的经济战略部署中应该加快各地区的城镇化建设，不断的增加城镇人口的数量。

参考文献：

[1]陈斐，杜道胜.空间统计分析与GIS在区域经济分析中的应用[J].武汉大学学报，2002，27（4）：391-396.

[2]李雪梅，张素琴.主成分分析在区域经济分析中的应用[J].计算機工程与应用，2009，45（19）：204-206.

[3]吴涛，陈黎伟，尚丽.基于粗糙理论的区域经济分析[J].运筹与管理，2007，16（5）：90-95.

[4]S Luo. Clustering analysis of provincial economic development level of China[J].Journal of Chongqing Institute of Commerce，2005.endprint

价值工程

2017年35期

基于多元统计分析的区域经济研究

杂志排行

价值工程的其它文章