综合运用多元分析方法分析我国各地区工业企业经济效益

2015-03-25唐义杰

长春大学学报 2015年12期

李华，唐义杰

(长春大学理学院，长春130022)

1 方法说明

在多元统计分析的学习中，我们知道了每一个传统的统计分析方法都有其明显的缺点和适用范围。因此我们想看一下在实际数据分析中如何巧妙的利用所学的方法中的主成分分析，因子分析，聚类分析和非参数统计方法，巧妙地规避各个方法的局限性，使得在实际问题的分析中有较好的统计说明结果。

2 实际案例

2.1 选题背景

当今世界经济全球化越来越明显，各国经济依赖性逐渐加大，我国经济发展主要特点是呈现经济多年持续增长，经济规模和经济效益在全国范围内的发展出现不平衡的状况也愈发明显，因而分析我国各地区的经济效益发展状况就十分必要。本文分析了全国31 个省市自治区2011 年工业企业的经济效益的5 个指标变量:全社会固定资产投资(亿元)、单位地区生产总值能耗(等价值)(吨标准煤/万元)、经营单位所在地进出口总额(千美元)、地区生产总值(亿元)、地方财政税收收入(亿元)的数据进行分析。主要用到统计学的一般方法以这些城市的经济效益划分等级进行比较分析，找出它们之间的差别并分析可能的原因。

2.2 数据来源及说明

采用的数据主要是从网上搜集的，关于全国31 个省市自治区2011 年工业企业的经济效益的5 个指标变量:全社会固定资产投资(亿元)、单位地区生产总值能耗(等价值)(吨标准煤/万元)、经营单位所在地进出口总额(千美元)、地区生产总值(亿元)、地方财政税收收入(亿元)数据的5 个指标的数据都由国家统计局网(http://www.stats.gov.cn/tjsj/ndsj/2009/indexce.htm)收集整理得到。

2.3 分析经济效益指标选取及理由

2.3.1 评价经济效益相关指标的选取

X1:全社会固定资产投资(亿元)

X2;单位地区生产总值能耗(等价值)(吨标准煤/万元)

X3:经营单位所在地进出口总额(千美元)

X4:地区生产总值(亿元)

X5:地方财政税收收入(亿元)

2.3.2 评价经济效益的指标含义

(1)税收收入:国家凭借其政治权力，依据法定标准，从单位和个人无偿取得的一种财政收入。税收历来是国家财政收入的主要来源。从一定程度上税收收入能反映一定的经济效益情况，更能体现地区间的差异。

(2)固定资产投资:是建造和购置固定资产的经济活动，即固定资产再生产活动。固定资产再生产过程包括固定资产更新(局部和全部更新)、改建、扩建、新建等活动。它是反映固定资产投资规模、速度、比例关系和使用方向的综合性指标。固定资产投资能反映国家经济建设以及经济活动的情况，从而具有代表评价各省市经济效益的能力。

(3)地区生产总值:指本地区所有常住单位在一定时期内生产活动的最终成果。地区生产总值等于各产业增加值之和。国民经济各行业的增加值之和等于地区生产总值。国民经济各行业的增加值之和等于地区生产总值。

(4)单位地区生产总值能耗:是衡量一个地区能耗水平的综合指标，通常以万元GDP 消耗的能源(折算为标准煤)来计算。它是衡量一个地区能耗水平的综合指标。常常用万元GDP 能耗的下降来考核一个地区的节能降耗的工作成效。

(5)进出口:指国家(地区)与国家(地区)之间的贸易往来，进为购入，出为外销，进口和出口的综合。对于各省市的进出口一定程度上能够说明该地区的贸易往来，从而能够说明经济效益，可以作为评价各省市经济效益的指标。

2.5 进行聚类分析

2.5.1 聚类分析的基本思想

所要研究的样本数据和指标变量之间存在一定程度的相似性。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，将选定的这些统计量作为划分不同类型的依据。把一些相似程度较大的样品(或指标)聚合为一类，把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类，直到把所有的样品(或指标)聚合完毕，这就是分类的基本思想。在聚类分析中，通常我们将根据分类对象的不同分为Q 型聚类分析和R 型聚类分析两大类。

2.5.2 聚类分析的结果及分析

下面是对我国31 个省市地区运用SAS 软件进行聚类分析得出的划分情况如下:

图1 聚类质心之间的距离

由图1 的软件运行结果结合实际得出的聚类结果如下:

第一类地区:广东;第二类地区:北京、上海、江苏、浙江、山东;第三类地区:辽宁、福建、天津;第四类地区:四川、海南、湖北、山西、陕西、吉林、西藏、黑龙江、贵州、安徽、江西、河南、湖南、广西、重庆、云南、、新疆、内蒙古、甘肃、青海、宁夏、河北。

2.6 进行因子分析

2.6.1 因子分析的基本思想

因子分析的基本思想是研究如何以最少的信息丢失，将众多原始变量浓缩成少数几个主要的因子变量，以及如何使这几个主要因子变量具有较强解释性的一种多元统计分析方法。这几个共同因素也称之为公共因子，它们均是不可观测的。因子分析主要反映了降维的思想，通过降维手段将相关性度较高的变量聚集在一起，以便提取容易解释的某些特征，而以降低需要分析的变量数目和解释问题的复杂性和难度。

2.6.2 因子分析的结果及解释

从表1、表2 的因子分析的结果中可以看出第一主因子在变量X1，X2，X3，X4，X5 上的因子载荷显著的区别于第二主成分，第一主成分承担了系统的大多数信息，根据两个因子在各变量的载荷可以分别给第一第二因子命名为进口－收入因子和地方财政因子。上述因子分析的因子载荷结果结合我们聚类的结果在下面的表格给出:

表1 旋转因子模式

表2 每个因子已解释方差

从上面表3 的分析结果可以看到由第一主成分和第二主成分作为划分标准时，出现较大的变异性，结果相差显著，由综合得分看到的分类结果在第一第二个聚类较为合理，第三第四聚类的结果会出现一定的差异性，但总体效果相对较好。

2.7 进行非参数统计分析

2.7.1 非参数统计的特点

非参数统计问题中对分析数据的总体分布要求较为宽泛，因而针对某些总体分布不好给出的数据的问题可以考虑构造非参数统计的方法，加以分析，这样可以不因为由于对总体分布的假定不当而导致重大错误，因而这样的分析方法往往有着较好的统计效果，可以视为稳健统计，由于这一重要的特点。由于使用非参数统计方法分析数据时，需要照顾范围很广的数据分布，在某些情况下会导致其效率的降低。不过，近代理论证明了:一些重要的非参数统计方法，当与相应的参数方法比较时，即使在最有利于后者的情况下，效率上的损失也很小。

2.7.2 非参数统计的结果与解释

进行非参统计分析的目的在于分析我们上面给定的聚类分析的结果是否合理的问题。首先在使用非参方法考虑四个样本的差异时，先考察四个样本是否来自同一总体，这里仅假设总体服从正态或指数分布的情况，再考察四个样本是否存在显著性差异。这里分别以主成分1，主成分2 和综合得分作为评判的依据，分别对其进行分析。下面是具体的分析过程和软件的运行结果。

(1)样本分布的Kolmogorov－Smirnov 检验

H0:四个样本的分布相同;H1:四个总体的分布不同

表4

Cramer－vonMises 0.18937182 0.007 Anderson－Darling 1.26529374 ＜0.005

表5

从表4、表5 可以看到由第一主成分factor1 作为的分类依据时，假设来自正态总体和指数分布总体，由上述总体可以看出显著性水平均在0.05 以下，拒绝原假设，不服从正态或是指数分布。

表6

表7

由表6、表7 第二主成分factor2 作为的分类依据，由上述总体可以看出显著性水平均在0.05 以下，拒绝原假设，不服从正态或是指数分布。

表8

UNIVARIATE PROCEDURE Fitted Exponential Distribution for Factor2 Cramer－vonMises 0.29657377 ＜0.005 Anderson－Darling 1.76694749 ＜0.005

表9

由表8、表9 的综合得分sum 作为的分类依据，假设来自正态总体和指数分布总体，显著性水平均在0.05 以下，拒绝原假设，不服从正态或是指数分布。

综上可以认为四个样本是来自于四个总体，下面再分析四个总体的差异性。

(2)独立样本位置的Kruskal－Wallis 检验

H0:四个总体没有显著性差异;H1:四个总体至少有两个存在显著性差异

表10

表11

2 5 94.0 80.0 18.618987 18.800000 3 3 48.0 48.0 14.966630 16.000000 4 22 324.0 352.0 22.978251 14.727273 Kruskal－Wallis 检验卡方 3.2762自由度 3 Pr ＞卡方 0.3510

表12

由上述表10、表11、表12 的四个表格分析四个总体的Kruskal－Wallis 检验的结果可以看到，当以第一主成分作为分类的依据时，显著性水平达到0.0041，显著小于0.05，拒绝原假设，认为组间存在显著性差异，当以第二主成分作为分类依据时，显著性水平达到0.351，不能拒绝原假设，不能认为类间差异显著。当以综合得分作为分类的依据时，可以看到显著性水平达到0.0009，拒绝原假设，认为上述4 个总体是相互独立的。因而结合实际考虑的对聚类结果做出的调整具有合理性。

2.8 运用主成分分析或因子分析主成分分析法分析

2.8.1 广东省分析情况:

广东省被作为单独的一类，是由于其特殊的地理位置。广东省作为我国发展较早的一批城市，从我们数据分析的结果中可以看出，广东省的税收收入和固定资产投资均处于中等水平，分析可知广东省的经济增长不是由于能源消耗型企业的大量存在，而主要是进出口外贸行业和综合服务型行业的主要作用，第三产业在广东省的经济发展中的重要作用。因此，广东省进出口贸易较为发达，因此对于能源资源的消耗就较低。广东省的发展更多的是外向型和服务型的社会经济形态。

2.8.2 北京市、上海市、江苏省、浙江省、山东省分析情况:

表13

表14

表13、表14 中我们采用因子分析的方法确定2 个因子来解释这组变量认为是合适的，由因子分析的结果如下:

第2 个因子在X3 变量上的因子载荷较大，而在其他变量上的载荷较小，因而可以将其命名为进出口因子。第1 个因子第二个变量在X2，X4，X5 变量上的因子载荷较其他变量的载荷更大且与第2 个因子的载荷显著不同，因而第1 个因子可以命名为生产要素因子。分析数据可以得出这几个发达地区由于靠近沿海地区。较早的发展了工业，商业也发展的快速且高效，且由于所处的地理位置，经济的发展有很强的地方政府财政补助的因素，以及国家相关政策的支持作用，因而总体而言发展的情况较好。

2.8.3 天津市、辽宁省、福建省分析情况:

表15

表16

表15、16 是对于第三类地区天津、辽宁、福建而言，五种经济效益的指标都对其有相关影响。但同时运用多元统计回归主成分分析法，研究得出三所城市的进出口得分相对其税收收入、固定资产投资、地区生产总值以及单位地区生产总值能耗这四种经济效益指标相对较低，说明这三类地区的经济效益相对不发达，可能是由于缺乏相应的政策支持和资源缺乏，后期发展动力缺乏，这三省在四类中经济效益居于中等水平，尚有改进的空间。

2.8.4 河北省、山西省、内蒙古自治区、吉林省、黑龙江省、安徽省、江西省、河南省、湖南省、湖北省、广西自治区、海南省、重庆市、四川省、贵州省、云南省、西藏自治区、陕西省、甘肃省、青海自治区、宁夏自治区、新疆自治区情况分析:

表17

表18

从表17、表18 可知这些省市划分为一类最主要的原因之一这些省市地区的单位地区生产总值能耗较其他省市较高，从因子分析结果也显示了单位地区生产总值能耗与其他经济效益因素有所不同，因此可将此类划分省市的原因归结为单位地区生产总值能耗型地区，由于技术相对落后，而资源相对较多，发展资源型企业使得发展水平一般。税收收入或者其他经济效益因素也能反映了这一问题，主成分分析法得出了分类依据，四类地区属消耗型地区，看出四类地区生产总值也较低。从而影响了税收水平，进而影响了固定资产投资水平及进出口贸易。过分依赖其资源消耗性企业的发展，第三产业匮乏，上述各省市经济效益较差。

［1］李裕奇，赵联文，王芯，等.非参数统计方法［M］.成都:西南交通大学出版社.

［2］王学民.应用多元分析［M］.上海:上海财经大学出版社.

［3］阮敬，纪宏.实用SAS 统计分析教程［M］.北京:中国统计出版社.

［4］陈在余，陶应龙.统计学原理与实务［M］.北京:清华大学出版社.

［5］胡平，崔文田，徐青川.应用统计分析教学实践案例集［M］.北京:清华大学出版社.

［6］汪远征，徐雅静.SAS 软件与统计应用教程［M］.北京:机械工业出版社.