APP下载

基于Ward法和多维标度法的江苏各城市在岗职工平均工资的聚类分析

2015-03-11尹楠

经济研究导刊 2015年3期
关键词:聚类分析

尹楠

摘 要:以2013年江苏统计年鉴中江苏十三个地级市按国民经济行业分类所统计出的在岗职工平均工资为依据,利用多元统计中的两种聚类分析法得出江苏各城市在岗职工平均工资的地域划分。聚类分析的结论表明,江苏各城市在岗职工平均工资所得出的地域划分结论,和一般意义上的江苏经济发展的地域划分,即苏南、苏中和苏北的地域划分大体上是吻合的,从而验证了经济发展水平和工资收入水平相适应这一前提假设。

关键词:聚类分析;Ward法;多维标度法

中图分类号:F240 文献标志码:A 文章编号:1673-291X(2015)03-0192-03

一、引言

按照传统的江苏经济发展的区域划分方法,一般可以分为苏南、苏中和苏北三个主要区域,由于长期以来经济基础、交通运输、政府投入等方面存在差异,三个区域的经济发展状况有一定的差异,从而导致三个区域所在城市的在岗职工平均工资有一定的差距。根据2013年江苏统计年鉴的数据,本文以江苏十三个地级市按国民经济行业分类所统计出的在岗职工平均工资为依据,利用多元统计聚类分析法中的Ward法和多维标度法,对江苏各城市在岗职工平均工资的地域差异情况作出一个地域划分,以验证江苏十三个城市的在岗职工平均工资收入是否符合经济发展的水平,即平均工资收入水平的划分是否也符合苏南、苏中、苏北三个地域的划分。

二、聚类分析的实现过程

(一)分析的思路

聚类分析是一种将研究对象进行分类统计的多元统计方法,进而从中找出对象之间的相似性和差异性,以便于进行分类统计,这些对象之间的相似性和差异性的划分完全是根据数据聚类统计的结果确定的。系统聚类分析的基本思想是先将n个样品各自看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品都成为一类为止[1]。系统聚类的方法主要包括最长距离法、最短距离法、中间距离法、类平均法、重心法和离差平方和法(Ward法)等几种方法,这里我们选取Ward法进行分析。

多维标度分析(MDS)则是另外一种聚类分析方法,它是以空间分布的形式表现对象之间相似性或亲疏关系的一种多元数据分析方法。其主要结果可以用多维标度图形象直观地表示出来。一般都是用二维标度图来表示,如果维数过多会造成视觉困难。多维标度法的计算实现步骤主要包括以下几步:首先确定研究目的,选择需要进行比较分析的样品和变量,然后计算样品间的距离矩阵并分析样品间的距离矩阵;选择适当的维数,得到距离阵的古典解,将各个样品直观的表现出来并对结果进行解释,最后再验证模型的拟合效果[2]。

通常要通过两步来完成:首先,构造一个f维坐标空间,并用该空间中的点分别表示各样品,此时点间的距离未必和原始输入次序相同,通常把这一步称为构造初步图形结构;其次,逐步修改初步图形结构,以得到一个新图形结构,使得在新结构中,各样品的点间距离次序和原始输入次序尽量一致[3]。

(二)指标体系的选择

对于聚类分析统计指标的选择,以江苏十三个地级市按国民经济行业分类的在岗职工平均工资为标准[4]。其中采矿业的数据有四个城市:无锡市、苏州市、南通市、泰州市的数据缺失,其中一个原因可能是由于采矿业在江苏的产业经济发展中属于衰退产业[5],因此导致这四个城市并未统计采矿业的收入水平。在这里为了便于统计和分析,在统计软件中作分析时,省略了采矿业这一指标。以按国民经济行业分类的各行业平均工资作为分析指标,在作具体分析时,可分别用x1、x2、x3、x4、x5、x6等变量名表示。

(三)聚类的过程和结果

在作具体的聚类分析时,首先需要确定聚类过程中类的个数,Bemirmen(1972年)提出了应根据研究目的来确定适当的分类方法,并提出了一些根据聚类图来分析的准则[6]。在这里我们为了验证江苏传统经济地域的划分,即苏南、苏中和苏北的划分,把类的个数也确定为三个,这样便于验证江苏十三个地级市的在岗职工的平均工资收入水平是否也符合苏南、苏中和苏北的地域划分。在统计软件R中,利用rect.hclust()函数将类的个数,即地区分成三类。在R中通过聚类分析得出聚类方法的谱系图(见图1),从图中可以看出,无锡、苏州、南京和常州被划归为一类,南通和镇江被划归为一类,剩余的城市被划归为另外一类。

在进行多维标度分析时,MDS将研究数据转换为距离数据后,生成两种相互联系的结果——对象的空间分布图与对象在各维度上的解即为坐标值。前者以后者为基础。依据空间分布图进行聚类发生困难或可能产生偏差时,就需要运用研究对象在各维度上的坐标值进行聚类分析[7]。我们在维数中选择了二维,因为二维平面图能够比较直观的表示出各地区的位置,根据R语言计算得出的结果,具体的坐标值数据(如表1所示)。

在R统计软件中根据二维坐标值绘制出江苏十三市的二维标度图(见下页图2),从图中可以很明显地看出,苏州、南京、无锡和常州四个城市在图中所处的位置相聚较近,可以划归为一类;镇江和南通相聚较近,处于坐标值的中间地带;剩余的城市则划归为另外一类,它们之间的差异情况相对较小。

三、聚类分析的结论

无论是采用系统聚类法中的Ward法,还是采用多维标度法,对江苏十三市的聚类分析的结果大致是相同的,综合考虑 Ward法和多维标度法得出的结论,根据谱系图和二维标度图得出三类地域划分(如下页表2所示)。从下页表2可以看出,根据江苏各城市在岗职工平均工资的系统聚类分析所得出的地域划分结论,和一般意义上我们认为的江苏经济发展的地域划分,即苏南、苏中和苏北的地域划分大体上是吻合的,从而验证了经济发展水平和工资收入水平相适应这一前提假设。

综合考虑两种方法对结论的影响,系统聚类法中的Ward法比较清晰直观的用谱系图的形式表示出结果,而多维标度法不仅能够在图中直观的表示出结果,而且能够得出维度上的坐标值,从坐标值能够得出各分析指标之间的距离。但多维标度法选用的维度不宜过多,最多用二维或者三维的空间分布图表示,如果维数过多,将很难在图中表示出来。

参考文献:

[1] 汤银才.R语言与统计分析[M].北京:高等教育出版社,2005.

[2] 王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2011.

[3] 张文彤,董伟.SPSS 统计分析高级教程[M].北京:高等教育出版社,2004.

[4] 江苏省统计局.江苏统计年鉴[K].北京:中国统计出版社,2013.

[5] 费洁.江苏衰退产业及其退出研究[D].南京:南京航空航天大学经济与管理学院,2012.

[6] 任雪松,于秀林.多元统计分析[M].北京:中国统计出版社,2011.

[7] 揭水平.多维标度法的聚类分析:问题与解法[J].统计与决策,2009,(11).[责任编辑 吴 迪]

猜你喜欢

聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
我国中部地区农村居民消费行为阶段特征分析
基于聚类分析的无须人工干预的中文碎纸片自动拼接
浅析聚类分析在郫县烟草卷烟营销方面的应用
新媒体用户行为模式分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究