APP下载

R软件在西部地区新型城镇化测度中的应用

2016-10-14刘高生

现代商贸工业 2016年4期
关键词:分析方法城镇化权重

刘高生

摘 要:

主成分分析能够对各种数据进行降维,应用广泛,但当得到的结果和现实有差距时要进行修正。利用层次分析方法对主成分的结果进行修正。利用R软件,给出了西部地区新型城镇化水平的综合得分,为西部地区新型城镇化建设提供一定的指导。

关键词:

R软件;新型城镇化;主成分分析;层次分析法

中图分类号:TB

文献标识码:A

文章编号:16723198(2016)04021702

1 引言

主成分分析方法在综合评价中是经常用到的方法,其基本思想是变量降维,将大量相关的变量综合成少数几个主成分,从而简化问题,便于分析。然而,主成分分析方法有一定的局限性,其中一种局限为很多重要的变量往往占的权重比较小。新型城镇化发展需要“动力、质量、公平”三者有机统一,但是运用主成分之后,公平性的指标占的比例较小,这与新型城镇化的内涵不相符。一方面由于城镇化公平性的指标不易得,另一方面体现了主成分分析方法的局限性。

本文尝试对主成分分析方法的局限性进行改进。以西部地区新型城镇化水平测度为例,基于R软件,首先运用主成分分析方法,得到几个综合的主成分及其权重,之后利用层次分析方法,通过比较矩阵确定主成分权重,然后利用加权方法最终确定综合主成分的权重,最后给出西部地区新型城镇化的综合得分。

2 西部地区新型城镇化测度

选取的西部地区包括内蒙古、广西、重庆、四川、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆。考虑西部地区新型城镇化的特殊性及相关指标的易得性,参照王等的城镇化指标的选取,本文从新型城镇化发展动力、发展质量以及发展公平等方面选取了10个指标,指标如下:人口地区生产总值、资本形成总额、公共财政收入、城镇居民消费、年末公共交通车辆运营数、年末实有道路长度、生活垃圾清运量、森林覆盖率、城镇居民人均可支配收入、年末城镇人口比重。数据来自2014年中国统计年鉴。

2.1 主要函数说明

(1)对数据进行标准化处理的函数:scale()函数。函数用法:scale(x,center=TRUE,scale=TRUE),主要参数:x:数值型矩阵;center和scale均为逻辑参数,当center=TRUE,scale=TRUE时,对x进行标准化处理。

(2)KMO检验及Bartlett球形检验函数:KMO()函数及cortest.bartlett()。函数用法:KMO(r),主要参数:r:相关系数矩阵。

cortest.bartlett(R,n=NULL),主要参数:R:相关系数矩阵;n:样本容量。在使用cortest.bartlett()时,需要加载psych包。

(3)主成分分析主要函数:principal()。函数用法:principal(r,nfactors=1,residuals=FALSE,rotate="varimax",n.obs=NA,covar=FALSE,scores=TRUE,missing=FALSE,impute="median",oblique.scores=TRUE,method="regression"),主要参数:r:相关系数矩阵或是原始数据矩阵;nfactors:需要提取的主成分个数,默认为1;rotate:旋转方法,默认的为方差最大化旋转varimax;scores:当scores=TRUE时,计算主成分得分。在使用principal()時,需要加载psych包。

2.2 应用实例及解释

2.2.1 分析的基本步骤

第一步:读入数据。read.csv()函数读入数据。第二步:对数据进行预处理,包括对逆变量的处理以及数据的标准化处理。由于我们选择的变量均为正指标及中性指标,因此我们只对数据进行标准化处理。运用的函数为scale()函数。第三步:进行KMO检验及Bartlett球形检验,Bartlett球形检验的P值小于0.05时,可以认为相关系数矩阵与单位矩阵有显著性差异。当KMO检验的值大于0.5时,适合做主成分分析。运用的函数为KMO()和cortest.bartlett()。第四步:主成分提取、旋转命名及主成分得分的计算。一般根据相关系数矩阵的特征值大于1来确定主成分的个数,或者选取累计方差贡献率大于0.85时的特征根的个数为主成分的个数。通过旋转,使得一个变量只在尽可能少的成分上有较高的载荷,这样使得主成分的实际含义更加清晰,便于命名。当主成分确定之后,可以计算各个主成分在每个样本上的具体数值,这些数值被称为主成分得分。运用的函数为principal()。第五步:主成分权重确定,采用主成分权重与层次分析的权重结合的综合赋权法:wj=ρwjp+(1-ρ)wje,其中为wjp主成分析得到的权重,wje为层次分析方法确定的权重,ρ为两种方法的权重系数,当得到的主成分权重系数与事实相差不大时,一般ρ取为0.4,当得到的主成分权重系数与事实相差比较大时,ρ可适当减少。

2.2.2 结果解释

读取数据:data<-read.csv("data.csv",header=TRUE)

Sdata<-scale(data[2:11])

KMO检验及Bartlett球形检验:

library(mnormt);library(psych)

KMO(cor(Sdata));

cortest.bartlett(Sdata);

结果如下:KMO值为0.59

Bartlett球形检验:

Chi-Square:149.5036 df:45 p.value:

3.851722e-13

由于KMO檢验值为0.59大于0.5,且Bartlett球形检验的P值小于0.05,则认为该数据适合做主成分分析。

主成分分析:

pc<-principal(Sdata,nfactors=3,rotate="varimax",scores=TRUE)

部分结果如表1、表2:

由表2得:SS loadings为特征值,Proportion Var为方差解释比例,当选取3个主成分时,方差贡献率达到了94%,因此我们选取3个主成分。

由表1得:资本形成总额、公共财政收入、年末公共交通车辆运营数、年末实有道路长度及生活垃圾清运量在第一个成分上有较高的载荷,因此PC1可解释为公共基础设施,体现了新型城镇化的质量。人均地区生产总值、城镇居民消费及年末城镇人口比重在第二个成分上有较高的载荷,因此PC2可解释为经济基础,体现了新型城镇化的动力。森林覆盖率及城镇居民人均可支配收入在第三个成分上有较高的载荷,因此PC3可解释为环境及收入,体现了新型城镇化的公平。

由表3可得:新型城镇化的质量方面,四川最好,其次是内蒙古,再次是新疆;新型城镇化的动力方面,内蒙古最好,其次是重庆,再次是宁夏;新型城镇化的公平方面,最好是广西,其次是云南,再次是重庆。

新型城镇化需要“动力、质量、公平”三者有机统一,其中公平方面非常重要,但是运用主成分分析后三者的比例为0.46∶0.37∶0.17,公平性的比重占的很小,因此需要对其修正,修正方法用层次分析法。

层次分析方法的目标层为新型城镇化,指标层为得到的三个主成分,我们仅仅计算指标层的权重,因此只需构造一个判断矩阵即可,构造判断矩阵需要两两比较,参考及标度得到判断矩阵为:

由表4可得:新型城镇化最好的地区为内蒙古、其次是重庆、再次是广西和四川。新型城镇化最差的地区为青海和甘肃。在此基础上充分考虑每个地区的特殊性及各个成分上的得分,合理规划建设新型城镇化。

3 总结

主成分分析能够对各种数据进行降维,应用广泛,但得到的结果和现实有差距时要进行修正,我们利用层次分析方法对其结果进行修正,最终给出了西部地区新型城镇化的综合得分,为西部地区新型城镇化建设提供一定的指导。

参考文献

[1]王琴梅,杨军鸽.关天经济区新型城镇化水平综合评价—基于PCA分析法[J].西安财经学院学报,2015,(2):3036.

[2]牛晓春,杜忠潮,李同昇.基于新型城镇化视角的区域城镇化水平评价—以陕西省10个省辖市为例[J].干旱区地理,2013,(1):354363.

[3]谢益辉.基于R软件rpart包的分类与回归树应用[J].统计与信息论坛,2007,(9):6770.

[4]张贡生.中国特色的城镇化:文献综述[J].兰州商学院学报,2014,(12):4649.

[5]R Core Team.R:A Language and Environment for Statistical Computing[Z].R Foundation for Statistical Computing,Vienna, Austria,2014,URL: http://www.Rproject.org/.

猜你喜欢

分析方法城镇化权重
基于EMD的MEMS陀螺仪随机漂移分析方法
权重常思“浮名轻”
一种角接触球轴承静特性分析方法
中国设立PSSA的可行性及其分析方法
为党督政勤履职 代民行权重担当
基于公约式权重的截短线性分组码盲识别方法
坚持“三为主” 推进城镇化
城镇化
核安全设备疲劳分析方法与步骤
层次分析法权重的计算:基于Lingo的数学模型