APP下载

主成份分析综合评价模型的改进及应用

2010-07-23李粉红刘新平

统计与决策 2010年2期
关键词:成份原始数据协方差

李粉红,刘新平

(1.商洛学院 数学与计算科学系,陕西 商洛 726000;2.陕西师范大学 数学与信息科学学院,西安 710062)

1 方法简介

1.1 分组主成份分析

分组主成份分析[1]是将主成份分析和因子分析结合的一种方法,它先对样本做因子分析,然后对各组变量进行主成份分析,只提取第一主成份,仅算各组第一主成份的得分Cj(j=1,2,…,k);再以各组的第一主成份得分 Cj(j=1,2,…,k)为各组得分,以因子旋转后各因子的方差贡献率(其中 λl是旋转后因子的特征值)为权重,建立综合评价模型进行排序,分类。(为了方便仍用原文中的符号)

1.2 变异系数作为权系数的可行性

在综合评价中,变异系数、复相关系数等一些统计系数也常用来作为权数[2],变异系数反映的是变量之间的变异程度。原始数据一般包含两方面的信息:一是各指标变异程度的差异信息,二是各指标之间相互影响程度上的信息,实际上也就是各指标的变异系数和相关系数。而协方差矩阵能完全刻划原始数据的全部信息,由定义知,其对角线元素即为各指标的方差,非对角元素则包含了各指标间的相关系数的信息。而通常的主成份分析中对原始数据标准化后数据的协方差阵的主对角元素全为1,那么实际上就抹杀了各指标变异程度的差异信息。

主成份分析通常是先将原始数据无量纲化,再由其协方差矩阵或相关系数矩阵来求主成份。而像其它的无量纲化方法如均值化或比重法等,无量纲化后的数据协方差矩阵的对角线元素都与该变量的变异系数有关。所以不管是选择通用的方法是对原始数据进行标准化,还是用均值化或比重法等,从协方差矩阵或相关系数矩阵来求主成份,则结果中更多反映的是数据的相关关系,若加进变异系数,体现出数据的变异信息,就能使原始数据的全部信息在综合评价得以体现,从而达到对问题全面评价的目的。

1.3 建立模型

在分组主成份分析的基础之上,将主成份分析作如下改进:

对原始数据进行无量纲化,得到数据阵X=(xij)n×p,方法选用均值化或其他方法,其余步骤均按照分组主成份分析,在建立综合评价模型时,选择将各变量的变异系数和分组后的方差贡献率这两种权数进行组合,得到综合评价模型:

其中∂k是以分组后各组的方差贡献率为权数时各变量Xk的系数,ρk是各变量Xk的变异系数。

2 应用实例

2.1 数据的来源

根据科学性原则和可比性原则,对我国中等职业教育的发展情况,选择以下十个变量作为综合评价的指标:X1:每万人口的毕业生数;X2:每万人口的招生数;X3:每十万人口的在校学生数;X4:获得职业资格证书占当年毕业生人数的比例;X5:每万人口的职工人数;X6:每万人口的专任教师;X7:职业中学教育经费支出占地方教育事业费支出的比例:X8:生均教育经费支出占地方教育事业费支出的比例;X9:生均预算内教育经费支出占地方教育事业费支出的比例:X10:年末购置专用设备金额占本年设备购置费的比例.

指标的原始数据取自《中国统计年鉴,2006》和《中国教育经费统计年鉴,2005》。

2.2 分析结果

为了加强方法之间的可比性,分别用传统主成份分析、分组主成份分析和改进后的方法,借助SPSSl2.0[3]及EXCEL软件,对我国中等职业教育发展情况作详尽的分析(缺少西藏的数据),得到如下结果:

表1 特征值及特征向量

表2 分组主成份分析的分组情况

表3 各模型得分及排名

(2)用分组主成份法计算综合评价值

因子分析后将原指标分成三个组,第三个因子只在X4上有较大载荷,用前面的结果,得到E2,具体值见表3。

建立综合评价模型为:

(3)用改进方法计算,建立综合评价模型得到E3(见表3)

2.3 结果讨论

从综合排名情况可以看出,几种综合方法在大部分地区上前后相差不大,而在个别地区上还是有很大的不同,E2、E3的排名前后有差距,但基本差异不大口浙江按E1排在第1名,按 E2在第 3名,而按 E3在第 7名,青海在 E2、E3中均排在第1位,而若用用第一主成份或卫1则位于第30名,从其余省份的排名也可以看出第一主成份或E1排名与E2、E3的排名的差距。这种差异从原始数据来看不是模型引起的,因为从原始数据来看青海在变量 X8、X9、X1。上的值居于所有省、市之首,尤其在X10上更是超出其他省很多,而在E3中引入了描述变量变异程度的量一变异系数,这几个奇异值导致了青海的排名靠前,实际上就是没有引进变异系数的E2中青海也排在第一位.从此排名可以了解各地区中等职业教育的发展状况,总体上来看发达地区的发展情况要好,进一步也可以找出各省份存在的问题。

另外,也可根据综合评价值按通常方法对各省份分类,不再赘叙。

3 结论

(1)在用主成份分析做综合评价时,应坚持理论界的提法,只提取第一主成份,而不能简单提取多个,以方差贡献率为权数加权;

(2)在分组主成份分析基础上,引进变异系数建立的综合评价模型,经过实证检验,能反映原始数据的相关信息和变异信息,证明用该模型作综合评价更客观、合理。

(3)对我国31个地区中等职业教育的发展情况进行综合分析,由综合得分排名,说明了地域差别对职业教育的影响,为我国中等职业教育的健康发展提供了一定的依据。

[1]侯文.对应用主成份法进行综合评价的探讨[J].数理统计与管理,2006,(2).

[2]胡永宏,贺思辉.综合评价方法[M].北京:科学出版社,2000.

[3]章文波,陈红艳.实用数据统计分析及应用,SPSS12.0[M].北京:人民邮电出版社,2006.

猜你喜欢

成份原始数据协方差
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定变化趋势限制的传感器数据处理方法研究
绩优指数成份变更与一周表现
两市主要成份指数中期成份股调整
Variational Mode Decomposition for Rotating Machinery Condition Monitoring Using Vibration Signals
用于检验散斑协方差矩阵估计性能的白化度评价方法
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
二维随机变量边缘分布函数的教学探索
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器