最小平均偏相关法和平行分析在主成分分析中的应用*

2016-06-24安徽师范大学教育科学学院241000刘相英

中国卫生统计 2016年2期

安徽师范大学教育科学学院（241000）刘相英

安徽师范大学教育科学学院（241000）刘相英

探索性因素分析是多变量统计分析的主要方法之一，其目的在于通过对观察变量的统计处理，用少数几个因子来解释变量所包含的主要信息，以达到简化数据的目的。这就需要研究者决定因子的数目，即多少个因子可以保证观察变量的变异量能够得到合理的解释，需要兼顾简约性（parsimony）与完备性（completeness）原则［1］。

因子抽取的方法主要包括主成分分析法和主因素分析法两类，主要的因素抽取技术包括Bartlett χ2最优拟合度检验、K1法、碎石图检验、Aaker原则、PA法、MAP法六种［2］。Bartlett χ2最优拟合度检验抽取的因子通常过多，Aaker法仅是一个经验原则。目前应用较多的是根据特征根大于1进行抽取的K1法和Cattell的碎石图检验，前者因对变量的数目较敏感而显得极不稳定，后者在曲线平滑或具有多个拐点时难以决定，而且也不具有客观性。最小平均偏相关法（minimum average partial，MAP）和平行分析（parallel analysis，PA）是更稳健的分析程序［3］，两者都是基于一定的数理统计基础得出的方法［2］，其客观性具有一定的科学保证。

检索国内涉及因子抽取的文献，尽管K1法和碎石图检验存在较多的问题［4］，但仍然是多数研究者常用的因子抽取方法，而MAP法和PA法的使用极少。造成这一现象的原因可能与研究者对这两种方法的实现程序不熟悉具有很大的关系。在国内介绍MAP法和PA法的文献中，多数仅给出了统计分析的结果，如沐守宽［2］、尹波［5-6］等，而对具体的实现方法没有相应的介绍。由于常用的统计分析软件如SPSS、SAS等都需要利用语法才能实现，这造成了不熟悉语法的研究者使用的困难，限制了其使用的范围。

鉴于目前没有合适的软件可以自动运行MAP分析且在SPSS软件中MAP分析的语法相对简单，本文将依据O′Connor［4］提供的MAP语法和ViSta软件中PA法的使用结合具体的统计实例，介绍这两种方法的实现过程。

统计原理

1.最小平均偏相关（MAP）

最小平均偏相关法（MAP）是Velicer（1976）提出的一种决定因子数目的方法。在具有K个成分的情况下，它通过逐渐增加的方式抽取0～（K-1）个主成分后，比较剩余偏相关矩阵的系统与非系统的平均变异的相对比例决定因子抽取的数目，当非系统性变异较系统性变异更大时，即平均平方根偏相关达到最小时就停止因子的抽取。

2.平行分析（PA）

平行分析是从Horn的平行检验发展起来的一种分析技术。在实际观察数据具有m个题项、n个样本的情况下，通过模拟多组具有m×n的随机数据矩阵并计算其平均特征根，比较实际观察数据与随机数据平均特征根的大小决定因子抽取的数目。其潜在的逻辑是如果观察数据所代表的变异是由真实的情况引起的，其特征值应当大于与其具有相同被试和变量个数的随机数据的平均特征值；如果小于随机变量的平均特征值，也就无法区分该因子所代表的变异是由真实的情况引起的还是由于随机的误差引起的，也就没有保留的价值。最初Horn（1965）建议以实际观察数据特征值大于随机数据的平均特征值作为取舍的标准，而近年来倾向于以实际观察数据特征值大于随机数据平均特征值95%分位数作为判断的标准［4］。Zwick 和Velicer（1986）比较了5种确定因子数目的方法，发现92%的情况下平行分析都是准确的［7］。

统计分析实例

本研究采用赵千秋修订的学校环境感知量表对312名在校初三学生进行调查，回收有效问卷290份，问卷有效率92.95%。问卷的Cronbach′s α=0.81，内部一致性良好。KMO =0.89，Bartlett球形检验χ2=2900.02，df =325，P＜0.001，适宜进行因素分析。共有6个主成分的特征值大于1，累积解释了总变异的60.23%。碎石图检验在第4个主成分处出现拐点，提示可以抽取三个因子。

1.MAP分析

将数据导入SPSS，打开语法编辑器，按照O′Connor提供的MAP语法样本编辑本研究所需要的语法。具体程序如下所示：

correlation var1 to var26 / matrix out（′C： data.cor′）/ missing =listwise.

factor var =var1 to var26 / matrix out（cor =′C： data.cor′）.

matrix.

mget / type =corr / file =′C：data.cor′.

call eigen（cr，eigvect，eigval）.

compute loadings =eigvect * sqrt（mdiag （eigval））.

compute fm =make（nrow（cr），2，-9999）.

compute fm（1，2）=（mssq（cr）-ncol（cr））/（ncol （cr）*（ncol（cr）-1）））.

loop #m =1 to ncol（cr）-1.

compute a =loadings（：，1：#m）.

compute partcov =cr-（a * t（a））.

compute d =mdiag（1 /（sqrt（diag（partcov））））.

compute pr =d * partcov * d.

compute fm（#m +1，2）=（mssq（pr）-ncol（cr））/ （ncol（cr）*（ncol（cr）-1）））.

end loop.

* identifying the smallest fm value & its location （=the # of factors）.

compute minfm =fm（1，2）.

compute nfactors =0.

loop #s =1 to nrow（fm）.

compute fm（#s，1）=#s-1.

do if（fm（#s，2）＜minfm）.

compute minfm =fm（#s，2）.

compute nfactors =#s-1.

end if.

end loop.

print eigval / title =“Eigenvalues”.

print fm / title =“Velicer′s Average Squared Correlations”.

print minfm / title =“The smallest average square correlation is”.

print nfactors / title =“The number of components is”.

end matrix.

上述程序首先计算变量之间的相关，然后进行因子分析，最后进行矩阵分析。矩阵分析的结果表明，样本的最小平均偏相关系数为0.0123，共抽取了3个主成分，具体结果如表1所示。

2.平行分析

SPSS软件的平行分析语法相对于MAP的语法更复杂，有兴趣的读者可以参考O′Connor的相关文献［4］。由于ViSta（the visual statistics system）软件可以方便的进行平行分析，本文将以其为基础进行平行分析的处理。ViSta是一款基于可视化的免费统计分析系统，采用图形界面操作方式，可以直接从其网站上下载［8］。安装完成后只要按照要求把数据导入，按需要点选对应的分析按钮即可。

表1　Velicer′s最小平均偏相关

将样本数据转换为文本文件，打开ViSta软件，点击file--import data把数据文件导入系统（注意：不是open data）。此时用户界面左上方的工具按钮变成蓝色，如果没有变色，需要返回检查缺失值并进行处理。点击Analyze-Parallel Analysis，出现Options for Parallel Analysis对话筐，根据需要可以改变Number of samples后的数字，如改为500，表明要模拟500个具有相同被试和题项的随机数据矩阵，然后点击Ok按钮即可，用户界面出现工作地图，点击“图形”按钮，即出现平行分析结果图，分析完成。打开Window菜单，Current Report Window给出详细的特征值，点选Copy Spread Plot，可以把平行分析的图形复制入word文档（图1）。

图1　ViSta平行分析结果图

在本例中，真实数据的特征值曲线与模拟数据的特征值曲线在第3与4因子之间相交，说明前3个因子解释的变异与随机误差引起的变异具有显著的区

别。本例中前3个因子共解释了变异的47.54%。第4-6个因子，尽管其特征值大于1，但由于无法区分其变异是由真实的情况引起还是由随机的误差引起，所以保留的价值不大。

结论

最小平均偏相关法和平行分析是基于一定的数理统计基础的决定因子数目的方法，克服了目前常用的因子提取规则如K1法、碎石图、解释的方差比例等方法的主观性和不足。本文通过实际调查数据的分析，详细介绍了上述两种方法的实现过程，为研究者的应用提供了较好的范例和样本，有利于该方法的推广使用，也有利于提高研究者因子提取的科学性。

但是，应当注意的是，不要忘记任何方法都有它的局限性，不能无限放大它的作用，MAP分析的理论基础是基于样本数据的相关性，而平行分析的理论基础是特征值分析，在一定的情况下，仍然会存在较大的误差，因此，在推荐使用MAP分析和平行分析的同时，必须提醒研究者在实际的研究过程中最好联合使用多种方法并兼顾理论的建构来决定因子的数目，这需要每一个做探索性因素分析的研究者牢记［4，9］。

参考文献

［1］Watkins MW.Determining parallel analysis criteria.Jour-nal of Modern Applied Statistical Methods，2006，2：344-346.

［2］沐守宽，顾海根.探索性因素分析因子抽取方法的比较.心理学探新，2011，31（5）：477-480.

［3］赵必华.修订的两因素学习过程问卷因素结构的探查.安徽师范大学学报（人文社会科学版），2013（4）：402-408.

［4］O′Connor BP.SPSS and SAS programs for determining the number of components using parallel analysis and Velicer′s MAP test.Behavior Research Methods，Instr-uments，& Computers.2000，32（3）：396-402.

［5］尹波.主成分抽取数量确定的新方法.统计与决策，2010，19：8-10.

［6］尹波.基于偏相关系数和平行检验的主成分抽取数量的确定方法.统计与决策，2011，4：7-9.

［7］Zwick WR，Velicer WF.Comparison of Five Rules fo-r Determining the Number of Components to Retain.Psychological Bulletin，1986，99 （3）：432-442.

［8］ViSta软件下载地址：http：/ / www.uv.es/ visualstats/ Book/ DownloadBook.htm.

［9］孔明，卞冉，张厚粲.平行分析在探索性因素分析中的应用.心理科学，2007，30（4）：924-925.

（责任编辑：郭海强）

*基金项目：安徽师范大学2014年度研究生科研创新项目（立项编号：2014yks004）