浅析主成分分析与因子分析
2018-02-10乔漫洁吕慧慧伍盼盼
乔漫洁,吕慧慧,伍盼盼
(河南中医药大学,河南 郑州 450046)
0 引言
在医学研究或流行病学调查过程中,事物发展规律或影响该事物本身的因素的特征受多元化的因素影响。为了能够完整的收集到所研究对象的所有信息,往往需要从多角度对多个变量进行信息的采集,变量越全面,所收集信息和数据对所研究事物的反应就越完整、越准确。但同时也给数据分析带来一定的难度,因为会产生多重共线性等问题,使得影响因素所反映的信息重复,掩盖事物发展的真正规律,会进一步对统计结果的科学性及真实性产生影响。因此在其中应用降维思维可从根本上解这一问题。
基于多元统计分析,因子分析与主要成分分析是两种重要的数据降维方法,运用得较为广泛。上述两种方法均是以降维思维为基础,运用树立数理转换与运算转换的方式将多变量信息转换为少数几个不存在密切联系的综合变量,而通过转换形成的新变量可对原始信息进行有效反应。
基于同为降维思想,许多学者在研究过程中对两种方法的原理及使用数据和条件不甚清楚,因此常常将两种方式混淆使用。因混淆使用可导致统计分析结果的科学性及真实性受到严重影响。主要成分分析法的推广与发展形成因子分析法,其两种方法之间在存在相同之处的同事也具有明显差异,故对两种方法的差异部分与共同之处进行细化与归纳具有重要意义,可使得应用者在实际研究的过程中可以选择更为科学的统计分析方法。
1 主成分分析和因子分析
主成分分析又称主分量分析或主轴分析,于1901年Karl Pearson提出,1933年数学家Hoteling将之推广到随机向量[1-2]。是指将多项变量通过数理学运算变换成少量的综合变量(主成分),用转化后的综合变量对原始变量的方差-协方差结构进行解释的多元化分析方式。
转化成的综合指标即为主成分,主成分彼此之间相关性小,并且尽可能多的保留原始变量的信息。因子分析方法于1904年由Karl Pearson 和Charles Spearman提出,研究如何以最少的信息丢失,以及使因子变量具有较强的可解释行的一种多元统计分析方法。被广泛用于解决心理学、教育学以及经济学方面的问题[3]。由于该方法运算量大,直至20世纪60年代得益于计算机的应用才有较快的发展。
1.1 两者的区别
主成分分析的运算基础是多次的线性变换,目的是找出一个矩阵,使得对进行线形变换后,得到的新的向量的协方差矩阵为对角线矩阵,通过方差-协方差矩阵将多个原始变量变换为彼此之间不相关的能够尽可能完整反映原始变量所有信息的新变量。其中被选取的新变量就是“主成分”。从数理上讲,主成分分析通过矩阵转换的方法得以实现,将原始数据转换成不具备密切关联的变量,且在转换过程中原始变量的总方差与各项变量方差均保持不变,而最终结果中方差最大的新变量则作为第一主成分变量,再一次类推。经过计算的主成分变量数量少于原始变量,涵盖85%以上原始变量的信息[4]。
主成分分析可以简单的总结成一句话:数据的压缩与解释。一般情况下被应用于某种事物或现象综合指标的寻找,并且将综合指标中所含括的信息予以有效的解释。
在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法。可以通过矩阵变换知道原始数据能够浓缩成几个主成分,以及每个主成分与原来变量之间线性组合关系式[5]。但是每个原始变量在主成分中都占有一定的分量(载荷),这些载荷的大小分布没有清晰的分界线,也就造成无法明确表述每个主成分代表哪些原始变量,即提取出来的主成分无法清晰的解释其代表的含义。
鉴于主成分分析实际含义的解释缺陷,统计学家斯皮尔曼又对主成分分析进行了扩展。因子分析可看作是主成分分析的推广及延展[6]。该分析方法是将原始变量的相关系数矩阵进行变量分组,且不同组别之间的变量不具备相关性,但同一组别的变量之间存在较高相关性。此种新形势下的变量均代表一个公共因子,因此可将所研究问题进行公共因子分解,使其可由特殊因子与线性函数之和予以解决。由此可见,因子分析法所产生的新变量是对其原始变量的分解,并非是原始变量之间的线性组合。
因子分析在提取公因子时,不仅考虑变量之间是否相关,同时考虑相关关系的强弱,使得提取出的公因子不仅起到降维的作用,而且能够被很好的解释。除此之外,因子分析解决主成分分析解释障碍的方法是通过因子轴旋转[7]。因子轴旋转可以使原始变量在公因子(主成分)上的载荷重新分布,从而使原始变量在公因子上的载荷两级分化,这样公因子(主成分)就能够用哪些载荷大的原始变量来解释。
1.2 两者的联系
主成分分析和因子分析方法同属于多元统计分析,两者均是基于多变量的相关系数矩阵,对数据进行无量纲化的处理之后,在确保保留大部分信息的前提下,用少数几个不相关综合变量概括多个具有较强相关性的变量,最终获得的变量消除了原始变量的多重共线性,即对数据进行降维[8]。降维过程大幅度的解决了原始数据的多充线性,可信度得到提高,统计结果可以有效地解释现实问题。需要注意的是,主成分分析和因子分析过程中产生的主成分或因子,是综合所有原始变量信息后的新变量,并非存在于原始变量中的部分变量。
在主成分分析时,原始变量通过线性转换而生成新变量,也可表述为将原始变量经过坐标转变以形成性变量;就因子分析而言,原始变量的相关系数矩阵将原始变量经过一系列分组后而形成的特殊因子与公共因子则为其新变量。上述两种方式转换而成的新变量在因子数量与主成分方面均较原始变量更少,可有效降维,同时提升数据的利用效率。
1.3 数据转换及处理过程不同
主成分分析中为了消除量纲以及数量级,一般需使原始数据处于标准化状态,并将其转化为方差为1,均数为0的无量纲数据。就因子分析而言,其可通过因子法、重心法等各类型解法求得因子变量,且保障因子变量均属于每个变量受到影响而形成的变量,其求解方式与原始变量是否同量纲没有必要关联。不过该方式在实际应用中,为了有效规避数量级与量纲对其产生的影响,可在数据转换后再进行因子分子与主成分分析。
2 结果
主成分分析和因子分析均是以降维思想为基础的多元统计分析方法,两种方式存在不同的运用条件与运用原理以及数据转换过程,因此我们在科学研究过程中应充分考虑各方面的实际情况,选择合适的统计方法,使得所得的结论和解释更具科学性。