APP下载

论因子分析中因子个数与矩阵秩的关系

2014-07-19廖文辉

关键词:协方差个数广东

廖文辉

(广东金融学院 应用数学系, 广州 510521)

论因子分析中因子个数与矩阵秩的关系

廖文辉

(广东金融学院 应用数学系, 广州 510521)

因子分析模型中遗留了较多的问题, 如通常我们利用公共因子的信息率的大小来确定因子的个数, 这样一般是个近似解. 本文试图从矩阵秩的角度来确定因子分析中因子个数, 同时用实例说明了这种确定答案的计算思路.

正交因子; 秩; 公共因子; 特殊因子

因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法. 在教育领域和若干其它领域的科学研究中, 往往需要对反映事物、现象从多个角度进行观测, 设计出多个观测变量, 并对多个变量收集大量数据以便进行分析, 从而寻找规律. 多变量大样本虽然会为我们的科学研究提供丰富的信息, 但也增加了数据采集和处理的难度. 更重要的是在大多数情况下, 许多变量之间存在一定的相关性,从而增加了问题分析的复杂性.

因子分析就是将大量的彼此可能存在相关性的变量转换成较少的、彼此不相关的公共因子变量和特殊因子变量, 从而减少变量维数. 在公因子个数的确定上, 目前通用的方法有两种, 一是根据实际问题的意义或专业知识来确定; 二是用确定主成分个数的原则来确定. 这两种方法都是一种经验的判别, 无法给出精确结果. 本文试图推出数学上的因子个数的精确解.

1 正交因子模型

设可观测变量Z1,Z2,…,Zm中存在p个独立的公共因子F1,F2,…,Fp(m≥p ), 每个可观测变量Zi含有独特因子εi(i=1,…,m), 它们的关系可以由下面的公式表达:

用矩阵形式可表示为

其中且满足:

(Ⅰ) p≤m;

(Ⅱ) COV(F,ε)=0, 即F与ε是不相关的;

(Ⅲ) E( F)=0, D( F)=Ip, 即F1,…, FP不相关, 且方差皆为1, 均值皆为0;

式(2)中的A是因子负荷矩阵, 其元素aij表示第i个变量Zi在第j个公共因子Fj上的负荷. 把Zi看成p维因子空间的一个向量, 则aij表示Zi在坐标轴Fj上的投影. 因子分析就是以F代Z, 由于一般有p≤m, 从而能达到简化分析问题的目的.

2 因子分析中因子数的确定

因子分析中公因子的个数(即上面模型中的p)到底应该如何确定呢?可由下面的定理解决.

定理正交因子模型: Z−μ=A⋅ F+ε中, 公共因子F1, F2,…, Fp(m≥p), D( Z)=∑, D(ε)=则

其中R(∑−D)表示矩阵∑−D的秩.

证明∑=D( Z)=E[( Z−μ)(Z−μ)T]=E[( AF+ε)(AF+ε)T]=AD( F) AT=AAT+D ,

从上述定理可以看出, 降维就是在D( Z)=∑中提取特殊因子方差矩阵D后, 使得新的矩阵的秩降低的过程. 通常因子的个数越少模型越简单, 所以因子分析的最优过程应该是用最少的因子个数p把D( Z)=∑中的公共信息提取干净为准则.

定义在正交因子模型: Z−μ=A⋅ F+ε中, 公共因子的个数其中∑=D( Z), D=D(ε)=

存在性说明因为D( Z)=∑是正定的, 所以它有特征值为λ1≥λ2≥…≥λm≥0, 相应特征向量为l1, l2,…,lm, 则∑有谱分解式:

所以上面定义的p肯定是存在的, 并且有1≤p≤m, 最糟糕的情况是δ1=δ2=…=δm=0, p=m.

有了这个定义, 我们确定因子分析的因子数就是很明确了. 那么, 如何从一个已知的D( Z)=∑中计算出因子个数p来? 这个计算过程较复杂, 下面通过两个例题来说明具体的计算思路.

例1已知Z=(Z1,…,Z4)的协方差矩阵∑为

试求因子个数p、因子载荷矩阵A和特殊因子的协方差矩阵D.

解设协方差矩阵D=D(ε)=则

根据秩的定义有, 如果R( A)=r, 则矩阵A的所有的r +1级子式全为零.

1°因为所以R(∑−D)≥2.

2°然后找3级子式中含矩阵D元素最少的一个首先计算.

从计算过程可以看出, 这个结果并不唯一, 我们只是取了其中最简单的形式. 有的时候算起来比较简单, 结果也是唯一的. 例如:

例2已知Z=(Z1,…,Z5)的协方差矩阵∑为

试求因子个数p和特殊因子的协方差矩阵D.

解设协方差矩阵D=D(ε)=则

3 结论及其意义

公因子个数是因子分析模型的关键结论, 只有先确定因子的个数, 才能用待定系数来确定因子载荷矩阵, 以及相应的因子得分问题. 目前通用的方法一是根据实际问题的意义或专业知识来确定; 二是用确定主成分个数的原则来确定; 这两种都是一种经验的判别, 有较强的实用价值, 但是从理论上说无法给出准确的解释. 本文用矩阵的秩的概念从理论上完全解释了因子个数的确定问题, 但是含有未知数的高阶矩阵的秩的计算是一个较繁杂的问题, 所以在对待高阶矩阵上, 算法还需要进一步改进.

[1] 刘肇军, 林海明. 初始因子与旋转后因子的异同[J]. 统计与决策, 2008 (19)

[2] 高惠璇. 应用多元统计分析[M]. 北京: 北京大学出版社, 2005

[3] 余锦华,杨维权. 多元统计分析与应用[M]. 广州: 中山大学出版社, 2005

[4] 胡 伟, 魏复盛. 中国4城市空气颗粒物元素的因子分析[J]. 中国环境监测, 2003(03)

The Number of Factors in Factor Analysis to the Matrix Rank

LIAO Wen-hui
(Department of Applied Mathematics, Guangdong University of Finance, Guangzhou 510521, China)

Factor analysis model still have some problems: such as we usually use the size of the information rate to determine the number of factors, which in general is a myopic solution. This article attempts from the angle of matrix rank, to determine the number of factors in factor analysis, at the same time use the example illustrates the calculation process.

orthogonal factor; rank; common factor; special factor

O212

A

1672-5298(2014)04-0010-03

2014-10-15

广东金融学院重点学科培育项目; 广东金融学院“创新强校”数学建模教学团队建设项目

廖文辉(1980− ), 男, 湖南双峰人, 广东金融学院应用数学系副教授. 主要研究方向: 数据分析与数值模拟

猜你喜欢

协方差个数广东
怎样数出小正方体的个数
不煲“仔”的广东煲仔饭
等腰三角形个数探索
怎样数出小木块的个数
怎样数出小正方体的个数
用于检验散斑协方差矩阵估计性能的白化度评价方法
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
二维随机变量边缘分布函数的教学探索
广东舆情
不确定系统改进的鲁棒协方差交叉融合稳态Kalman预报器