因子分析教学案例的改进

2010-07-23李俊扬林海明

统计与决策 2010年2期

李俊扬林海明

（1.贵州师范大学数学与计算机科学学院，贵阳 550001；2.广东商学院a.经济贸易与统计学院；b.国民经济研究中心，广州 510320；3.广东省电子商务市场应用技术重点实验室，广州 510320)

1 因子分析模型L用于综合评价的步骤与实例

对于多元统计问题的解决，计算出有关模型的结果是一方面，同时能通过计算结果、原始数据进行数据分析，尽可能地解决实际问题同样是重要的。以下给出初始因子、旋转后因子较系统的应用步骤和实例。关于变量的总体相关阵通常是不知道的，通常用变量的样本相关阵替代。

因子分析模型L及其解和优良性，数学符号见文献[1]。

1.1 初始因子分析的综合评价步骤及其实例

初始因子应用于综合评价的步骤。

⑴指标的正向化(单独计算)[2]，标准化；

⑵求变量的样本相关阵∑及其特征值λi，主成分法下的初始因子载荷阵L0，旋转后因子载荷阵LΓ；

⑶LΓ(要计算出多个 LΓ)与 L0比较，用因子载荷绝对值 0、1两极分化频数对比表判断(见表4)，如果L0中行元素绝对值足够向0、1两极分化，用初始因子进行分析[3]，继续[原始变量之间相关度很低或无关时，直接进行逐个指标分析，用∑i=1pXi作综合分析(Xi是正向化、标准化的)是适合的]。

⑷确定初始因子个数m：用L0和因子与变量显著相关的临界值判断，若因子与某些变量显著相关，则选入该因子[3]，因子个数m、因子方差累计贡献率随之确定；

⑸初始因子fi0的命名及其正向化：由L0的第i列li0，将与fi0显著相关的变量归为fi0一类，由这些变量的意义对因子fi0进行命名(注意有些变量，可能与两个因子显著相关，命名中、分析中也要同时考虑好这些变量的联系性影响)。正向化[3]：如果这类变量与fi0的相关系数表明该类变量的意义是正向的，fi0不变符号；如果意义是反向的，fi0、li0同时乘上负号；

⑹计算写出初始因子 F0=(λ1-1/2a1'X,…，λm-1/2am'X)'(用 L0回归的因子得分)；

⑺因为因子不相关，综合起来可反映样品的因子累加综合状况(不是反映多变量信息最大化时的样品值状况)，以初始因子方差贡献率λi/p为权数得综合初始因子

⑻计算给出m个初始因子样品值矩阵Hm0、综合初始因子样品值并排序；

⑼用m个初始因子样品值做聚类分析，按综合初始因子样品值排名顺序给出样品分类结果；[2]

⑽结合样品的分类结果，综合初始因子、初始因子样品值和排序，原始数据，原始变量的意义，进行优势、劣势、潜力状况和影响因素等的综合评价，给出较客观、可靠的决策相关性建议。

SPSS软件初始因子有关结果计算过程：原始数据的正向化数据输入或拷贝到数据窗口中，选择Analyze→Date Reduction→Factor→变量框中选入正向化的数据→Descriptives 选择 Initial solution，Coeffi-cients，Continue→Extraction 选择 Principal Component，Correlation matrix(数据标准化被执行 )，Numberoffactor：m，Unrotated factorsolution，Screen Plot(碎石图),Continue→Rotation 选择 None，Continue→Scores选择 Save as Variables，Regression，Display factor score coefficient matrix，Continue→OK。

表1 原始数据正向化数据

计算结果有：样本相关系数阵R、R的特征值、初始因子载荷阵、初始因子的标准化变量系数阵、初始因子的样品值数据等，数据窗口中的fac1-1,…,facm-1为初始因子f10,…,fm0的样品值(注意Extraction选择Principal Component)。

旋转后因子载荷阵的计算要用下述1.2中SPSS软件旋转后因子有关结果计算过程。

例1.1[4]：2001年广东卷烟工业企业广州卷烟一厂、广州卷烟二厂、韶关卷烟厂、南雄卷烟厂、梅州卷烟厂、南海卷烟厂、湛江卷烟厂和廉江卷烟厂(n＝8)的经济效益变量为：x1-总资产贡献率、x2-资本保值增值率、x3-资产负债率、x4-流动资产周转率、x5-成本费用利润率、x6-全员劳动生产率、x7-产品销售率(p＝7)，数据见表1。对这些企业作经济效益综合评价。

⑴正向化数据为表1(x3正向化公式为：－x3。中性指标x7正向化公式为：

Ej为公认最好的中性值，这里Ej=1，其余是正向的；或②[|(xij/Ej)-1|+1]-1。表1 x7的正向化用公式①)。

⑵启用SPSS11.0软件因子分析过程进行因子分析，输入例1正向化表1的数据，得特征值表2，相关阵特征值碎石图图1，初始因子载荷阵L0、旋转后因子载荷阵LΓ表3。

⑶表3的L0、LΓ比较得表4,即L0每列系数绝对值较往0、1两极分化，故使用初始因子。

⑷前2个初始因子设为f10,f20,变量正态分布下，取显著水平为5%，显著相关的临界值是r(6)=0.707[8]，由L0和显著相关的临界值r(6)判断，因子f10，f20与变量显著相关；其它初始因子与变量没有显著相关，故因子个数m=2,此时累计贡献率为93.56%。

⑸因子的命名与正向化：初始因子设为 f10，f20，根据表3的L0,因子f10与x1-总资产贡献率、x2-资本保值增值率、x3-资产负债率、x4-流动资产周转率、x5-成本费用利润率、x6-全员劳动生产率显著正相关,故称f10为内部效益因子；因子f20与x7-产品销售率显著正相关,故称f20为外向效益因子。f10与f20为正向的。

表2 相关阵特征值

表3 因子载荷阵

表4 因子载荷绝对值0、1两极分化频数对比表

⑹从初始因子得分系数得因子(Xi是xi的正向化、标准化变量)：

⑺以初始因子贡献率为权数构造综合因子函数：

70.193)，X4-流动资产周转率(0.17)、X3(正向化)-融资率(0.155)、X1-总资产贡献率(0.129)的有效性，拉动的是X2-资本保值增值率(0.118)、X6-全员劳动生产率(0.093)、X5-成本费用利润率(0.038)。

⑻计算各企业因子值、综合因子值及排名见表5。

⑼将表5中无相关性的数据f10、f20作系统聚类分析，用欧氏距离、类平均法,按综合初始因子值相应顺序企业分为如下四类。

第一类：广州卷烟二厂；

第二类：广州卷烟一厂、韶关卷烟厂、南海卷烟厂；

第三类：梅州卷烟厂、湛江卷烟厂；

第四类：南雄卷烟厂、廉江卷烟厂。

⑽现结合聚类分析结果、表5、初始因子得分系数、表1进行第一类、第三类（其余类似）综合实证，提出建议。评价中注意初始因子得分系数：x5-成本费用利润率既对内部效益因子f10是好影响(系数为0.155)，又对外向效益因子f20有较大的负影响(系数为－0.47)。

表5 初始因子、综合初始因子值及排名

表6 因子方差贡献

建议：广州卷烟二厂应继续保持发挥x1-总资产贡献率、x2-资本保值增值率、x3-资产负债率、x4-流动资产周转率、x5-成本费用利润率、x6-全员劳动生产率(内部效益因子)已有优势的条件下，加强销售力度，提高x7-产品销售率(外向效益因子)，定能进一步提高综合效益，增强竞争力。

建议：梅州卷烟厂、湛江卷烟厂应明确已有差距、挖掘内部管理与产品质量潜力，在既抓好自身已有立足的前提下,向省内外卷烟企业优点学习,提高综合经济效益。

表7 上市公司赢利能力指标数据[9]

1.2 旋转后因子分析的综合评价步骤及其实例

旋转后因子分析的综合评价步骤。

⑴指标的正向化 (单独计算)[2]，标准化；

⑵求变量的样本相关阵∑及其特征值λi，主成分法下初始因子载荷阵L0，旋转后因子载荷阵 LΓ(要计算出多个 LΓ)，旋转后方差贡献 qiΓ；

表8 因子载荷阵

表9 因子载荷绝对值0、1两极分化频数对比表

⑶LΓ(要计算出多个 LΓ)与 L0比较，用因子载荷绝对值 0、1两极分化频数对比表判断(见表9)，如果LΓ中行元素绝对值足够向 0、1 两极分化，用旋转后因子 FΓ=(f1Γ,…,fmΓ)'进行分析[3]，继续[原始变量之间相关度很低或无关时，直接进行逐个指标分析，用∑i=1pXi作综合分析 (Xi是标准化的)是适合的]；

⑷确定旋转后因子个数m、因子方差累计贡献率：用LΓ和两变量显著相关的临界值判断，若因子与某些变量显著相关，则选入该因子[3]，因子个数m、因子方差累计贡献率随之确定；

⑸旋转后因子fiΓ的命名及其正向化：由LΓ的第i列fiΓ，将与fiΓ显著相关的变量归为fiΓ一类，由这些变量的意义对因子fiΓ进行命名(注意有些变量，可能与两个因子显著相关，命名中、分析中也要同时考虑好这些变量的联系性影响)。正向化[3]：如果这类变量与fiΓ的相关系数表明该类变量的意义是正向的，fiΓ不变符号；如果意义是反向的，fiΓ、liΓ同时乘上负号；

⑹计算写出旋转后因子 FΓ=Γ'(λ1-1/2a1'X,…,λm-1/2am'X)'(用LΓ回归的因子得分)；

⑺因为因子不相关，综合起来可反映样品的因子累加综合状况(不是反映多变量信息最大化时的样品值状况)，以旋转后因子方差贡献率qiΓ/p为权数得旋转后综合因子

⑻计算给出m个旋转后因子样品值矩阵HmΓ、旋转后综合因子样品值并排序；

⑼用m个旋转后因子样品值做聚类分析，按旋转后综合因子样品值排名顺序给出样品分类结果；[4]

⑽结合样品的分类结果，旋转后综合因子、其样品值和排序，原始数据，原始变量的意义，进行优势、劣势、潜力状况和影响因素等的综合评价，给出客观、可靠的决策相关性建议。

SPSS软件旋转后因子有关结果计算过程：原始数据的正向化数据输入或拷贝到数据窗口中，选择Analyze→Date Reduction→Factor→变量框中选入正向化的数据→Descriptives 选择 Initial solution,Coeffi-cients，Continue→Extraction选择 Principal Component，Correlation matrix(数据标准化被执行)，Number of factor：m，Unrotated factor solution，Screen Plot(碎石图),Continue→Rotation 选择 Varimax，Rotated solution，Continue→Scores 选择 Save as Variables，Regression，Display factor score coefficient matrix，Continue→OK。计算结果有：样本相关系数阵R、R的特征值、旋转后因子的方差贡献、初始因子载荷阵、旋转后因子载荷阵、旋转后因子的标准化变量系数阵、旋转后因子的样品值数据等，数据窗口中的fac1-1,…,facm-1 为旋转后因子 f1Γ,…,fmΓ的样品值(注意 Extraction选择 Principal Component)。

例1.2 上市公司赢利能力的综合评价，指标体系选为：x1-销售净利率、x2-资产净利率、x3-净资产收益率、x4-销售毛利率，上市公司为青岛海尔、贵州茅台、五粮液等16家公司。数据见表6。

⑴表6数据全部是正向的；

⑵调用SPSS软件因子分析主成分法下的过程命令，输入表6的数据，计算，经过挑选，m=3时，得初始因子、旋转后因子方差贡献表7，相关阵特征值碎石图图2，初始因子载荷阵L0、旋转后因子载荷阵 LΓ表8；

⑶由表8得表9，即旋转后因子载荷阵LΓ中行元素绝对值足够向0或1两极分化，故用旋转后因子解；

⑷前 3 个旋转后设为 f1Γ、f2Γ、f3Γ,变量正态分布下，取显著水平为5%，显著相关的临界值是r(14)=0.5[5]，由LΓ和显著相关的临界值 r(14)判断,因子 f1Γ、f2Γ、f3Γ与变量显著相关；其它因子与变量没有显著相关，故因子个数m=3，前三个因子解释X的信息(累计方差贡献率)为96%达到最大,误差因子解释变量X的信息为4%达到最小，结论可靠。

⑸因子命名与正向化：由LΓ和显著相关的临界值r(14)判断，f1Γ与x2-资产净利率、x3-净资产收益率显著正相关，因子f1Γ称为资产赢利因子；f2Γ与x1-销售净利率显著正相关，因子f2Γ称为销售净利率因子；f3Γ与x4-销售毛利率显著负相关，因子 f3Γ称为销售毛利率因子。因子 f1Γ、f2Γ、f3Γ是正向化的；

⑹用LΓ回归的因子得分函数(Xi是正向化、标准化的变量)：

表10 旋转后因子、综合因子样品值

⑺以旋转后方差贡献率qiΓ/p为权数构造综合因子：

2X1-销售净利率(0.1852)，拉动的是X4-销售毛利率(0.1744)、X3-净资产收益率(0.172)。

⑻旋转后因子得分、综合因子样品值及排序见表10。

⑼调用SPSS软件的聚类分析类平均法过程命令，选用欧氏距离，通过旋转后因子得分 f1Γ、f2Γ、f3Γ的样品值对样品进行聚类。分成4类，结合综合因子得分样品值排名顺序给出相应共性分类结果如下：

第一类：烟台万华，五粮液，雅戈尔，红星发展；

第二类：贵州茅台，青岛海尔，用友软件；

第三类：太太药业，歌华有线，红河光明；

第四类：浙江阳光，伊利股份，方正科技，方正科技，中铁二局，福建南纸，湖北宜化；

⑽结合前3个旋转后因子得分样品值的聚类分析结果，因子得分、综合因子得分样品值和排序，因子得分、综合因子得分函数，原始数据，原始变量名称的意义，进行优势、劣势和影响因素等的综合评价，给出客观、可靠的决策相关性建议。

第一类的烟台万华、五粮液、雅戈尔、红星发展，综合因子得分值依次排第 1、2、3、4，全部高于平均水平。其资产赢利因子f1Γ值依次排1、2、3、4,全部高于平均水平,优势明显。销售净利率因子f2Γ值依次排5、7、6、4，全部高于平均水平，优势中上。销售毛利率因子 f3Γ值依次排 8、7、10、6，其中红星发展、五粮液靠近平均水平，烟台万华、雅戈尔低于平均水平。即该类企业是综合赢利能力很强的企业，其中资产赢利能力尤其明显，销售净利率略高于平均水平，销售毛利率在平均水平附近的状况。建议：该类企业在继续保持资产赢利因子f1Γ中x2-资产净利率、x3-净资产收益率明显优势的情况下，销售净利率因子f2Γ中，应提高产品质量和管理水平，降低成本，进一步提高销售净利率的赢利能力；销售毛利率因子f3Γ中，销售毛利率提高的潜力较大，应向好的企业学习，改变销售毛利率赢利能力较差的状况。

第二～四类企业的综合评价、建议方法与第一类企业类似，此略。

以上1.1和1.2的分析及结论，找到了研究对象的共性、优势、不足、差距状况和原因等，用具有可控性的原始指标给出了可靠的决策相关性建议，验证了本文方法的有效性，且因子分析法的应用趋向深入。

1.3 旋转后因子解释原始数据的能力没有提高的实例

请见文献[6](2004)例6.1。

2 因子分析综合评价中的注意事项

⑴指标需要进行正向化、标准化，以便进行指标的相对比较。

⑵因子的明确：计算出多个旋转后因子载荷阵LΓ与初始因子载荷阵L0比较，用因子载荷绝对值0、1两极分化频数对比表判断，确定旋转后因子、初始因子哪个与变量相关性较高。

⑶确定因子个数m：用因子载荷阵和两变量显著相关的临界值判断，若因子与某些变量显著相关，则选入该因子，因子个数m、因子方差累计贡献率随之确定，这样不至于丢掉原始变量(初始因子个数、旋转后因子个数确定有时是不同的，如例1.2。设相关阵特征值碎石图拐点处的序号为k，旋转后因子个数m建议在k-1、k、k+1中挑选)。

⑷因子fi的正向化：由因子载荷阵的第i列li，将与因子fi显著相关的变量归为fi一类，如果这类变量与fi的相关系数表明该类变量的意义是正向的，fi不变符号；如果意义是反向的，fi、li同时乘上负号。这是因子进行综合的前提。

⑸使用旋转后因子时，因为旋转后因子方差贡献已发生改变，故旋转后综合因子以旋转后因子方差贡献率为qiΓ/p权数，即这样能保持方法的一致性。

⑹用前m个因子样品值做聚类分析，按旋转后综合因子样品值排名顺序给出样品分类结果，这样既有样品类的结果，又有样品序的结果。

⑺结合样品的分类结果，综合因子、因子样品值和排序，原始数据，原始变量的意义，进行优势、劣势、潜力状况和影响因素等的综合评价，尽可能给出客观、可靠的决策相关性建议。

[1]林海明.因子分析教学内容的改进—因子分析模型L的教学内容[J].统计与决策，2009,(23).

[2]林海明.对主成分分析法运用中十个问题的解析[J].统计与决策(理论版),2007，(8).

[3]林海明.因子分析模型的改进与应用[J].数理统计与管理，2009，(6).

[4]张尧庭,方开泰著.多元统计分析引论[M].北京：科学出版社，1982.

[5]峁诗松等编著.概率论与数理统计[M].北京：中国统计出版社，2000.

[6]何晓群编著.多元统计分析[M].北京:中国人民大学出版社，2004.