APP下载

多属性数据聚类的一种因子分析新方法

2014-05-04张爱平陈志彬

湖南工业大学学报 2014年3期
关键词:特征向量特征值分析法

张爱平,陈志彬

(湖南工业大学理学院,湖南株洲412007)

多属性数据聚类的一种因子分析新方法

张爱平,陈志彬

(湖南工业大学理学院,湖南株洲412007)

根据因子分析法的思想,用统计学的方法,建立多属性数据样本间的相似矩阵,探索求因子载荷矩阵的有效方法,实现多属性数据的样本聚类。文中的方法是因子分析法在聚类分析中的进一步推广与应用。

多属性;样本;相似矩阵;数据聚类

0 引言

因子分析法是通过建立数学模型,用线性代数的方法,研究多属性变量间的内在依赖关系。用少于属性变量个数的几个抽象变量表示被观测数据的基本结构,实现对被观测数据变量的降维,达到简化数据结构的目的。这几个抽象的变量通常被称为因子,每个因子综合地包含了多个属性变量的信息,是一些异于可观测原始变量的不可观测的潜在变量。因子分析的内容较丰富,常见的类型可以概括为两类[1-5]:一类是R型因子分析,另一类是Q型因子分析,前者是基于变量间的相关系数矩阵,后者则基于样本间的相似矩阵,两种矩阵均为非负定矩阵。这两种类型选择因子分析的对象和计算的出发点不同但方法类似。在实际问题中,由于被观测的样本数目n通常较大,因此Q型因子分析中的样本相似矩阵是一个阶数较高的n阶方阵,其计算量与n2同阶且可能是非正定的;而求解样本相似矩阵的特征根与特征向量的计算量与n3同阶。由于计算量随阶数n的增大而急剧增大,这就限制了以样本为变量的Q型因子分析法在经济学﹑生物学和社会学等领域中的应用。

为此,本文根据高阶样本相似矩阵与因子载荷矩阵的关系,通过间接地求解一个与高阶样本相似矩阵有联系的低阶矩阵的特征根与特征向量,探讨因子载荷矩阵的计算方法。

1 预备知识

样本向量的均值

样本向量的离差矩阵

引理1[6]实对称矩阵的不同特征值的特征向量彼此正交。

引理2[6]对于n阶实对称矩阵B,必存在一个n阶正交矩阵P使得(其中是以矩阵B的特征值为对角元素的对角矩阵),即实对称矩阵都可以对角化。

引理3对于实对称矩阵ZZT与ZTZ有如下结论:

2 主要结论及证明

对于p种属性的n个样本,首先将原始数据矩阵标准化,得矩阵,若用列向量表示,则记为,其中,i=1, 2,…,n。

如果观测到的n个样本之间具有强相似性,则可依照样本相似性的大小将n个样本分组,使得同组的样本之间相似性较高,不同组的样本之间相似性较低,实现样本的聚类,并对类中样本所具有的共性进行分析和解析。

推论2设矩阵ZTZ的m个非零特征值为,其排列的顺序由大到小,相应于第i个特征值i的单位特征向量为。对于样本相似矩阵,则有如下结论:

2)矩阵R与矩阵ZZT具有相同的单位特征向量,且;

3)载荷矩阵

由引理3和定理2易证,故略去证明。

3 实例

例110名学生的数学与语文考试成绩见表1。

表1 学生成绩Table lStudent’s score

以这10名学生作为样本观测点,共10个样本。第i个样本用Yi表示,它是由数学成绩yi1与语文成绩yi2构成的二维数组,记为。试用因子分析法,按样本与因子相似的程度将这10名学生分类,且作出合理的解释。

矩阵ZTZ有一个非零特征值=10,对应的单位特征向量;根据矩阵ZTZ与矩阵ZZT特征值及特征向量之间的关系,得矩阵ZZT的单位特征向量

于是得载荷矩阵

提取的公共因子只有一个,即F1,样本关于公共因子F1和特殊因子变量的数学模型表示为

根据定理1可知,第i个样本与公共因子F1的相关系数见表2。

表2 相关系数分布Table 2The distribution of correlation coefficient

表2表明,Z4和Z10相关于公共因子F1的正方向;Z1, Z2, Z3, Z5, Z6, Z7, Z8, Z9相关于公共因子F1的反方向。因此,可将这10名学生分为2类,第一类由4号与10号学生组成;第二类为余下的8名学生组成。公共因子F1的正方向表明学生的语文成绩优于数学成绩,反方向表明学生的语文成绩劣于数学成绩。

4 结语

[1]何晓群. 多元统计分析[M]. 北京:中国人民大学出版社,2012:142-144. He Xiaoqun. Multivariate Statistical Analysis[M]. Beijing:China Renmin University Press,2012:142-144.

[2]虞欣,郑肇葆. 基于Q 型因子分析的训练样本的选择[J]. 测绘学报,2007,36(1):67-71. Yu Xin,Zheng Zhaobao. Selection of Training Samples Based on Q-Factor Analysis[J]. Acta Geodaetica et Cartographica Sinica,2007,36(1):67-71.

[3]殷瑞飞,朱建平. 关于利用因子分析方法对变量分类的探讨[J]. 统计与决策,2005(2):20-21. Yin Ruifei,Zhu Jianping. Using the Factor Analysis Method for the Classification Variables[J]. Statistics and Decision,2005(2):20-21.

[4]张秋瑾. 主成分分析法在多变量变动分析中的应用[J].数学的实践与认识,2012,42(17):29-33. Zhang Qiujin. The Application of Principal Component Analysis Method in Multivariate Analysis of Changes[J]. Mathematics in Practice and Theory,2012,42(17):29-33.

[5]Ramsay J Q. Functional Components of Variation in Handwriting[J]. Journal of the American Statistic Association,2000,95(449):9-15.

[6]周勇,朱砾. 线性代数[M]. 上海:复旦大学出版社,2012:129-131. Zhou Yong,Zhu Li. Linear Algebra[M]. Shanghai:Fudan University Press,2012:129-131.

(责任编辑:邓光辉)

A New Factor Analysis Method in Multiple Attribute Data Clustering

Zhang Aiping,Chen Zhibin
(School of Science,Hunan University of Technology,Zhuzhou Hunan 412007,China)

According to the thought of factor analysis method established the similar matrix between multiple attribute data samples by statistical methods, and explored the effective solution to the factor loading matrix for the realization of sample clustering of multiple attribute data. This method is the factor analysis method further extended and applied in clustering analysis.

multiple attribute;sample;similar matrix;data clustering

O212

A

1673-9833(2014)03-0083-05

10.3969/j.issn.1673-9833.2014.03.017

2014-03-10

湖南省教育科学研究基金资助项目(10C0656),湖南省教育改革基金资助项目(288)

张爱平(1967-),女,湖南冷水江人,湖南工业大学副教授,主要从事应用数学方面的教学与研究,E-mail:zaping@163.com

猜你喜欢

特征向量特征值分析法
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
异步机传统分析法之困难及其克服
克罗内克积的特征向量
一类带强制位势的p-Laplace特征值问题
单圈图关联矩阵的特征值
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于时间重叠分析法的同车倒卡逃费探析
层次分析法在SWOT分析法中的应用
基于商奇异值分解的一类二次特征值反问题