基于判别分析原理的离群点检测算法
2015-09-09简述芬侯天子
简述芬 侯天子
摘要:信息技术进入了数据时代,多属性高维数据广泛存在很多数据集中。基于判别分析的离群点检测算法是一种新的离群点挖掘的思路,通过一个数据实例验证该算法可以检测数据之中的异常数据。
关键词:离群;判别分析;检测算法
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)03-0090-02
Discriminate Analysis Based Outlier Detection Algorithm
JIAN Shu-fen1, HOU Tian-zi2
(1.Sichuan Police College,Luzhou 646000,China;2. The Procuratorate of Wuhou, Chengdu 610000,China)
Abstract:Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way,and the algorithm is proved that it can find out outlier in data by a instance.
Key words: outlier; discriminate analysis; detection algorithm
1 判别分析在基于离群点挖掘时的可行性
1.1判别分析方法的定义
有一种方法可以辨别所属的类别,这种方法是判别分析。其有着潜在的应用方面,比如说在预测新产品的成功率上,或者确定该学生能否被录用等方面。一般存在某种关系,如某个被解释的定性变量和定量的解释变量,判别分析方法比较适合。
判别分析方法是应用性很强的一种多元统计方法,判别分析方法对问题求解可以这样描述:假设存在n个k维总体[G1,G2,...,Gk],分布函数或特征已知,(若已知的分布函数分别是[F1(x),F2(x),...,Fk(x)]分布函数或特征已知),对于给定一个新的样本x,要分析出样本出自哪个总体。
1.2判别分析方法与分类的异同
判别分析与数据挖掘中的分类技术并不等同。分类与判别分析目的都是出于给数据分类的目的,在这上面是相似的。
判别分析方法是数学统计中一种方法,需要严谨的逻辑推理来推导每个步骤,这与分类有所不同。分类是挖掘中的广泛应用的技术之一,如决策树、贝叶斯等,需构造分类器或模型来预测类属标号/。其中,只有贝叶斯分类也同时应用在统计学中。
1.3判别分析应用于离群点挖掘
离群点数据由绝大多数的正常数据和少数的异常数据组成,将判别分析缩减优化,优化到两个总体,将一个新样品x设定,通过推算得出它属于其中某个总体,如果判定结果是异常数据表示的总体,那么就可以判定某个样品是离群点,否则就属于正常数据的样品。这种离群点判别分析算法的优点在于它的动态性好。当新来品种,就可以很快分析出数据所属类别。
这种判别方法,类似贝叶斯分类法:利用贝叶斯原理构造出贝叶斯分类器,将费歇(Fisher)判别运用到离群点数据挖掘,用这种判定分析,进行离群点检测。
2 判别分析方法步骤
对判别分析方法的实现可分5个步进行。
第1步:检测判别分析对象
第1步:检测对象在提前分好的小组中的差异点,对获取进行分类。在这些变量中,分析判别差异时,观察其中解释较多的数据,这些数据对判定样品类别时起的作用比较大的。
第2步:判别分析设计
对解释变量和被解释变量,用判别分析加以摘选出来,设为定性变量。由于在判别分析中,对样本量与预测变量的个数的比率是敏感的,因此也需要考虑到样本的容量大小。
第3步:假定判别分析
在推算出判别分析函数前,首先假定解释变量的正态性,协方差阵相等,这样可以确保之后的计算满足条件。
第4步:判别模型估计与整体拟合评估
选择估计方法,推算判别分析函数,并找出其中的差异性,确定函数的有效性。
第5步:解释结论并验证
判别分析里有距离判别、贝叶斯判别、费歇判别等都是判别分析中的分析方法,判别方法不同,临界条件也不同。判别分析不仅对所判别的数据有成效,在另一方面也能够对已经的分类数据进行回判,从而验证数据的真实性。
关于判别分析的具体性质,详细的数学推导过程与证明可参见文献[1]。
3 费歇判别
在费歇判别中,投影是该判别方法的基本思想,假设k组p维数据向指定的一个方向投影,k个分组得到的投影分别放在k个不同地方,尽可能的缩短组内的距离。
在这只是把k=2这个值表明,随即分成两个类别,由离群点的概念可得,可把数据分成两类,分别是正常数据和异常数据。
样本G总数为n,表示为
[G=G1?G2=x(1)1,x(1)2,...,x(1)n1,x(2)1,x(2)2,...,x(2)n2 n=n1+n2]
令[a=a1,a2,...,ap′],a是p维空间中的任一量,[ux=a′X]是X以a为法线的方向上的投影,则G1和G2的投影是:
[G1:a′x(1)1,a′x(1)2,...,a′x(1)n1 ]
[G2:a′x(2)1,a′x(2)2,...,a′x(2)n2]
? 组间关系[B0]:由第t组的平均值和与总均值的向量差的平方和 :
[B0=t=12nta′X(t)-a′X2=a′t=12ntX(t)-XX(t)-X′a=a′Ba] (1)
其中[X=1nt=12j=1ntX(t)j],[B=t=12ntX(t)-XX(t)-X′]。等式变换的原理参照矩阵的乘法规则。
? 组内关系[A0]:指第i组内,用组内第j个向量和第i组的均值向量差的平方和表示。
[A0=t=12j=1nta′X(t)j-a′X(t)2=a′t=12j=1ntX(t)j-X(t)X(t)j-X(t)′a=a′Aa] (2)
尽量分开不同组的所得投影,尽可能缩短组内数值的距离。
定义 4 -3:已知a是在[a′Aa=1]条件下使得[Δa=a′Ba]达到极大值的方向,称[ux=a′X]为线性判别函数。
据第二点的判别方法的过程表明,确定判别条件以后就可以进行判别分析。
4 利用判别原理进行离群点检测
在离群点挖掘中[2]引入判别分析的原理,简化费歇判别原理:
直到最后两个样本时,将费歇判别函数就可以写成:
[uX=X(1)-X(2)′S-1pX] (3)
这时阈值的计算方法见公式(4)
[u=12X(1)-X(2)′S-1pX(1)+X(2)] (4)
计算出总体样本的协方差矩阵
两个总体均值有明显差异需要检验,在检验是否有差异后判别函数的有效性。验证统计量F,用公式(5),公式中的D2 可以用(6)的公式计算。
[F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2],n1和n2分别为两个总体的样本数 (5)
[D2=X(1)-X(2)′S-1pX(1)-X(2)] (6)
[Fα(p,n1+n2-p-1)]表示α水平下的卡方分别,当[F>Fα(p,n1+n2-p-1)]时,表明判别函数是有效的,具体推导步骤参见文献[3],将判别标准推导出
判[X∈G1],当[u(X)>u]
判[X∈G2],当[u(X)
待判, 当[u(X)=u]
针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法。
参考文献:
[1] 高惠璇. 应用多元统计分析[M]. 北京: 北京大学出版社, 2005.
[2] 张尧庭, 方开泰. 多元统计分析引论[M]. 北京: 北京科学出版社, 1982.