APP下载

基于判别分析原理的离群点检测算法

2015-09-09简述芬侯天子

电脑知识与技术 2015年16期
关键词:离群

简述芬 侯天子

摘要:信息技术进入了数据时代,多属性高维数据广泛存在很多数据集中。基于判别分析的离群点检测算法是一种新的离群点挖掘的思路,通过一个数据实例验证该算法可以检测数据之中的异常数据。

关键词:离群;判别分析;检测算法

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)03-0090-02

Discriminate Analysis Based Outlier Detection Algorithm

JIAN Shu-fen1, HOU Tian-zi2

(1.Sichuan Police College,Luzhou 646000,China;2. The Procuratorate of Wuhou, Chengdu 610000,China)

Abstract:Information technology has entered a data era.Discriminate Analysis based outlier detection algorithm is a new outlier detection way,and the algorithm is proved that it can find out outlier in data by a instance.

Key words: outlier; discriminate analysis; detection algorithm

1 判别分析在基于离群点挖掘时的可行性

1.1判别分析方法的定义

有一种方法可以辨别所属的类别,这种方法是判别分析。其有着潜在的应用方面,比如说在预测新产品的成功率上,或者确定该学生能否被录用等方面。一般存在某种关系,如某个被解释的定性变量和定量的解释变量,判别分析方法比较适合。

判别分析方法是应用性很强的一种多元统计方法,判别分析方法对问题求解可以这样描述:假设存在n个k维总体[G1,G2,...,Gk],分布函数或特征已知,(若已知的分布函数分别是[F1(x),F2(x),...,Fk(x)]分布函数或特征已知),对于给定一个新的样本x,要分析出样本出自哪个总体。

1.2判别分析方法与分类的异同

判别分析与数据挖掘中的分类技术并不等同。分类与判别分析目的都是出于给数据分类的目的,在这上面是相似的。

判别分析方法是数学统计中一种方法,需要严谨的逻辑推理来推导每个步骤,这与分类有所不同。分类是挖掘中的广泛应用的技术之一,如决策树、贝叶斯等,需构造分类器或模型来预测类属标号/。其中,只有贝叶斯分类也同时应用在统计学中。

1.3判别分析应用于离群点挖掘

离群点数据由绝大多数的正常数据和少数的异常数据组成,将判别分析缩减优化,优化到两个总体,将一个新样品x设定,通过推算得出它属于其中某个总体,如果判定结果是异常数据表示的总体,那么就可以判定某个样品是离群点,否则就属于正常数据的样品。这种离群点判别分析算法的优点在于它的动态性好。当新来品种,就可以很快分析出数据所属类别。

这种判别方法,类似贝叶斯分类法:利用贝叶斯原理构造出贝叶斯分类器,将费歇(Fisher)判别运用到离群点数据挖掘,用这种判定分析,进行离群点检测。

2 判别分析方法步骤

对判别分析方法的实现可分5个步进行。

第1步:检测判别分析对象

第1步:检测对象在提前分好的小组中的差异点,对获取进行分类。在这些变量中,分析判别差异时,观察其中解释较多的数据,这些数据对判定样品类别时起的作用比较大的。

第2步:判别分析设计

对解释变量和被解释变量,用判别分析加以摘选出来,设为定性变量。由于在判别分析中,对样本量与预测变量的个数的比率是敏感的,因此也需要考虑到样本的容量大小。

第3步:假定判别分析

在推算出判别分析函数前,首先假定解释变量的正态性,协方差阵相等,这样可以确保之后的计算满足条件。

第4步:判别模型估计与整体拟合评估

选择估计方法,推算判别分析函数,并找出其中的差异性,确定函数的有效性。

第5步:解释结论并验证

判别分析里有距离判别、贝叶斯判别、费歇判别等都是判别分析中的分析方法,判别方法不同,临界条件也不同。判别分析不仅对所判别的数据有成效,在另一方面也能够对已经的分类数据进行回判,从而验证数据的真实性。

关于判别分析的具体性质,详细的数学推导过程与证明可参见文献[1]。

3 费歇判别

在费歇判别中,投影是该判别方法的基本思想,假设k组p维数据向指定的一个方向投影,k个分组得到的投影分别放在k个不同地方,尽可能的缩短组内的距离。

在这只是把k=2这个值表明,随即分成两个类别,由离群点的概念可得,可把数据分成两类,分别是正常数据和异常数据。

样本G总数为n,表示为

[G=G1?G2=x(1)1,x(1)2,...,x(1)n1,x(2)1,x(2)2,...,x(2)n2 n=n1+n2]

令[a=a1,a2,...,ap′],a是p维空间中的任一量,[ux=a′X]是X以a为法线的方向上的投影,则G1和G2的投影是:

[G1:a′x(1)1,a′x(1)2,...,a′x(1)n1 ]

[G2:a′x(2)1,a′x(2)2,...,a′x(2)n2]

? 组间关系[B0]:由第t组的平均值和与总均值的向量差的平方和 :

[B0=t=12nta′X(t)-a′X2=a′t=12ntX(t)-XX(t)-X′a=a′Ba] (1)

其中[X=1nt=12j=1ntX(t)j],[B=t=12ntX(t)-XX(t)-X′]。等式变换的原理参照矩阵的乘法规则。

? 组内关系[A0]:指第i组内,用组内第j个向量和第i组的均值向量差的平方和表示。

[A0=t=12j=1nta′X(t)j-a′X(t)2=a′t=12j=1ntX(t)j-X(t)X(t)j-X(t)′a=a′Aa] (2)

尽量分开不同组的所得投影,尽可能缩短组内数值的距离。

定义 4 -3:已知a是在[a′Aa=1]条件下使得[Δa=a′Ba]达到极大值的方向,称[ux=a′X]为线性判别函数。

据第二点的判别方法的过程表明,确定判别条件以后就可以进行判别分析。

4 利用判别原理进行离群点检测

在离群点挖掘中[2]引入判别分析的原理,简化费歇判别原理:

直到最后两个样本时,将费歇判别函数就可以写成:

[uX=X(1)-X(2)′S-1pX] (3)

这时阈值的计算方法见公式(4)

[u=12X(1)-X(2)′S-1pX(1)+X(2)] (4)

计算出总体样本的协方差矩阵估计值[Sp]的逆矩阵。

两个总体均值有明显差异需要检验,在检验是否有差异后判别函数的有效性。验证统计量F,用公式(5),公式中的D2 可以用(6)的公式计算。

[F=n1+n2-p-1n1+n2-2pn1n2n1+n2D2],n1和n2分别为两个总体的样本数 (5)

[D2=X(1)-X(2)′S-1pX(1)-X(2)] (6)

[Fα(p,n1+n2-p-1)]表示α水平下的卡方分别,当[F>Fα(p,n1+n2-p-1)]时,表明判别函数是有效的,具体推导步骤参见文献[3],将判别标准推导出

判[X∈G1],当[u(X)>u]

判[X∈G2],当[u(X)

待判, 当[u(X)=u]

针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法。

参考文献:

[1] 高惠璇. 应用多元统计分析[M]. 北京: 北京大学出版社, 2005.

[2] 张尧庭, 方开泰. 多元统计分析引论[M]. 北京: 北京科学出版社, 1982.

猜你喜欢

离群
一种基于邻域粒度熵的离群点检测算法
离群动态性数据情报侦查方法研究
基于自然邻居邻域图的无参数离群检测算法
一种相似度剪枝的离群点检测算法
一种基于近邻关系的新型离群评估算法
候鸟
离群数据挖掘在发现房产销售潜在客户中的应用
离群的小鸡
应用相似度测量的图离群点检测方法
一种基于核空间局部离群因子的离群点挖掘方法