基于量子C均值聚类分析的数据异常检测方法
2018-03-31李萍
李萍
摘要:数据库海量数据集需要数据异常检测方法具有高效的数据挖掘能力,基于聚类的异常数据检测中聚类算法对初始聚类中心较为敏感,算法稳定性差.针对以上问题,提出了基于量子c均值聚类分析的异常数据检测方法。算法引入量子机制的高效并行计算能力,将其与C-means聚类算法相结合应用于数据点异常检测中,不仅克服了聚类算法对初始聚类中心敏感的问题,还具有量子模式的高效运算能力;仿真实验表明,算法在检测异常数据的准确性和效率上均优于传统基于聚类的异常检测算法。
关键词:量子;C均值;聚类分析;数据异常检测
中圖分类号:TP18;TP301.6 文献标识码:A 文章编号:1009-3044(2018)06-0198-02
大数据和云计算技术尤其是云存储发展,使得数据库中的信息量成指数的增长,数据库的重要性和价值也日益体现。数据库海量数据中只有部分数据有意义和价值,甚至会存在极少数的异常数据,这些异常数据可能对所属数据集的价值造成不可预估的危害,因此,异常数据的挖掘成了数据库及数据挖掘领域的具有重要意义的研究方向,受到了大量的学者和研究人员的广泛关注。
异常数据挖掘发展至今,出现了许多经典方法。Breunig在文献提出一种基于密度对异常点进行检测的LOF(LocalOut-her Factor)算法。算法赋予每一个数据点一个离群因子,用来衡量数据的偏离水平进而表征一个数据对象偏离度的数值,缺点是对序列数据和低密度数据对象不能很好的度量。在邓玉洁等人提出一种基于聚类分析的异常点检测方法中,存在对初值敏感并易陷入局部最优的缺点。针对以上问题,本文结合数据库数据规模大、要求异常数据挖掘高效的特点,在基于聚类的数据异常检测的基础上,结合量子机制改进聚类算法的聚类性能,提出了基于量子K均值聚类分析的数据异常发现方法。仿真实验表明,算法在异常数据挖掘的准确性和效率上均优于传统的聚类异常数据检测算法。
1聚类数据库异常检测原理
基于聚类分析的异常数据检测中,要求相同特征的数据对象聚集在一起形成数据簇,簇与簇之间尽量不相似。聚类的目的是寻找具有相同特征、紧密相关的数据,而异常数据检测则要找到与大多数据对象偏离的数据,因此将基于聚类的异常数据检测方法定义为:通过聚类将数据对象按特征值分成很多簇,然后将那些偏离任何一个簇的数据对象定义为异常点。
基于聚类的异常数据检测的主要思想在于偏离其他簇的小规模簇的异常点的定义。因此,必须要明确定义异常点簇与其他簇的远离程度以及小规模簇的具体规模。在这个过程中,首先确定一个最小距离,然后严格按照这个距离对数据对象进行聚类,如果当前聚类中存在大于该距离的数据,那偏离数据簇,即是异常点。其次,再根据聚类结果构造出最小扫描树,作为森林的一员。当聚类规模较少时,生成树的节点也比较少,这部分树就称为异常点。
2量子C均值聚类数据异常检测方法
算法基本思想:对大型数据集进行聚类,C均值算法能够进行高效分类,性能明显优于层次聚类算法,但是C均值算法具有聚类算法的通病,即对初始聚类中心敏感,而且易陷入局部最优,算法不稳健。而量子计算用于高效并行计算能力,量子计算模式在计算速度上大大超越了图灵机模型,适合于海量数据的处理。因此,结合量子计算的高性能和c均值聚类的优点,提出量子C均值聚类算法,并将其应用与异常数据的检测。
C-means聚类算法对初始聚类中心非常敏感,结合David提出的量子聚类算法中量子机制对初始数据不敏感的特性,将其引入到C-means聚类算法中,形成量子C-means聚类算法(CQC),并将该算法运用到海量数据下的异常数据挖掘中,基于量子机制的C均值聚类算法描述如下。在传统聚算法中,与聚类中心属于一簇的数据样本是采用欧式距离来度量的,为了统一样本各维的单位,消除量纲的影响,采用马氏距离(马氏距离消除了量纲的影响)来度分类。马氏距离定义如下其中S为数据样本的协方差矩阵。CQC算法描述如下:
上述量子C均值聚类算法中需要调节的参数有两个σ和ε,其中σ是一个需要多次实验选取的经验值,满足ε∈[0,2],ε是一个精度调节参数。
在得到数据的聚类结果后,根据基于聚类的异常数据检测的主要思想,与实现定义的异常点簇与其他簇的远离程度以及小规模簇的具体规模进行比较分析,挖掘、检测出数据异常点。
3实验分析
采用传统聚类挖掘算法和CQC算法对相同的数据集进行异常数据点挖掘实验,实验结果如表2所述。表中实验a数据来源于Ecoli数据集,包含8个异常数据。实验b数据来源wine数据集包含6个异常数据。
从表2检测结果可以看出,与传统聚类算法检测异常数据相比,CQC算法对异常数据的检测准确率较高,且挖掘速度较快。
为了研究CQC算法针对不同规模数据集时的异常数据的检测性能,将传统聚类算法与CQC检测算法对实验1中包含10000到90000条规模数据集进行实验,各算法的执行时间对比如下:
从执行结果可以发现,数据量较低(少于30000)时,两种算法的执行时间均不超过2MS,但是随着数据规模的增长(数据量达到90000条时),CQC算法执行效率明显优于传统聚类算法。
上述实验数据均表明:基于C均值聚类分析的数据异常检测算法挖掘准确度高,效率性高。
4结论
本文采用量子机制与C-means聚类算法融合形成量子C均值聚类算法,并其代替C均值算法用于异常数据点的检测。该算法利用量子计算的高效并行计算能力以及对数据初始聚类中心不敏感的特征,解决了C-means聚类算法聚类时对初始数据中心敏感、稳定性差等问题。仿真结果表明,该算法较基于传统聚类算法的异常数据检测方法在异常数据点挖掘准确率和效率上均有一定的优势。