APP下载

基于大数据分析的海量数据离群点检测算法

2020-01-14王润芳李艳博

数字通信世界 2019年12期
关键词:离群海量聚类

王润芳,李艳博

(长春工业大学人文信息学院信息工程系,长春 130122)

大数据技术的成熟和数据储存技术的推广使得社会诸多领域的数据信息量正呈指数增长[1]。数据信息中包含了很多有效信息,可因为我们缺少行之有效的手段和方法尚不足以完全发挥出其应有的作用。面对如此海量的原始数据信息,怎样采取合理的方式从中获取有价值的信息,是放在我们面前急需解决的一个重要问题。

1 基于大数据分析的海量数据离群点检测算法

1.1 确定聚类区域

根据大数据特性,给出既定的数据集合D,D 代表d 维数据集,定义d 维空间内所含联系的密集数据单元的最大集合属于一个聚类区域。数据集D 通过数据的划分后,每一个聚类的点集势必会存在一个临界点。依据首先求取出来的临界单元来获取数据聚类点的大概取值范围,这个区域内的所有点不可能全部属于离群点,从而是可以将其进行删除的[2]。

1.2 数据集的预处理

在对离群点进行检测以前需要计算并保存数据单元集合(即聚类区域)内每一数据的模,对数据集进行预处理。数据点的模信息存储在模信息列表中,表内每一数据点均需将数据模值进行保存,由于所占空间比较小,能够常驻内存[3]。

1.3 离群点划分

离群点检测首先需要对其进行有效划分,如此能够明显提高计算效率。本文提出的大数据分析是一种全新空间划分办法,该算法继承了以往空间划分的优势,并具备较高的分布均匀性。在数据聚类区域内为每个集匹配其二进制编码,用于迅速判断数据之间的关系;接下来根据一定的计算步骤将获取的集匹配给各个数据节点,使每个节点的数据个数保持一致。

1.4 离群度检测

随机选取一个数据单元集合中一个未经访问的点p,按照事先设置的欧式距离法计算该点所属的数据单元构建d 维空间函数,将数据单元集合的信息投射到相对应的函数中,计算该单元所包含的全部离群数据并放入离群点集中,同时删除其中的聚类点;离群度检测的主要任务就是在完成数据集预处理后对离群点集的进行检测的过程。

对于数据集D,既定参数k 与p 都属于集合D,那么点p的离群因子就可以定义为p 和其k 相邻对象的平均距离;其中,代表p 在D 中的第k 个最相邻对象的集合。代表点p 和它的第k 个对象的距离来度量p 的离群程度;p 越远离k相邻区域内的数据对象,越大,则离群程度也就越大。

2 实验与效果分析

为了更加清楚、具体的看出本文设计的离群点检测算法的实际效果,特与传统离群点检测算法,对其算法效率大小进行比较。

2.1 实验准备

为保证实验的准确性,在其他条件不变的前提下,将两种离群点检测算法置于相同的试验环境之中,对算法效率进行试验。

2.2 实验结果分析

实验过程中,通过两种不同的离群点检测算法同时在相同环境中进行工作,分析算法效率的变化。实验效果对比图如下所示。

图1 实验结果对比图

根据实验结果的对比,本文设计的算法在检测正确率上相比于传统算法而言,拥有较大优势,具体体现在其算法检测的正确率基本在80%以上,最高可达99%,且随着节点数量的增多,并不对其检测造成消极影响。

3 结束语

本文对基于大数据分析的海量数据离群点检测算法进行分析,依托大数据分析机制,根据对海量数据离群点检测的分析,对其进行调整,实现本文设计。希望本文的研究能够为基于大数据分析的海量数据离群点检测算法提供理论依据。

猜你喜欢

离群海量聚类
一种基于邻域粒度熵的离群点检测算法
一种傅里叶域海量数据高速谱聚类方法
离群动态性数据情报侦查方法研究
基于K-means聚类的车-地无线通信场强研究
海量快递垃圾正在“围城”——“绿色快递”势在必行
一种相似度剪枝的离群点检测算法
基于高斯混合聚类的阵列干涉SAR三维成像
候鸟
一个图形所蕴含的“海量”巧题
基于Spark平台的K-means聚类算法改进及并行化实现