APP下载

基于聚类的目标行为异常检测

2018-09-10李祥民白洁

计算机与网络 2018年14期
关键词:航迹聚类数据挖掘

李祥民 白洁

摘要:聚类是一种无指导的学习过程,无需先验知识即可完成特征分类。在层次化聚类算法基础上,介绍聚类方法对异常行为检测理论方法。对目标样本数据特征分析,建立了目标运动特征异常的检测工程模型。基于累积数据聚类生成了特定区域目标运动特征知识库,对实时数据测试分析,计算得到了异常目标集合。异常目标运动特征数据可视化,验证了目标运动特征异常检测模型的准确性与可实现性。

关键词:聚类;数据挖掘;异常检测;航迹

中图分类号:TP311文献标志码:A文章编号:1008-1739(2018)14-62-3

Anomaly Detection of Target Behavior Based on Clustering

LI Xiangmin, BAI Jie

(The 54th Research Institute of CETC, Shijiazhuang Hebei 050081, China)

0引言

人工手段处理目标活动海量数据的工作量比较繁重,而数据挖掘是一种发现海量数据隐含知识的技术,是一种有效的数据应用手段。聚类作为数据挖掘的重要方法,是一种无监督的学习过程,聚类结果是不同数据分布特征的簇。异常数据占数据总体量较小,但蕴含信息量高。目标特征聚类结果形成目标行为知识库,用于评估目标行为是否正常,异常检测结果有助于业务分析人员将有限精力集中于异常目标数据的分析。

1聚类异常检测原理

聚类可以发现强关联的对象组,异常检测是发现与正常对象不强相关对象簇的过程。异常簇同样存在普遍运动特征,聚类可以用于异常检测。聚类是一种无需指导的异常检测技术,在未标记的数据集上进行操作,将相似的数据划分到同一个类中,根据数据分布特征查找异常类数据簇。

无监督的异常检测与有监督的异常检测相比,无监督的异常检测不需要训练数据,只需要未经加工的原始数据,这是聚类模式运用到异常检测的基础。无监督的异常检测数据集中,正常数据的数目远大于异常数据的数目,大数据集聚类结果评估目标正常或异常特征。因此,基于聚类的异常检测适用于无先验知识的异常检测。

1.1数学模型

1.2聚类算法及类间距

聚类算法可分为层次与划分2类:①层次聚类是指产生一个嵌套的簇集。在层次体系中,每一层都有一些分开的簇,底层每个元组都组成一个单独的簇,最高层所有的元组都属于同一个簇,层次聚类中不必指定先验簇的数目。层次聚类算法又可分为凝聚算法和分裂算法。②划分聚类是指利用算法构造一个簇集,其中簇的数目由用户指定或系统指定。划分方法聚類典型算法有-均值聚类、最近邻算法及PAM算法等。

非层次聚类或划分聚类一步就产生所有的簇,不需要多个步骤。各种算法中,可以在算法内部产生几个不同的簇,但划分法聚类的结果只产生一个簇集。由于仅有一个簇集作为输出,用户必须输入期望得到的簇的数目。此外,需要度量函数或准则函数来判定解的优劣程度。

不同的聚类算法产生的簇集都具有高簇内相似性与低簇间相似性。聚类初始阶段根据挖掘算法,定义聚类个数或相似度阈值。层次聚类算法中,调节相似度阈值可以得到对数据总体不同程度的划分,本文采用层次聚类算法。

数据类型属性通常由类别型变量和数值型变量组成。运动特征数据属性一般表示为数值型变量。运动特征距离采用高斯相似度的距离函数。

调整相似度阈值,可以调整2类样本之间的空间关系,增大或减小2类样本的空间区分性,获得有利于决策分析的检测性能。

2目标运动特征及预处理

大量传感器获取的海量目标航迹点数据,大数据可视化技术可以显示目标的轨迹,这些信息包含位置、路线、速度及属性等维度信息。海量数据致使业务人员很难将有限的精力集中于更有意义的目标信息。通过异常检测,从海量运动目标数据中抽取出异常数据,异常数据出现频率较小,信息含量高。决策分析人员的注意力可以集中于异常数据,从而提高目标的监视效率。

聚类的基础是运动特征建模,分析数据特征并且利用这些特征建立模型是问题的关键。目标运动特征包含运动状态信息(经纬度、高度、速度、航向)和时间信息。在限定地理区域内,目标运动航速和航向相对固定。受洋流、海洋地形等因素影响,不同区域目标航向、航速呈现不同规律。对目标活动空间区域进行离散化处理,在栅格区域内建立海上目标运动模型,本文选取栅格区域为:经度×纬度=1°×1°。

目标运动属性航向和航速符合正态分布,且通常认为正常行驶的舰船通常占数据样本远大于异常行驶目标。正常目标在特定时间粒度和特定区域内目标的运动规律较为稳定。比如,一个月时间粒度内出现在区域A的目标具有相对稳定的运动特征。

聚类运动特征模型作为一种知识库,评估实时采集数据。使用高斯相似度函数度量数据与先验知识簇的相似度,在满足相似度阈值条件下,为数据标记特征分类。运动目标异常检测模型如图1所示。

3实时目标异常检测

目标运动特征随时间和地域的变化而变化,因此历史数据的异常检测得到知识库用于评估新数据记录时,需保证历史目标运动特征模型能反映待评估数据的运动特征。通常状况下,历年同一季节同一区域的目标运动特征较类似,或临近时间段内数据中提取的目标运动特征也较可靠。

对数据样本航向、航速为特征量进行聚类。聚类结果如表1所示。其中,结果含10个簇,每个簇中目标运动属性以航向、航速的均值和标准偏差分布特征描述。群体[3]、[1]合计约91%。即大多数运动目标符合此类运动特征,航向均值分别为214°、35°,标准偏差分别为14、13.5;航速均值分别为26.5、24.4,标准偏差分别为8.8、9.3。群体[6]、[8]、[2]、[4]、[9]、[7]比例小,合计约9%,且在航速、航向属性上表现出较大异常,群体[5]、[7]中,航速的均值和航向标准偏差远大于其他群体。此类群体信息量更大。

选取上述时间粒度临近时间段内数据,对该样本数据进行评估,得到目标活动情况,评分结果如表2所示。每个目标航迹点赋予了一种属性标示,为分析该目标属性提供参考。

目標运动异常检测结果如图2所示。“C→”所示舰船航迹为以航向和航速特征检测的异常结果。图中异常轨迹明显偏离了正常航向。

4结束语

研究了基于聚类的海上目标异常检测方法,根据业务背景特点,选取适合目标运动数据的聚类算法,建立异常检测应用模型。根据历史数据聚类结果建立了目标活动特征知识库,对实时获取的目标航迹和数据评估,发现异常目标的异常行为,应用模型可广泛应用于各类目标异常行为检测。

参考文献

[1]颜博,张佳骥,张鹏.海空运动目标数据的时序及关联规律挖掘[J].无线电工程,2008,38(12):12-13.

[2]陈勇.一种目标航迹数据聚类挖掘分析方法[J].无线电工程, 2015,45(3):22-24.

[3]白洁,田瑞丽,张学军.Apriori算法在用户特性关联分析中的应用[J].计算机与网络,2016,42(12):70-72.

[4] Dunham M H.数据挖掘教程[M].郭崇慧,田凤占等,译.北京:清华大学出版社,2005.

[5] Tan P N, Steinbach M, Kumar V.数据挖掘导论[M].范明,范宏建等,译.北京:人民邮电出版社,2006.

猜你喜欢

航迹聚类数据挖掘
基于自适应视线法的无人机三维航迹跟踪方法
基于高斯过程的航迹片段关联算法*
基于数据挖掘探讨慢性肾衰竭处方规律
基于K-means++时间聚类的飞行航迹预测
基于数据降维与聚类的车联网数据分析应用
基于模糊聚类和支持向量回归的成绩预测
数据挖掘综述
基于密度的自适应搜索增量聚类法
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究