APP下载

一种基于聚类算法的网络异常检测方法研究

2020-07-29赵明严宏举张明军安娜韩进喜

计算机与网络 2020年10期
关键词:聚类算法

赵明 严宏举 张明军 安娜 韩进喜

摘要:针对聚类算法普遍存在的数值震荡和计算量大以及传统异常检测中存在的分析准确率低和时效性差等问题,提出了一种改进的近邻传播聚类算法———IMAP的异常数据检测方法。通过数据采集、数据预处理和聚类分析3个阶段实现异常数据的识别和定位,引入动态阻尼系数的聚类分析方法對标准化数据进行异常检测,为构造安全和稳定网络提供了参考。实验结果表明,利用IMAP的异常检测方法能有效地提高异常检测的运行效率和算法的精确度,具有实际的应用价值和意义。

关键词:AP聚类;IMAP聚类;异常检测;聚类算法

中图分类号:TP393文献标志码:A文章编号:1008-1739(2020)10-68-4

0引言

近年来,随着互联网技术的发展,网络结构日益复杂,数据规模日益扩大,对网络的管理与监测越来越受到人们的重视。物理拓扑上的网络动态级联故障将导致失效节点对周围节点产生级联失效效应[1-3]。虚拟化技术的出现,虚拟节点与底层物理节点映射的动态性导致虚拟网络和底层物理网络的故障因果关系更加难以预测;网络运行稳定后,网络故障发生的频次低,导致异常数据收集少,进而难以覆盖异常的全部分布。而当网络和信息系统迭代建设更新后,可能出现新的异常事件,但异常事件典型样本的缺乏将无法有效检测未知异常。网络异常检测是指以网络流数据为输入,通过数据挖掘、统计分析和机器学习等方法,发现异常的网络数据分组和异常网络交互等信息[4-5],综合分析并借鉴上述异常检测方法的优缺点,提出一种基于改进的近邻传播(AP)聚类算法[6-10],用于进行网络异常数据检测,该AP聚类方法可以有效解决聚类算法普遍存在的数值震荡和计算量大等问题。使用改进的AP聚类算法对网络异常进行检测,能有效提高检测效率,并能很好地适应通信网多样化的复杂数据。

1异常检测相关算法

异常检测也被称为基于活动行为的入侵检测,是指能检测出区别于正常行为的所有的行为,如未知的攻击行为。常用的异常检测方法可分为基于统计的异常检测、基于分类的异常检测、基于近邻的异常检测和基于聚类的异常检测[11-13]。基于聚类的异常检测不需要监督,适用于时空数据的异常检测。一种基于浅层数据包检查和并行K均值数据聚类的网络流量异常检测,能通过K均值聚类检测网络流量中的异常行为并为其提供通用的解决方案。但K均值聚类检测方法存在明显的局限性,必须事先为每个类别确定一个聚类中心,其结果好坏依赖于初始聚类中心的选择,且对异常样本点较为敏感。

基于此,提出了基于IMAP聚类算法的网络异常检测方法,将IMAP聚类算法应用于网络异常检测中,使其具有较好的稳定性和优越的检测性能。

2基于IMAP聚类算法的异常检测

2.1异常数据检测模型

提出了一种基于改进的AP聚类算法的异常检测[14-16]方法,结合网络故障数据的层次性、传播性、相关性和不确定性进行模型改进,模型如图1所示。异常数据检测模型主要分为数据采集、数据预处理和聚类分析3个阶段。

①数据采集:基于流量探针、代理软件,主动轮询检测和主动数据上报等方式,可以依据自己的数据需要,借助于网络爬虫技术获取海量数据,或者获取公开的数据集作为实验数据的来源。

②数据预处理:原始的数据噪声较高,不适合直接进行异常检测,要对原始数据进行预处理将其转换为标准化数据,便于后面进行数据挖掘。常用的数据预处理方法有数据清洗、数据集成及数据离散化分类等。

③聚类分析:将标准化的数据进行分类,大数据量的分类被认定为正常数据或普通数据,数据量较小的分类和孤立节点作为异常检测的基础数据。

2.2基于IMAP的聚类算法

基于IMAP的聚类算法是一种基于消息传递的聚类方法,主要思想是将数据看作二维空间内的节点,通过在数据节点直接传递信息,不断循环迭代修改空间中聚类中心点的位置,最终得到一些高质量的聚类中心点。首先构建相似度矩阵来描述样本数据点之间的相似性,然后借助相似度矩阵偏向参数实现一种包含响应度信息R(Responsibility)和可用度信息A(Availability)的消息传递机制来对数据点进行聚类。

基于IMAP的聚类算法以数据点之间的相似度矩阵和偏向参数作为输入,利用这2种信息交替更新进行迭代,最终得到并输出聚类结果。其中,数据点和数据点之间的相似度定义如下:

3仿真试验验证

以实验室小型网络(10台交换机和服务器)环境下所采集的近15 000条网络运行状态和日志数据为例进行实例验证,分为数据采集、数据预处理、标准数据集及聚类分析异常检测等步骤。

①获取数据:通过模拟或实地采集等手段全方位获取正常流量数据和异常流量数据,并形成数据集对其进行验证。

②数据预处理:对获取的流量数据集进行预处理操作,剔除数据集中的“脏数据”,即与故障特性无关的数据、重复采集的数据,或数据格式错误的数据,在此基础上利用主成分分析法对流量数据进行降维处理,提取流量数据的主要特征,降低流量数据的复杂性。

③標准化数据集:对网络流量数据进行数据预处理得到模型所需的标准数据集,该数据集共含有7 267条数据。将数据集归一化后,对其进行基于AP聚类的异常检测分析。

在试验中检测验证的结果如下:

①值:使用AP聚类算法在流量数据集上做异常检测的=79.6%,使用本文提出的IMAP聚类算法做流量异常检测的=82.3%。在流量数据集上,本文方法比AP聚类用于异常检测的方法在召回率上提高了2.7%。

②值:使用AP聚类算法在流量数据集上做异常检测的=72.4%,使用本文提出的IMAP聚类算法做流量异常检测的=80.9%。在流量数据集上,本文方法比AP聚类用于异常检测的方法在准确率上提高了8.5%。

③1值:通过对2个算法1值的对比,可以发现使用AP聚类算法在流量数据集上做异常检测的1=72.9%,使用本文提出的IMAP聚类算法做流量异常检测的1=81.6%。在流量数据集上,本文方法比AP聚类用于异常检测的方法在1值提高了8.7%。

由上述试验结果对比分析可知,本文提出的基于IMAP聚类的异常检测算法具有检测速度快、检测准确率高的特点,具有实际的应用价值和意义。

4结束语

本文提出的异常检测模型分为数据采集阶段、数据预处理阶段和聚类分析阶段3个部分,将采集的海量数据进行清洗得到标准化数据,然后通过聚类分析方法标准化数据进行异常检测,与以往的异常检测精度相比,检测效率提高了近45%。将改进的IMAP聚类方法应用到网络异常检测领域,有助于解决以往的异常检测方法中存在数据震荡问题,并能够高效准确地找到异常数据,对网络安全建设有深远的意义。

参考文献

[1]戚玉娥,刘方爱.一种基于聚类的异常流量检测算法[J].微计算机信息,2010,26(9):133-135.

[2]李洪成,吴晓平,姜洪海.基于改进聚类分析的网络流量异常检测方法[J].网络与信息安全学报,2015,1(1):66-71.

[3]柳兆峰,杨奇,霍永华,等.基于CURE聚类算法的科技情报异常数据检测[J].无线电通信技术,2018,44(06):605-609.

[4]王柯伟.基于聚类的网络异常检测研究与实现[D].北京:北京邮电大学,2017.

[5] FREY B J, DUECK D.Clustering by Passing Messages between Data Points[J].Science,2007,315 (5814):972-976.

[6]章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(7): 1869-1882.

[7] HASSANABADI B,SHEA C,ZHANG L,et al.Clustering in Vehicular Ad Hoc Networks using Affinity Propagation[J]. Ad Hoc Networks,2014,13:535-548.

[8]胡正平,张乐,尹艳华.时空深度特征AP聚类的稀疏表示视频异常检测算法[J].信号处理,2019,35(3):386-395.

[9]李登杰.基于异常检测的专利技术机会识别[D].北京:北京工业大学, 2016.

[10]田雪筠.网络竞争情报主题采集技术研究[J].图书与情报, 2014(5):132-137.

[11]刘爱琴,王友林,尚珊.基于爬虫技术的关键词关联推荐算法优化与实现[J].情报理论与实践,2018,41(4):134-138.

[12]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45.

[13]陈忆金,黄彦齐.网络舆情动态分析研究[J].情报资料工作, 2016(6):35-40.

[14]刘红光,马双刚,刘桂锋.基于机器学习的专利文本分类算法研究综述[J].图书情报研究,2016,9(3):79-86.

[15]罗燕,赵书良,李晓超,等.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725.

[16]张齐勋,刘宏志,刘诗祥,等.基于行业专有词典的TF-IDF特征选择算法改进[J].计算机应用与软件,2017,34(7): 277-281.

[17]吴正,李少波,杨观赐.基于向量空间的专利类比挖掘算法[J].科学技术与工程,2017,17(11):74-78.

[18]周亚建,徐晨,李继国.基于改进CURE聚类算法的无监督异常检测方法[J].通信学报,2010,31(7):18-23,32.

[19]黄琳.基于CURE聚类的KNN文本分类研究与实现[D].昆明:昆明理工大学,2014.

猜你喜欢

聚类算法
一种基于词嵌入与密度峰值策略的大数据文本聚类算法
基于关联规则和复杂系统熵聚类方法分析张学文治疗肝热血瘀证用药规律
数据挖掘算法性能优化的研究与应用
K—Means聚类算法在MapReduce框架下的实现
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于改进的K_means算法在图像分割中的应用
大规模风电场集中接入对电力系统小干扰稳定的影响分析
基于弹性分布数据集的海量空间数据密度聚类
基于MapReduce的DBSCAN聚类算法的并行实现
基于暂态特征聚类的家用负荷识别