基于数据挖掘的异常检测模型研究初探
2017-05-16马俊宏
马俊宏
(晋中学院,山西 晋中 030600)
基于数据挖掘的异常检测模型研究初探
马俊宏
(晋中学院,山西 晋中 030600)
研究了一种基于数据挖掘技术的异常检测模型,根据这种模型所建构的系统具有一定的准确性、可扩展性与自适应性.此外对该模型中的一些关键技术进行了研究.
数据挖掘;异常检测;模型;网络安全
引言
随着网络的普及,网络环境也逐渐变得更加复杂,在网络中存在海量的不安全因素,同时随着网络技术的不断发展,传统的数字证书、防火墙等都已经逐渐不能起到较好的防御效果,例如,在安全后门问题方面,传统的网络安全技术呈现出较为明显的不足,同时传统的网络安全技术在防止网络的内部攻击方面也存在着较大的问题,无法为用户提供实时的网络监测.为了提高网络的安全性,许多学者都进行了大量的研究,希望能找到更加安全的策略与方案,而入侵检测技术可以有效的提高网络的安全性.入侵检测技术可以有效的检测到系统中的各种异常信息,并将这些信息及时的向用户进行传递,这种技术主要被用来检测计算机系统中的违反了网络安全策略的行为.其主要原理是在计算机系统中的关键节点设置信息搜集程序,对计算机是否受到攻击进行及时的监测,这种技术可以识别出计算机系统中任何不被希望的行为,并及时的检测到各种攻击行为[1].在检测出系统所存在入侵行为之后,计算机系统中的报警与防护系统会立即对攻击行为进行驱逐,同时在攻击行为发生的过程中可以在最大程度上降低损失的发生.另一方面,在攻击行为发生之后,系统会将相关的攻击行为及时的存储到数据库中去作为系统知识,从而使得系统的防范能力可以得到明显的增强.此外,这种技术与防火墙结合在一起,还可以为计算机提供更强的防护能力[2].
1 异常检测技术概述
当前针对系统入侵的异常检测技术主要分为两种,一种是针对知识的异常入侵检测,一种是基于行为的异常入侵检测.
基于行为的异常检测技术简称为异常检测,其检测的具体原理是来自于这样的思想:人类的行为具有较强的规律性,对这些日常行为进行分析之后必然会得到对应的规律,同时一般情况下正常的用户行为与入侵行为之间存在着较大的差异,基于此种情况,计算机系统如果可以有效的检测到这些差异行为就可以区分出究竟何种行为才是入侵行为.例如,某一计算机用户往往是在上班时间使用该计算机,如果在非工作时间该计算机还是处于工作状态,则就是明显的异常行为,这就表明该计算机有可能受到了入侵[3].同样的道理,滥用行为也可以被检测出来,异常检测的关键在于如何判定用户正常使用计算机的模式以及确定对应的判定算法,从而确定哪些行为属于入侵行为.
基于知识的入侵也被称为违规检测,在这种检测技术中,往往假设可以用一种模式来表示入侵者的活动,系统会及时的将相关活动与这一模式进行对比,从而判定是否存在入侵行为,此外,系统还可以将现阶段已经存在的入侵行为都检测出来,但是对于数据库当中没有的入侵方法,系统依然无法有效地辨别出来,这种技术的难点在于如何将入侵的模式设计出来,同时将不正常的活动排除在外.
在上述的两种模型中,异常检测是使用较为广泛的一种检测方法,主要是由于这种检测方法具有较强的通用性,相对来说与系统不存在多大的关联,同时还可以检测出数据库中并不存在的攻击行为.目前在异常检测中较为常见的技术包括:统计方法、阈值检测以及基于规则的方法,同时现阶段的研究人员也在大力研究其他方法如神经网络与遗传算法[4].
2 数据挖掘与异常检测
现阶段在入侵检测方面的研究中最主流的研究方向就是异常检测技术,该技术可以通过对行为的分析从而实现对系统行为的检测,并发现一些数据库当中并不存在的攻击行为.从根本上来说所谓的异常检测就是对各种用户行为进行审计与对比的技术,一般情况下数据检测技术不仅仅使用在计算机主机等硬件上,同时还针对各种网络数据进行检测,其最根本的目的是为了建立用户的正常使用模式,同时将已经建立起来的用户模式与各种用户之间的行为进行比对,如果用户的行为与之正常的使用模式之间存在着一定的差异,则该行为为入侵行为,但是现阶段的计算机系统发展较为迅速,同时网络数量的不断增加从而导致了安全审计的速度也不断增加,在这海量的数据之中也包含着许多重要的信息,研究人员希望可以对这些数据进行分析,从而可以充分的利用这些数据有效的解决某些问题[5].另一方面,当前的数据审计系统虽然在进行数据审计的过程中具有较高的效率,但是对不同数据之间的关联却并不能进行有效地判定,因此也就无法预测出数据在未来的发展.由于数据挖掘技术的缺乏从而最终导致了虽然数据较多,但是往往并没有什么实际性的作用.因此,如何从海量般数据当中将用户的行为有效的提取出来,并进行分析,同时将这些信息有效的运用在数据的用户判断当中是设计系统的核心问题.为了提高数据审计的准确性与效率,可以考虑采用数据挖掘技术对其进行处理.所谓的数据挖掘是一种数据的数据分析技术,通过数据挖掘技术的运用可以从大量的信息当中提取出许多具有一定价值的安全信息,同时还可以从数据中抽象出一些特征模型,从而用于异常检测中的行为描述,并建立相关行为模型,通过计算机算法可以判定这些模型的性质[6].
3 基于数据挖掘的异常检测模型
基于数据挖掘的异常检测模型需要由多个模块共同构成,即有数据采集预处理模块、数据挖掘模块、模式更新模块以及决策模块等.在该系统中数据也具有多个来源,如计算机主机、网络以及计算机应用程序.在进行本文的研究中,由于网络数据是数据的主要来源,当网络数据在传播时,采用特定的技术对数据进行提取与处理,并存储到数据库当中作为异常检测分析过程当中的数据源.其模型结构如图1所示:
图1 基于数据挖掘的异常检测模型图
在该系统中,各模块的功能如下:
1)数据采集及预处理模块:该模块需要完成一个非常重要的任务,即数据源的处理,在对数据源进行有效的处理之后,程序就会自动生成关联规则,同时根据其契合度对事件进行排序处理,在基于数据挖掘的异常检测模型中该事件序列是最为重要的组成部分.在数据采集与预处理模块中网络数据集的重组以及过滤是采用Bro进行的,Bro同时还可以实现数据流的过滤,还会产生特定的事件系列,Bro系统的结构组成如图2中所示:[7]
图2 Bro的结构组成
2)数据挖掘模块:该模块可以通过程序中所存储的算法对事件库进行全面的挖掘与搜索.由于在事件库当中存在着大量的事件,同时事件之间的属性也存在着较大的差异,如果利用一般的频繁模式进行数据挖掘必然会导致许多没有实际价值的规则产生.因此,为了获得更加有效地规则,必须改变算法,本文的研究中采用的是一种基于轴属性的频繁模式挖掘算法,即IREP算法,该算法可以对挖掘出来的不同模式进行分类处理,从而总结出究竟何种行为模式为正常,何种行为模式为异常,具体的算法如下所示:
Procedure IREP(Pos.Neg)
Begin
Ruleset:={ }
While Pos={ } do
/*split (Pos.Neg) into (Growpos, GrowNeg) And (PrunePos,PruneNeg)*/
Rule:=Grow Rule(Growpos,GrowNeg)
Rule:=Prune Rule(Growpos,GrowNeg)
if the error rate of Rule on
(PrunePos,PruneNeg) exceeds 50% then
Retrun Releset
else
add Rule to Releset
remove examples covered by Rule
from (Pos.Neg)
endif
endwhile
Retrun Releset
End
在进行分类算法的选择过程当中最重要的一个问题就是特征属性的选择,在选择特征属性时可以根据已经挖掘出来的规则与序列对数据当中的属性进行选择与分析.例如在本文的模型当中可以采用以下几种算法:①关联分析.决定数据库记录中属性间的关系.利用审计数据中系统属性间的相关性作为构建正常使用模式的基础.②分类.即可以将同一个数据集向不同的分类映射,最终会以分类器的结果进行输出,其最终的输出形式为分类树或者规则集.这种算法在异常检测当中最重要的应用就是对搜集的数据进行分类.③序列分析.通过这类算法可以将审计事件当中频繁发生的时间序列统计出来,这些频繁事件模式为构建入侵检测模型时选择统计特征提供了指导准则[8].
3)模式更新模块:该模块的主要功能是用来对计算机网络系统以及用户的正常模式或者规则进行更新与修正.网络中安全数据是处于一种动态变化中的,用户的行为在不同的时间段内也具有不同的规律,因此当前已经发现的用户规律也并不是完全适用的,必须要不断的发现新的用户行为模式.由此可见不仅需要采用数据挖掘的方法对用户的行为数据进行挖掘,同时还需要算法来更新用户的行为.
4)决策模块:该模块的功能主要是将当前存在的用户行为与数据库中所存储的用户行为进行对比与分析,从而对用户行为的异常性进行判断,根据数据挖掘模块中的分类结果用相似度检测匹配程度,相似度的范围为0~1之间,相似度值越高则说明二者之间的吻合度越高,若对比的结果为0,则说明二者之间是完全不同的.
4 结束语
随着网络环境的不断恶化,网络安全问题逐渐引起了许多专家与学者的关注,人们纷纷对网络安全的异常检测技术进行了研究.本文研究了一种基于数据挖掘技术的异常检测模型,主要介绍了其主要的结构构成以及不同模块的构成与功能,希望能对现阶段的异常检测技术有所帮助.
[1]Li H. Research and Implementation of an Anomaly Detection Model Based on Clustering Analysis[C]// International Symposium on Intelligence Information Processing and Trusted Computing. IEEE Computer Society, 2010:1838-1842.
[2]Wang G H, Kuang Y L, Wang Z G. The Coal Production Anomaly Detection Based on Data Mining[J]. Applied Mechanics & Materials, 2012, 239-240:744-748.
[3]Wu C, Xia W, Liu F. The Research of Network Anomaly Detection Technology Based on Data Mining[C]// International Conference on Electrical, Computer Engineering and Electronics. 2015.
[4]曲萍. 一种新的基于数据挖掘技术的异常入侵检测系统研究[J]. 电子技术应用,2010,08:145-149.
[5]吕志军,袁卫忠,仲海骏,黄皓,曾庆凯,谢立. 基于数据挖掘的异常入侵检测系统研究[J]. 计算机科学,2004,10:61-65.
[6]凌昊,谢冬青. 基于数据挖掘的网络入侵检测系统模型的研究[J]. 科学技术与工程,2007,19:5170-5172+5176.
[7]刘棣华,王小芬,余斌. 基于数据挖掘和模糊理论的入侵检测模型研究[J]. 网络安全技术与应用,2008,12:8-10.
[8]燕振刚. 一种基于数据挖掘技术的入侵检测模型[J]. 工业控制计算机,2012,06:91-96.
On Anomaly Detection Model Based on Data Mining
MA Jun-hong
(Jinzhong University, Jinzhong Shanxi 030600, China)
This paper studies an anomaly detection model based on data mining technology, based on which the system has certain accuracy, scalability and adaptability. In addition, some key technologies of this model are studied in this paper.
data mining; anomaly detection; model; network security
1673-2103(2017)02-0044-04
2017-03-16
马俊宏(1979-),男,山西运城人,讲师,研究方向:人工智能和数据挖掘.
TP393.08
A