基于Weka平台的R2L攻击关联分析
2019-09-12郑继刚张静梅
郑继刚 张静梅
摘 要:远程主机的用户未授权访问攻击是网络攻击类型之一,该攻击类型出现在KDDCup数据集中,运用Weka对特征属性进行分析,挖掘结果显示不同属性特征间的联系。
关键词:Weka; 数据挖掘; 特征属性; 关联分析
文章编号:2095-2163(2019)04-0290-03 中图分类号:TP311 文献标志码:A
0 引 言
数据挖掘也称数据库中知识发现(knowledge discovery in database,KDD)[1],从提出到现在一直得到了研究和应用领域的广泛关注。是目前重要研究课题之一。其从大量原始数据中挖掘出隐含的、有用的、尚未发现的信息和知识,帮助决策者寻找数据间潜在的有用知识。
远程主机用户未授权访问攻击(Remote to Local,R2L),攻击是基于数据包负载的,数据包头部没有明显的频繁模式,单个数据包和正常连接区别不大,若采用传统检测方法很难提高检测率[2]。
本文采用数据挖掘Weka平台的关联规则算法[3],依据KDDCUP99数据集的“KDDCUP.data_10_percent”子集[4],挖掘出数据集中R2L攻击隐含的用户行为特征或规律,以指导入侵检测系统依据规则库对用户行为进行检测,根据检测结果采取不同的应对措施。
1 R2L数据预处理
“KDDCUP.data_10_percent”子集中共有1 126条R2L攻击类型记录,每条记录有41个固定的特征属性和最后一个攻击类型标识。下载的数据集是xls格式的excel工作表,另存为CSV文件类型,在Weka“Exploer”模块中,打开该CSV文件另存为ARFF文件类型,可视化结果如图1所示。
2 关联分析
在Explorer 模块的关联规则(Associate)标签下,可以实现对数据集的关联分析操作,这里提供了Apriori、FilteredAssociator、GeneralizedSequentialPatterns、HotSpot、PredictiveApriori、Tertius等多种关联分析算法,本文选择Apriori算法对实验数据集进行了关联分析[5]。
每条攻击记录共有42个特征属性。除第2、3、4、42个属性是离散型外,其余38个属性均为数值型,如图2所示。
借助Weka的“Filter树”,在“weka.filters.unsupervised.attribute.Discretize”中,设置attributeIndices属性为“1,5-41”,“bins”改成“3”,即设置为3段离散化值。勾选记录值完全相同的protocol_type、land、wrong_fragment、num_outbound_cmds、is_host_login等5个属性,2 s时间内与当前连接的流量特征、具有相同目标主机前100个连接。即第23~41个属性,并“Remove”以删除剩余18个属性。设置参数为“Apriori–N 20–T 0 –C 0.9–D 0.1 –U 1.0 –M 0.5 –S -1.0 –C -1”,前20条挖掘结果见表1。
根据挖掘结果,从中可以获取隐含在R2L攻击类型中不同属性特征间的联系:被迫妥协出现的次数num_compromised<13,超级用户root访问的数量num_root<18,shell提示符的数量num_shells<1,不执行“su”命令su_attempted,登录失败的次数,num_failed_logins<2,执行文件创建的数量num_file_creations<7。这些挖掘规则的置信度均为100%,如果降低置信度进行挖掘,会有更多的联系出现。
3 结束语
Weka是一个开源的数据挖掘软件,使用户能够很容易地将其应用于所要挖掘的数据集,挖掘出知识点。本文借助著名的开源数据挖掘软件Weka3.6.2版本,对KDDCUP99数据集的“KDDCUP.data_10_percent”子集中R2L攻击类型进行了关联分析,实现了Weka在網络入侵检测数据集中的应用。对数据格式的转换、数据类型的转换有了完整的认识,挖掘出特征属性及行为之间的关联关系,提高了检测的效率和准确率。
参考文献
[1]HAN Jiawei, KAMBER M. 数据挖掘概念与技术[M]. 2版. 范明, 孟小峰,译. 北京:机械工业出版社,2007.
[2] 全亮亮. 基于数据挖掘算法的入侵检测研究[D]. 武汉:武汉科技大学,2013.
[3] WITTEN I H, FRANK E. 数据挖掘实用机器学习技术[M]. 董 琳,译. 北京:机械工业出版社,2006.
[4] NEWMAN D. Welcome to the UCI knowledge discovery in databases archive[EB/OL]. [2005-09-09].
[5] 孙元军,郑新奇,常伟倩. 基于Weka的城市建设用地结构特征挖掘研究[J]. 计算机工程与应用,2008,44(27):231-235.