一种基于迁移学习的入侵检测技术的探讨
2018-05-10卢明星
卢明星
摘要
对于入侵检测技术来说,由于攻击类型的不同使得检测性能存在一定的不平衡。而将迁移学习加入现有的算法中,能够提升入侵检测的效果。基于此,本文分析了现有的入侵检测方法,说明了基于迁移学习的入侵检测系统模型,探究了基于DNB的入侵检测以及基于DTNL的入侵检测结果的效果。
【关键词】迁移学习 入侵检测技术 分布式迁移网络学习算法
计算机技术的不断发展使得网络安全防护更加受人关注,相关人员对于网络安全防护技术的研究更加深入。在网络安全防护技术中,入侵检测技术是一种十分有效的技术,能够实现在系统遭受入侵前对外部入侵进行检测与拦截,在系统受到内部攻击时也能对系统进行保护。就现阶段的研究来说,由于迁移学习能够在多任务的学习中有着较好的效果,所以将其加入现有的算法,能有提升检测效果。
1现有的入侵检测方法分析
1.1模式匹配
基于模式匹配的入侵检测主要流程如下:在网络中将计算机的行为模式进行分类,将在数据库中选择的一些攻击行为建立攻击行为特征库。当计算机的网络受到可疑的操作时,基于模式匹配的入侵检测系统能够利用攻击行为特征库对这些可疑操作进行比对。在实际的比对中,可以使用字符串的形式进行。具体来说,就是在基于模式匹配的入侵检测系统中利用一串特定的字符串代表某一恶意操作行为,并利用这一字符串进行匹配,就能够实现对入侵行为的检测与寻找。
1.2概率统计分析
在进行入侵检测汇总,概率统计分析是一种较为常用的方法。概率统计分析的核心在于,利用统计学的思想建立起一个区间的闽值,具体来说,就是结合计算机正常运行时的数据,建立起被攻击次数或者是误报的最大值。在该系统实际的运行中,若是统计结果显示计算机遭受入侵的次数超过这一阈值,那么就可以判定该计算机系统受到了攻击,计算机的运行出现了异常。在进行基于概率统计分析的入侵检测系统建立时,由于要进行对阈值以及相应统计量的选择与确定,所以有着一定的局限性。
1.3专家系统
在基于专家系统的入侵检测系统中,通过专家经验建立起的计算机入侵行为库,对于遭受的可疑操作进行对比,就能够完成对计算机入侵行为的判断。基于专家系统的入侵检测系统在运行时,使用一个简单的判别语句就能够完成对入侵行为的判断。具体来说,就是当可疑操作与专家系统中的入侵行为相匹配时,就可以判定计算机遭受了入侵行为;若是可疑操作与专家系统中的如入侵行为不匹配时,就可以判定计算机运行安全。就目前的互联网技术的更新速度来说,想要使用基于专家系统的入侵检测系统能更好的对入侵行为进行判定,就必须要让专家系统具有自我学习的能力,但是现阶段该项技术并不成熟。
2基于迁移学习的入侵检测系统模型
2.1入侵检测的一般过程
在入侵检测过程中,主要的流程如下:一个信息源经过数据的预处理模块后,在数据分析模块被进行深入的解析,并输出检测结果该结果与安全策略共同作用下,在响应处理模块被处理。其中,信息源主要是通过数据采集功能实现的。在数据采集环节,会对计算机中的系统日志信息、计算机工作状态以及网络数据流等信息进行全面的采集。在相应的数据采集完成后,相应的信息会传输到数据预处理模块。在该模块中,主要实现了对相应的数据信息进行分类以及筛查的工作。在数据分析模块,主要完成了对经过预处理后的数据信息进行深度解析的工作,利用数据挖掘或是机器学习的方式进行。在相应处理模块,会结合系统的安全情况以及实际问题进行处理。
2.2通用入侵检测框架
在通用入侵检测框架( CIFD)中,包含着以下的结构:事件产生器、事件分析器、事件数据库以及响应单元。其中,在事件產生器中,会对计算机运行数据等进行跟踪采集,并将其中转化为事件与系统共享;在事件分析器中,主要完成了对相应信息数据的分析,并进行判断,生成检测信息;在事件数据库中,主要实现了对有用信息的存放,该书库既可以是简单的txt文件,也可以是更为复杂的数据库;在相应单元中,一旦接收到系统的报警信息后,就会立即做出反应对计算机进行控制,例如切断连接或是改变文件属性等等,也可以仅进行单纯的报警。
2.3基于通用入侵检测框架的网络入侵检测模型
在基于通用入侵检测框架的网络入侵检测(NIDS)模型中,包含的单元结构如下:网络数据收集单元、预处理单元、事件分析处理单元、入侵响应单元、控制单元、规则数据库以及入侵日志记录。其中,在网络数据收集单元,主要完成了对存在于网络中的数据流的收集;在预处理单元,主要完成了对收集的数据信息进行标准化,提升后期实际处理的速度;在事件分析处理单元,主要实现了对预处理数据信息的分类,并将其与入侵规则进行匹配,完成对入侵行为的判断;在入侵响应模块中,一旦判定存在入侵行为后,该模块就会做出自卫反应,例如收集入侵信息、对入侵来源进行反击、断开网络连接、禁止访问等等。
2.4 一种基于迁移学习的网络入侵检测模型
在基于迁移学习的网络入侵检测模型中,主要包含了一下几个结构:数据采集模块、格式化模块、数据预处理模块、样本训练及学习模块、专家判别模块、入侵规则以及入侵记录数据库。在这一入侵检测模型中,与其他模型最大的不同之处在于存在样本训练集学习模块,在该模块中,使用了DTNL算法对数据信息进行了分类,得出分类器。通过对分类器的检测,能够完成对计算机是否遭受入侵进行判断。
3数据处理与结果分析
3.1 KDD CUP 1999A侵检测数据集
KDDCUP 1999数据集是标准的入侵实验数据,由于包含的入侵子信息数量较多,所以在对其进行入侵分析时,必须要对其进行分类。在KDD CUP 1999数据集中存在着的攻击主要能够分成四类:U2U、R2L、Probing. DOS,在这四类攻击中,包含着不同的子攻击类别。KDD CUP 1999数据集有着41维网络通信数据的特征,具体表现为以下几项:连接内容特征、连接基本特征、基于时间窗口为2秒的统计得到的流量特征。
3.2实验过程
为了能够实现对算法性能的验证,在实验中使用了corrected最为测试数据集、kddcupdata_lO_percent作为训练样本集、KDD CUP1999数据集作为文本存储的形式。在实际的测试中,需要对相应的数据信息进行归一化以及量化处理,其具体的预处理流程如下:选择KDD CUP 1999数据集中的数据(x),并对其中形式为字符串的数据信息进行统计和量化,将其设定为Xl。对于Xl的属性值进行范围的设定(范围为fO。1.3xl09]),将原地址字节数src_bytes以及目标地址字节数dstbytes的属性值进行对数变换,将范围缩小至[o.o,9.14],得出X2,并对X2进行归一化处理,最终得出处理结果X。
3.3基于DNB的入侵检测结果分析
利用KDD CUP 1999数据集对DNB算法进行测试,从完成预处理的数据中进行实验样本的抽取,样本的具体比例为U2R为100%、R2L为100%、Probe为50%、Normal为3%、DOS为2.5%。将这些数据设置在不同的网络节点中,使用BA无标度网络结构进行实验,采样的频率为0.7、训练的迭代次数为15、加权系数为0.8。在进行数据分析时,使用corrected数据集进行验证。经过基于DNB的入侵检测实验后,得出的DNB算法分类正确率具体如下:DNB算法对于U2R处理的正确率为39.6%;对于R2L处理的正确率为7 9%;对于Probe处理的正确率为82 5%;对于Normal处理的正确率为95 8%;对于DOS处理的正确率为93.6%。从这一结果能够看出,DNB算法对于R2L的检测效果较低,但是就整体的性能来说,DNB算法比较优越。3.4基于DTNL的入侵检测结果分析
为了弥补DNB算法对于R2L的检测效果较低的问题,可以使用以下的方式进行解决:将在实验中使用的两个数据集中的所有记录进行分类,分为Normal以及Abnoprmal。在Abnoprmal中,包含U2U、R2L、Probe、DOS这四种样本。在经过预处理的数据样本中,随机抽取10000个Abnoprmal样本以及5000个Normal样本,并将其设置为训练样本,然后再使用DNB算法进行分类。结果得出,DNB算法在对Normal以及Abnoprmal进行检测时,都有着较好的效果。
为了对DTNL算法的性能进行测试,可以从完成预处理的数据随机选取四种异常样本设为训练样本,具体的比例为U2R为100%、R2L为100%、Probe为75%、DOS为2.5%。同时选取1000个正常样本,将其用于迁移学习中。经过基于DTNL的入侵检测实验后,得出的DTNL算法分类正确率具体如下:对于U2R处理的正确率为39.4%;对于R2L处理的正确率为93%;对于Probe处理的正确率为96.4%;对于DOS处理的正确率为97.8%。可以看出,相比于DNB算法,DTNL算法分类正确率有了进一步的提升。证明了DTNL算法能够将正常样本中的知识迁移到其他环境中,并对R2L样本的学习进行指导。
4总结
综上所述,经过实验得出,DNB算法对于R2L的检测效果较低,但是整体的性能比较优越;而DTNL算法的正确检测率更高,能够将正常样本中的知识迁移到其他环境中,并对R2L样本的学习进行指导。
参考文献
[1]袁文翠,孔雪,基于迁移学习的图像识别研究[J].微型电脑应用,2018,34 (07):10-12.
[2]孔令爽.基于深度学习和迁移学习的入侵检测研究[D].山东大学,2018.
[3]王東东,基于迁移学习的入侵检测技术研究[D],中北大学,2015.