基于MDM的KELM学习器选择性集成网络入侵检测
2020-07-29高正浩
摘 要: 采用集成学习模式进行入侵检测时,可以获得比单个学习器更高效的网络攻击识别过程,并能显著提高识别准确率。設计的SN通过MDM对各KELM子学习器计算得到集成增益度,从中选出具有较高增益度的KELM子学习器再实施集成。选择Bagging方式完成抽样集成过程,同时以Hadoop分布式结构对算法实施训练,通过并发方式完成各子KELM的检测,使算法达到更高的效率。通过测试发现,不管对于公共KDD99数据集还是以手工方式建立的网络物理仿真系统,SN都可以高效发现各类入侵行为,满足实际应用要求。
关键词: 网络入侵; 极限学习机; 异常检测; 集成学习
中图分类号: TP 391文献标志码: A
Intrusion Detection by Selectively Integrated Network
with MDM - based KELM Learner
GAO Zhenghao
(Institute of Electric Power Science, Guizhou Power Grid Co. Ltd., Guiyang, Guizhou 550000, China)
Abstract: The integrated learning mode can obtain a more efficient network attack identification process than a single learner, and it significantly improves the recognition accuracy. The SN designed in this paper calculates the integration gain of each KELM sub-learning device through MDM, and then selects the KELM sub-learning device with higher gain degree to implement integration. The bagging is selected to complete the sampling integration process. Meanwhile, the algorithm is trained by Hadoop distributed structure, and the detection of each sub-KELM is completed by means of concurrency, so as to achieve higher efficiency of the algorithm. Through testing, it is found that the SN can efficiently detect various intrusion behaviors for both public KDD99 data set and manual network physical simulation system, which meets the practical application requirements.
Key words: network intrusion; extreme learning machine; abnormal detection; integrated learning
0 引言
当前,大数据技术获得了广泛应用,对于信息技术发展发挥了极大的促进作用,但也因此带来了网络信息的安全问题。针对上述情况,可以利用网络入侵检测的方法来实现对网络安全的主动防护功能,从而实现网络系统被破坏前就实现对外部入侵行为的及时拦截并作出快速响应[1-6]。对各类复杂网络运行状态进行处理时,不管是建立在误用或异常情况上的入侵检测系统通常都需要占用大量资源,并且实际测试效率很低,通常需结合人工综合分析的过程才能获得正确的结果[7-9]。对于一个具备优异性能的入侵检测系统来说,应满足可以实现自主学习并根据不同网络条件不断调整适应的要求。通过机器学习来实现对分类器的训练,从而达到准确分辨网络中的各类连接行为是否属于正常类型[10-11]。通过机器学习方式来实现的入侵检测由于采用不同的学习(分类)器,因此各自性能存在较大的差异。
采用集成学习模式进行入侵检测时,可以获得比单个学习器更高效的网络攻击识别过程,并显著提高识别准确率。
1 入侵检测算法
从本质上分析,网络入侵检测属于多变量分类的过程。假定总共
存在n条网络连接数据集X,将其表示为X={xi|i=1,2,…,n}T∈Rn,并且满足条件Xi∈R为第i条网络连接的记录,n表示样本总条数;上述各项记录的网络连接类型以T={ti|i=1,…,n}进行表示,则根据单学习器构建得到如下入侵检测模型[12-13]如式(1)。
上式的λ表示权重系数,当Qj结构被确定后,可以将式(1)作为对分类器Gj参数进行调整后得到的最佳分类器。本文通过Bagging学习模式来设计SN方法,先对具备互补功能的子学习器实施训练,再通过边缘距离最小化方式完成对子学习器实施选择性学习的过程。算法的具体流程如图1所示。
2.1 KELM分类器
将ELM作为一个线性方程,对其进行求解分析可以得到一个闭式的全局理论最优解。为防止ELM模型受到隐含层特征映射函数的干扰,可以考虑使用KELM模型。结合输出层参数a计算结果,现创建一条新网络连接记录Xtest,将其表示成如下的连接类型向量如式(2)。
式中:h为X的ELM非线性映射,H是隐含层的输出矩阵。以ELM核矩阵表示HHT。以Ω=HHT表示ELM核矩阵,代入上述各项矩阵参数可以得到以下结果如式(3)。
为了尽可能避免陷入局部最优,本文基于MDM的KELM学习器选择性集成网络入侵检测。该方法基于MDM准则计算出每个子学习器对整体集成算法性能提升的增益度量,通過选择增益度高的KELM子学习器进行部分集成,获得计算效率高、泛化能力强的强学习器。
2.2 学习器选择性集成
(MDM)集成学习是按照特定组合形式实现对不同弱分类器的集成并获得强分类器算法,通常将此类算法称作元算法。Bagging对已有分类器中存在错误分类的样本进行集中关注再优化各新创建得到的子学习器。Bagging方法充分考虑了不同子学习器间存在的强依赖性能,可以利用串行方式得到。
Bagging选择随机方式进行重采样,确保各子学习器可以达到互不干扰的状态。通常是以能够同时生成的分布式并发模式构建上述算法,采用上述方法可以实现子学习器的高效训练,同时确保子学习器能够满足互补的性能。
考虑到采用此Bagging策略可以实现并发学习的效果,本文选择Bagging方案来实现子分类器学习的功能。并且为确保可以对各类异常入侵进行高效检测,本文设计了一种建立在最小边缘距离基础上的选择性集成(MDM)算法来完成增益排序子学习器的目的,从中选出具有较大增益度的子学习器组成最终结果,有效减缓弱学习器影响检测结果的程度。
3 实验验证
本实验需要对以下二项内容进行验证:(1) 利用KDD99数据集验证本文构建的SN有效性,同时测试各项参数造成的性能变化,比较SN和不同入侵检测方式的差异性;(2) 构建网络物理仿真系统,对SN进行复杂网络环境条件下的运行测试,评价其检测真实入侵的效果。
3.1 验证分析
比较SN和KELM算法及其集成算法对于KDD99所达到的准确率与花费的运算时间,如表1所示。
测试时以径向基函数组成KELM核函数,其中,KELM集成算法以及SN算法都选择Bagging模式,设置跟原维度相同的抽样数量,设定子学习器的数量为100,通过MDM选择子学习器时,满足条件的子学习器数量总共是60个。
经过50次独立测试得到的结果,如表1所示。
根据表1可知,采用传统形式KELM集成算法可以获得比单独KELM方式高出8%的AR同时减小了0.6%的MR,不过却使检测时长增加了10倍左右。本文设计的SN是根据MDM准则选出具备优异性能的KELM子学习器来达到集成的目的,显著降低集成得到的子学习数量,降低了弱学习器所造成的不利影响,除了有效提升AR以外还使MR发生了大幅减小,并且可以获得更高的检测效率。
表2给出了检测方法运算时间比较。
如表3所示。
采用传统形式KELM集成算法训练时间较长,相B比较之下,本文算法在训练时间和测试时间上明显缩短,计算效率明明显提高。
3.2 参数设置对算法性能的影响
对SN性能具有影响的参数有子学习器集成数U与特征数F。表3给出了在不同的输入层神经元数量与各抽样率条件下算法的性能变化。
对表3结果进行分析可以发现,F几乎不会造成测试结果的变化。这是由于训练与测试阶段所选择的KDD99样本集包含了大量的数据,同时该算法具备优异泛化性能,此时如果只单独调节F将无法提升算法性能。不过对F进行调整后能够改善小样本集学习器性能。
同时,集成算法泛化性能受到子学器数量的直接影响,而当子学习器太多时则会占据大量资源。本实验将KELM子学习器的最初数量设定在100,利用选择性学习的方式得到最终集成数量。入侵检测性能与选择性集成子学习器数量的关系,如图2所示。
对图2进行分析可知,当子学习器数量增多后,入侵检测准确率表现为先缓慢上升再不断减小的趋势。在子学习器数量介于35~40范围内时,可以获得较高的网络入侵检测准确率,而当子分类器数量继续提高(超过40)后,获得的入侵检测效果保持基本稳定状态,而当加入太多弱学习器时,反而减小了正确率。进行比较测试时,将集成数量设定在40。
4 总结
本文设计的SN通过MDM对各KELM子学习器计算得到集成增益度,从中选出具有较高增益度的KELM子学习器再实施集成。选择Bagging方式完成抽样集成过程,同时以Hadoop分布式结构对算法实施训练,通过并发方式完成各子KELM的检测,使算法达到更高的效率。通过测试发现,不管对于公共KDD99数据集还是以手工方式建立的网络物理仿真系统,SN都可以高效发现各类入侵行为,满足实际应用要求。
参考文献
[1] 李立勋,张斌,董淑琴,等. 基于脆弱性转化的网络动力学防御效能分析方法[J]. 电子学报,2018,46 (12):3014-3020.
[2] Sultanan, Chilamkurti N, Peng W, et al. Survey on SDN based network intrusion detection system use machine learning approaches [J]. Peer-to-Peer Networking And applications, 2018,11 (1-2): 1-9.
[3] 高妮,高岭,贺毅岳, 等.基于自编码网络特征降维的轻量级入侵检测模型[J]. 电子学报,2017, 45(3):730-739.
[4] Wang C R, Xu R F, Lee S J, et al. Network intrusion detection using equality constrained optimization based extreme learning machines[J]. Knowledge-Based Systems, 2018、147 (1):68 - 80.
[5] 张志霞.基于RS-SVM的无线传感器网络入侵检测模型研究[J].智能计算机与应用,2019(3):319-320.
[6] 王莉莉,张建军.网络入侵节点的盲取证技术研究与仿真[J].现代电子技术,2019,42(9):51-54.
[7] 金立群.适应多元尺寸长度的卷积神经网络模型在网络入侵检测中的应用[J].山东农业大学学报(自然科学版),2019(5):1-3.
[8] 孙惠丽,陈维华,刘东朝.基于深度学习的改进贝叶斯网络入侵检测算法[J].软件工程,2019,22(4):17-20.
[9] 杨印根,王忠洋.基于深度神经网络的入侵检测技术[J].网络安全技术与应用,2019(4):37-41.
[10] 徐文良,张永胜,程健庆.基于机器学习的舰艇网络入侵检测技术[J].指挥控制与仿真,2019,41(2):137-140.
[11] 闫明辉.计算机网络入侵检测系统匹配算法的研究[J].电子设计工程,2019,27(8):34-37.
[12] 韩存鸽.混合光纤网络伪装危险数据有效识别技术研究[J].激光杂志,2019,40(4):108-112.
[13] 刘立明,李群英,郝成亮,等.基于异常流量可视化的通信网络入侵攻击路径智能跟踪技术[J].科学技术与工程,2019,19(11):230-235.
(收稿日期: 2020.02.04)
作者简介:
高正浩(1979-),男,本科,工程师,研究方向:信息技术。