APP下载

基于生态系统神经网络的入侵检测算法*

2020-07-27昊,常颖,邢

指挥控制与仿真 2020年4期
关键词:神经元种群卷积

刘 昊,常 颖,邢 岩

(1.国防大学联合作战学院,河北 石家庄 050000;2.陆军第79集团军医院信息科,辽宁 辽阳 111000; 3.沈阳航空航天大学电子信息工程学院,辽宁 沈阳 111000)

随着5G时代的来临,移动互联网技术取得了长足进步,人们在享受大数据带来的便捷生活时,也越来越受到网络恶意攻击和非法入侵威胁[1]。在此背景下,如何提升网络模型的可靠性,抵制非法攻击和入侵检测识别成为信息安全行业重点研究课题。网络入侵检测技术则是根据已知的攻击模型对人工智能系统进行训练,以实现对未知攻击数据的攻击类型判断,检测出非法入侵和攻击数据,同时允许合法访问和数据共享[2]。

当前,常用的网络入侵检测模型分为多个流派,如聚类、机器学习、决策树分类、智能优化算法、神经网络等方法,这些分类算法均取得了不错的效果,一定程度上提升了网络入侵检测的模型性能,但各算法也具有自身的局限性。K均值聚类方法[3]能够探测特征样本间的内部作用关系,并以空间距离计算达成分类效果,但作为无监督算法难以有效利用标签数据,检测效果相对较差。机器学习分类算法[4-5]虽然在小样本学习中表现出较好的性能,但面对海量数据时的检测精度和效率下降明显,且对参数调节较为敏感。决策树分类方法[6-7]虽然使用参数较少,学习效率较高,但也存在过拟合的问题,难以在海量数据学习时完成准确的入侵检测,造成预测效果失真。智能优化算法[8-11]虽然模拟了自然界各种动植物的生物习性,达成了负反馈调节和自适应的算法结构,但在面对攻击类型多样、特征描述偏差较大的入侵数据表现力参差不齐,且对参数选取范围依赖较大。相比较之下,神经网络算法[12-14]无论学习效率还是检测精度相对表现较好,但各种神经网络结构多样,如何选取最佳的神经网络以制作网络入侵检测模型是当前研究面临的重要问题。

1 生态系统运作原理

生态系统内部的生物结构可划分为个体、种群与群落,生态系统则是包含所有群落及参与物质、能量、信息的复杂巨系统。作为典型的复杂系统,其内部遵循能量、物质和信息流动的原则实现持续更新和演进,并具备一定的自我调节和适应能力,在持续能量的供给下实现由无序向有序的自组织进化。生态系统内部按功能结构可区分为物质与能量、生产者、消费者、分解者,每层结构具备自我的功能划分,进而产生物质、能量和信息的循环和按级吸收利用,最终实现信息的更新迭代。通过对生态系统的分析可知,组成系统的必要参与者必须大于三,即生产者、消费者与分解者三类,且三者之间保持非线性关系;系统必须为开放系统,即外界能量、信息持续不断供给以保持系统的负熵平衡;系统具备自组织进化机制,进化动力来源于系统内部各种群之间的竞争与协同,而非外部的人为干预指令。图1为典型的生态系统示意图。

图1 生态系统示意图

1.1 群落演替原理

作为复杂系统,生态系统内部的生物个体具备自由意志,可根据自身的存续发展而改变自身结构,并使种群的数量和性质处于动态变化中,进而影响生物群落内各种群之间的比例与相互关系。在算法中,可将种间关系简要概括为捕食与竞争关系,下级消费者层级中的种群性质变化将直接影响以此种群为食的上级消费者,并对同级的其余种群产生联动影响,进而在一定积累后产生群落演替,即各别种群消失或产生新种群。

1.2 负反馈调节原理

生态系统的进化方向是使系统内负熵最大化方向发展,并以此方向调节系统内各要素的进化状态,即每个生物个体是否适应生态系统的进化需求是个体存续的量化评估指标,不适应进化需求的生物个体乃至种群将遭淘汰,并释放占用物质、能量与信息资源,由更适应的种群接收。负反馈调节原理广泛存在于生态系统内,从物种层面可表述为优胜劣汰的自然选择机制。

1.3 生态系统自组织原理

生态系统无须外界的指令参与,即可实现内部各要素之间的平衡,并在能量持续供给的情况下,最终实现有序分工与最优化搭配组合,并具备一定的抗干扰能力。生态系统的自组织原理为神经网络算法提供了新的优化思路,即借鉴生态系统的自组织能力优化神经网络的神经元参数选择和连接走向,以达成全局的信息最优化。

2 算法设计

借鉴生物界中的生态系统运作原理,用以改进卷积神经网络的内部结构,以更适应参数调节需求,使神经网络具备更强的自组织和自我优化能力。算法中,可将神经元看作生物种群,神经元内的每组参数组合看作生物个体,每个隐含层神经元组合看作生物群落,特征计算可看做生态系统内部的能量、物质与信息流动过程,则生态系统通过多次的特征计算达成系统内部的自我适应与自我优化。生态系统神经网络计算流程如图2所示。

图2 生态系统神经网络计算流程图

2.1 卷积层架构

卷积层由多个特征面组成,用于将复杂的多维输入数据通过卷积核降维为有限特征,并将特征组合通过池化操作输入生态系统。卷积层中的卷积和池化神经元可看做生态系统中的生产者,通过和输入数据的局部区域相连接,使用卷积核(通常为3*3或5*5的权值矩阵)计算生成生态系统中的输入信息,此信息可看做是生态系统中生产者制造的能量物质,在生态系统逐层被消费者吸收,达成信息流动并产生输出信息。图3为卷积层和池化层的结构示意图,最顶层为池化层,中间层为卷积层,最底层为输入数据层。通过图3可知,卷积层内的生产者种群个体通过权值矩阵连接到局部的输入数据,通过非线性函数(如ReLU)加权求和获得输出结果,并通过权值共享缩短卷积操作时间消耗和模型复杂度。ReLU函数计算公式如下:

图3 卷积池化操作示意图

fReLU(x)=max(0,x)

(1)

2.2 生态系统三层架构

图4 生态系统神经网络三层架构

(2)

消费者则通过对输出结果和标准结果的比对,调节公式(2)中的参数选项,以找到更优秀的后代个体,实现种群内个体之间的优胜劣汰。

2.3 信息流传输流程

信息流在种群神经元内的传递过程,可区分为两个过程:一是输出数值计算;二是输出方向选择。信息流在种群神经元内的传递如图5所示。

图5 信息流在种群神经元内的传递示意图

(3)

通过公式分析,分解者的负反馈调节参数为ω、b、c,通过对比分析输出结果与标准结果,调节各种群内的个体参数值,进而实现生态系统的动态演进。

2.4 生态系统神经网络与标准卷积神经网络区别

通过对生态系统神经网络的整体构造,可知其与标准卷积神经网络具有很多相似点,如卷积层的构造,激活函数的选择,负反馈调节原理等;相比于标准卷积神经网络,生态系统神经网络的特异之处主要有:一是隐含层神经元数目的不确定性。相比于标准卷积神经网络的固定数目隐含层神经元,生态系统神经网络可根据输出结果的不同,使用分解者去除不必要的分解者种群神经元,或者增加新的种群神经元;二是隐含层神经元的层数增加。对应标准卷积神经网络的固定隐含层结构,生态系统神经网络由于必须具备复杂系统结构,因此至少设置3层的消费者层级,并可根据计算机性能设置5层以上的消费者层级,实现特征信息的非线性流动,增加生态系统的自组织和自我调节能力。三是由全连接架构变为有限连接架构。标准卷积神经网络采用了隐含层神经元的全连接架构,使得计算复杂度随着神经元数目增加呈指数级数增长,生态系统神经网络采用有限连接取代全连接,上级消费者只与有限数目的下级消费者保持连接,且下级消费者只能与单个上级消费者连接,因而降低了算法的计算复杂度。

3 实验分析

为了检验生态系统神经网络算法的优缺点,结合实际项目进行网络入侵检测,选取KDDCup99公开数据集作为实验对象,以文献[13]中提供的BP神经网络算法和文献[14]中提供的CNN神经网络算法作为对比算法,对算法的训练和预测性能进行综合比较分析。KDD竞赛是美国国防部高级规划署(DARPA)在MIT林肯实验室进行的入侵检测评估项目,共收集了9周时间的网络连接和系统审计数据,用以仿真各种用户类型以及不同的网络流量攻击手段,以模拟真实网络环境入侵检测算法的检测有效性。虽然年代久远(最早用于1999年的KDDCup竞赛),但KDDCup99数据仍然是网络入侵检测领域的标准化评估数据集,以此检验各智能优化算法的分类性能。KDDCup99数据集中,每条数据项由41项特征数据和1项标签数据组成,共区分为Nor、DoS、Pro、R2L、U2R五大类标签,具体标签含义如表1所示。

表1 KDDCup99数据标签含义表

为了有效检验算法的分类有效性,采用十倍交叉验证的方法组织实验,即以随机选择方式将数据集按标签类型分为10等份,每份子数据集中包含的标签数量相等,而后以其中1份子数据集作为测试集,剩余9份子数据集合并作为训练集进行检测实验,为了尽可能避免实验中的偶发因素影响,选取不同的子数据集交替作为测试集,共进行10次实验,取实验结果的平均值作为衡量指标。每组实验的训练集和测试集规模如表2所示。

表2 训练集和测试集划分规模

为了评估算法的检测精度和误差度,使用假阳性率FPR和检出率DR作为综合评估指标,相应计算公式如下

(4)

(5)

式中,TP表示真阳性特征数量,FN表示假阴性特征数量,FP表示假阳性特征数量,TN表示真阴性特征数量。

3.1 训练集实验分析

分别使用各神经网络算法对训练集的入侵检测学习,检测结果如表3所示。

表3 各算法在训练集中的检测结果比较(单位:%)

通过分析可知,三种神经网络算法中,本方法的综合检测假阳性率和检出率均高于另两种算法,具体指标中,Nor、DoS、Pro三项指标高于另两种算法,在R2L和U2R指标中和卷积神经网络持平。分析原因主要是由于另两种神经网络算法的全连接结构,使得对于不同输入特征数据的参数调节会改变所有的输出结果,这就在一定程度上降低了算法的学习效率和学习精度,本方法采用了有限连接结构,利用了生态系统的自组织和自我调节能力,相比于 标准神经网络算法具备更强的学习精度。

三种神经网络算法在相同训练集的情况下,综合对比学习时间如表4所示。

表4 各方法的训练时间分析(单位:s)

通过对比分析,BP神经网络的学习时间最高,卷积神经网络由于采用了卷积层特征压缩,时间相对缩短,但卷积时间的额外消耗,使得综合学习时间相较BP神经网络优势不明显。本方法的学习效率最高,主要是由于生态系统的单向有限连接的信息流传递方式,使得计算量相对前两种方法有所压缩,在负反馈调节时由于连接线路减少,产生的全局变化相较前两种方法较少,因而学习效率更高,虽然在隐含层神经元数量上,本方法远超过前两种方法,但综合算法执行效率依然较高。

3.2 测试集实验分析

将综合学习获得的三种神经网络应用于测试集检测算法的假阳性率和检出率,以判断算法的检测综合能力。三种神经网络与对应入侵方式的假阳性率和检出率对比结果如图6和图7所示。

图6 各方法在测试集中的假阳性率对比

图7 各方法在测试集中的检出率对比

通过对比分析可知,BP神经网络和卷积神经网络对于DoS攻击的检测效果相对较好,主要是由于此种攻击方式样本数量较多,特征提取充分,因而保持了检测优势,而本方法对于样本相对较少的R2L和U2R攻击方式的检出率和假阳性率较高,证明本方法在小样本学习过程中的特征提取和检测识别能力更强,也符合生态系统中自组织和自我调节能力较强的客观现象。在综合性能对比上,卷积神经网络检测效果优于BP神经网络,本方法检测效果优于卷积神经网络。

为了进一步说明本方法在小样本学习条件下的优势,选取不同规模的训练集进行检测准确率实验,分别使用100、500、1 000、5 000、10 000、50 000、100 000条数据进行神经网络训练,而后对同一组测试集进行检测实验,获得的检测准确率如图8所示。

图8 不同规模训练集条件下的检测准确率对比

通过对比分析可知,在小样本条件下,本方法的检测准确率明显高于另两种方法,随着训练集样本规模增大,三种方法的检测准确率在逐步缩小,但本方法的综合准确率始终保持优势,客观证明本方法的神经网络有广阔的应用前景。

在十倍交叉验证的基础上,为了检验本方法在未知实验数据中的检测能力,选取KDDCup数据中从未使用过的100条实验数据作为新测试集,用以检测三种方法的假阳性率和检出率,对比结果如表5所示。

表5 三种方法对于新测试集的检测结果对比

实验结果可知,本文提出的生态系统神经网络在对未知新数据的检测效果上,要优于BP神经网络,并相比于卷积神经网络的检测精度上也不逊色,且学习效率上具备明显优势。通过上述综合对比分析可知,在对新测试集的预测分析上,生态系统神经网络稍好于BP和CNN神经网络,从设计架构上看,生态系统神经网络的多层动态搭配的消费者层级架构产生了能够体现更多涌现特性的复杂网络结构,同时变全连接模式为有限神经元连接的模式又使网络的计算复杂度可控,保证数据训练和预测的时间消耗能够在忍受范围内。从训练和预测效率上分析,生态系统神经网络的时间消耗远小于BP和CNN神经网络,一方面是由于生态系统网络内部的有限连接减少了计算量,另一方面是每一层的神经元数目动态变化,使全局神经元的总体数目减少,从而减少了计算量。

4 结束语

本文借鉴了自然界中的生态系统内部运作原理,提出了一种基于生态系统原理的生态系统神经网络算法,并将其应用到网络入侵检测模型中,对于KDDCup99数据进行了入侵检测分析实验。实验结果表明,本方法对于网络入侵检测具备良好的检测精度和更高的学习效率,可作为标准卷积神经网络的辅助和扩展神经网络加以应用,具备广阔的应用前景。本文主要研究了生态系统神经网络的内部算法流程和实现机理,并在卷积核基础上改进了神经网络的全连接结构,实验表明有限连接和不确定神经元可代替全连接神经元结构,获取相同的学习效果和更高的学习效率,在今后的工作中,考虑对实验进行更深层次的研究论证。

猜你喜欢

神经元种群卷积
山西省发现刺五加种群分布
基于全卷积神经网络的猪背膘厚快速准确测定
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
AI讲座:神经网络的空间对应
仿生芯片可再现生物神经元行为
“最大持续产量”原理分析
由种群增长率反向分析种群数量的变化
这个神经元负责改变我们的习惯