基于LSTM与改进残差网络优化的异常流量检测方法
2021-03-07安琪
安琪
(中国铁道科学研究院集团有限公司通信信号研究所 北京市 100081)
互联网技术应用的范围越来越广泛,在工业测量领域、道路交通控制领域、铁路以及制造行业都得到了广泛的应用,整体的工作模式以及设定的标准都越来越向智能化和科学化的方向发展,使得各个行业在发展的过程当中联系不再单一,互联网以及物联网和技术在整体发展的过程当中,推动了工业系统整体的优化和升级。随着网络环境发生了比较大的变化,工业网络也面临着安全方面的威胁,站在各种信号系统研究的角度,需要进一步推动工业信号系统的稳定可持续发展。现有的网络安全防护技术还存在一些问题,为了满足大数据量的一些需求,需要制定与之相匹配的网络设置内容,由于各方面的通信比较多,很容易导致通信行业出现安全问题。
1 互联网发展相关内容
时代在快速向前发展,各个国家越来越重视网络安全信息,针对网络信息所遭受到的攻击进行了系统性的检测,制定更加科学和全面的防御方案。如何发现网络攻击当中所存在的问题是一项重要的工作,针对网络异常的流量检测以及相关的分类是现阶段所需要攻破的主要方向。异常流量以及漏洞的攻破问题越来越多,通过对这些问题展开深度的学习,也可以对网络异常检测的情况进行深入的了解。传统的检测方法针对网络流量再进行检测的过程当中,泛化能力和特征选择比较差,还需要进行整体的技术优化和创新。在未来的发展过程当中,需要找到一种可以对异常流量进行精准区分的检测技术,真正的去解决信号网络当中所存在的问题。在网络安全工作开展的过程当中,异常流量的检测一直是重要的组成那种本篇文章,对网络异常流量检测的大致方法进行了分析和研究,针对处理方法当中所存在的问题进行了分析,希望可以对这些问题进行有效的改进。针对网络流量的可以使得异常流量检测工作的效率更高,通过这样的方式检测的准确率也会有所提升,将现有的检测方法和宝宝数据进行充分的结合,展开一系列的人工分析和规划处理,可以强化整体的安全效果。通过机器设备可以学习异常中的检测的相关方法,了解网络数据的相关特征,具体研究网络攻击流量特征的一个乱排序和高时序的问题。转换流量特征之间的同义词,在文本词库里面找到有关于流量方面的信息,将多种检测方法充分的结合在一起,从而可以选择多模型网络异常流量检测方法[1]。通过系统性的分析可以发现,有关于机器学习方法或者是神经网络模型都需要展开关于网络流量的特征训练,根据分类器完成后续的检测工作。大部分研究工作在开展之前都没有针对检测的数据进行预处理,这就导致前期的预处理工作只是对数据进行简单的统一处理,以至于这些数据还是存在一定的冗余性。针对网络流量数据在进行规划处理的过程当中,可以发现网络数据样本原有的一些特征,进一步对数据进行最优化的处理强化样本的作用,最终可以出现数据维度的爆炸,这就使得恶意流量的特点或者是语义特点无法得到保留。现阶段所应用的神经网络方法,在具体实施的过程当中会对缺点进行再塑造,这样会提高模型训练过程当中的丢失率,整体的训练性能比较一般。
2 相关理论
2.1 网络流量特征属性构建
在网络流量监测工作开展的过程当中,会对时间窗口进行固定,每一个特定的地址都被抽象为聚合流,设定一个特殊的集合,在这些集合当中会设定多个IP地址,每一个地址都会有统计特征属性。本篇文章会应用源IP地址的特征属性,从而可以构建一个属性阵,在其中会设定特殊的符号代表源地址的特征属性。IP地址之间会具有一定的相似性,流量之间也会存在一定的关系,通过了解IP地址的相似性,可以对邻接矩阵进行构建。在连接矩阵当中会存在某个元素,用特定的方式表现两种因素之间所存在的相似性,如果不存在这种特定的方式,则说明这两种元素之间没有相似性。在构建属性矩阵主模式的过程当中,需要建立一种从属性矩阵当中所提取的列模型,通过这样的方式可以组建新的属性矩阵。随着网络层数的增加,模型在后续训练的过程中出现拟合问题的频率也会有所增加,针对这种情况还需要开展后续的检查工作。特定的矩阵代表属性矩阵,通过了解不同元素之间所存在的差异,可以对网络的异常流量进行检测,从中可以看出,网络所存在的异常流量现象被描述为一个大量的IP地址,在这个IP地址当中可以找出一个异常的地址集合,在这个结合当中大多数的IP地址会具有比较明显的差异性。
2.2 LSTM网络
在开展深度学习当中,可以进一步了解循环神经网络,该方法针对于长时间的处理长序列数据具有非常明显的效果。序列数据的样本比较大,而且所处的环境较为复杂,在开展模型训练的过程当中很容易出现梯度消失或者是爆炸。本篇文章对LSTM模型当中的长短期记忆模块进行了分析和研究,希望可以通过这样的方式解决上述所出现的问题。LSTM本质上是一个门限,在这个模型当中会隐藏多层的门,其中的一个门会对细胞状态整体的运行情况进行参数的更新,从而可以确保检测网络可以进行自循环权重的变化。当模型的参数没有发生变化的时候,在不同的时间节点可以了解到不同的积分尺度,这些数据对于解决网络梯度和爆炸问题都具有重要的意义。如图1所示,LSTM网络是由4个独立的结构组成的,其中有一个为细胞状态,其他三个构成了主体结构[2]。
图1
实际网络异常流量检测工作在整体开展的过程中,如果网络的环境过于复杂,会导致LSTM在训练的过程当中出现误差或者是样本的泛化能力比较弱的问题。通过对训练集的偏差进行了解,可以有效的扩大,训练的样本选择最适合的特征优化方案对于问题进行解决。针对于具体的问题,在进行解决的过程当中,如果选择的深度不恰当或者是方差比较大,这些问题都无法进行正则化的处理,也会影响到后续的学习效率。通过了解参数范数的乘法方法可以对LSTM模型进行正则化,更加直观的了解目标函数,在一定程度上也可以解决方差过大的问题。如果检测数据所存在的最高方差要低于正则化条件下的方差,那么还需要对后续的实践方案进行整体优化,随着学习效率在不断的提高,方差的检测平均值会保持在基本不变的一个状态。
3 基于LSTM与改进残差网络优化的检测模型
在上述的分析当中,通过对LSTM网络相关的理论进行研究,可以进一步分析流量检测的原理,在此之后还需要构建基于LSTM和改进残差网络的非常流量检测模型。模型检测工作在整体开展的过程当中,主要的思路就是需要对网络的数据进行预处理,最终会得到输出的数据,在输出之后可以作为三层堆叠LSTM网络的输入特征优化,从而可以得到另一个数据参数,同时将这个参数作为最终所得到的数据,得到的输出数据会进入到残渣网络当中,相关系统会对此数据进行优化特征的提取,该数据的后续运行的过程中会经过两个路径。第一条路径就是Dense1层,输入的数据会和输出权重相乘,利用归一化处理可以和激活函数进行整体优化,从而会降低生成网络所存在的缺陷,在经过以上处理之后就会进入到Dense2,此时需要将数据和权重进行相乘进而得到新的数据。第二条路径就是进入到残渣差的神经网络当中,作为新的数据输出从而可以获取两条路径,这两条路就相见了然后经过激活函数,最终就可以得到输出的结果。
3.1 三层堆叠LSTM网络构建
在最初建设的过程当中,需要构建三层堆叠LSTM,根据上述所优化之后的LSTM网络,可以连续利用多个LSTM模型,从而可以设计出三层堆叠的LSTM结构。通过多层堆叠可以解决单层LSTM网络提取特征适应性弱等问题,前期工作在开展的过程当中,需要了解前期特征优化以及预处理的相关数据,将这些数据集成样本之后,可以更好的应用三层堆叠LSTM模型,在提取的相关数据当中可以融入不同的深度特征。样本特征在进行预处理之后,会存在一个数据,需要通过256个单元第一层LSTM才可以得到一阶特征,这些特征会被陆续传入到第二层LSTM模型当中。特征被传入到第三层LSTM模型当中时,在经过Dropout可以对神经元进行整体优化,优化工作的完成之后,第二特征的相关数据就会传输到第三层LSTM结构当中。不同深度的特征会和数据进行不同的合并,从而可以获取不同深度特征的数据,这些数据也会被传输到不同的单元LSTM当中,最终的数据也会对隐藏层的状态进行优化和调整。LSTM在最后时刻会对正常的隐藏层状态数据进行分析,当相关的数据被传入到最后一层的时候可以获得32维特征,在最后一层Softmax还会展开一系列的分类,进而可以对不同的元素进行目标类的汇总[3]。
3.2 基于Inception的改进数据池化层
LSTM网络具有梯度消失和过拟合的弱点,除此之外也无法对网络的深度进行确定,传统的检验方式所耗时间过长,无法满足时代的发展需求。本篇文章对残差神经网络进行了分析,希望可以构建全连接神经网络。了解残差神经网络的结构特性,从中选取一条有效的路径,可以从根本上降低路径选择的难度,该方法可以进一步加深神经网络的整体结构,在整个过程当中并不会出现过于复杂的过拟合现象,也不会存在梯度消失问题。通过分析残差网络的结构图,可以进一步看到三层堆叠网络的输出情况,与此同时需要记录残差输入和输出情况,进一步了解输出的具体情况。为了对LSTM网络进行优化,根据模型整体的建设情况,会形成一个恒等的映射函数,从而可以对LSTM函数进行分析。在最初处理样本数据的过程中,需要对传递的信息进行权重设计,进一步了解卷积层的核大小,对残差网络进行优化升级,在此过程中需要设计快捷链接拟合,通过函数可以对残差映射函数进行表示,最终可以获取相关的尺寸。在研究相关模型的过程当中,需要对模型的输出情况和输入情况进行样本的重新构建,展开系列性的分析和研究,从而可以将最底层的误差传递到上级结构,不断地进行重构学习,进而可以有效减小误差,从根本上解决残差网络训练过程中存在的梯度消失问题。在优化模型的过程中需要应用到传统残差网络结构,分析样本整体的数据,其中会包括原始池化层,具体如图2所示。
图2
为了可以将Inception的结构充分体现出来,本篇文章需要对整体的结构进行分析和研究,必要的时候可以付以加权,整体的比值需要保持在1:2,针对整个结构在进行整体优化的过程当中,还需要对残查结构进行连接。通过Inception可以对后续的数据池化层进行特征提取,强化整体的训练效果[4]。经过上述内容表达之后,可以进一步对结构开展信息调整工作,方便日后开展信息特征提取工作,确保卷积层的加入会进一步激活系统函数,在之后调整的过程当中需要对各种结构的分析特征进行融合,了解卷积层的优化提取特征。后续工作在整体开展的过程中,需要对网络层数进行分析,以便于可以结合实际情况对网络体系进行优化,使整个网络系统可以满足实际的工作需求。随着网络层数的增加,模型在后续训练的过程中出现拟合问题的频率也会有所增加,针对这种情况还需要开展后续的检查工作,反复对系统进行优化,多次模拟结构运行的实际情况,解决系统的拟合问题。模型训练的过程中,如果出现了过拟合问题,会影响到后续的网络深度,也会干扰最终的模拟效果。残差连接在进入到系统之后,会在第一时间应用到最大池化层,接着就会对系统当中的数据开展特征提取。
4 结束语
综上所述,本篇文章基于LSTM和残差网络优化研发了异常流量检测方法,利用该方法可以有效提高检测方法的准确率、科学性,降低了检测数据的误报率,可以对相关的参数进行优化。检测模型在最初建立的过程中,会针对公开的网络数据进行收集,汇总分析之后还需要对相关的数据进行保存。网络数据集NSL-KDD与开源WAF需要对数据集开展验证,在验证的过程中得出了相关的结论,三层堆叠的LSTM网络和单层的LSTM网络相比,三层堆叠的LSTM网络性能会比较好,可以有效提高单层网络的适应性,
从根本上解决适应性弱的问题。了解残差神经网络的结构特性,从中选取一条有效的路径,可以从根本上降低路径选择的难度,该方法可以进一步加深神经网络的整体结构。为了对LSTM的问题进行解决,需要在Inception结构的基础之上开展残差设计,从而可以对结构系统问题进行解决。在开展二分类实验或者是多分类实验的过程中,需要设定各种优化之后的评价指标,结合实际工作的内容对实验流程进行优化,在其中还需要引进机器学习模式,提高实验工作的严谨性和科学性。