基于深度学习的网络流量异常预测方法
2020-03-19黎佳玥刘一凡邹建文
黎佳玥,赵 波,李 想,刘 会,刘一凡,邹建文
武汉大学 国家网络安全学院 空天信息安全与可信计算教育部重点实验室,武汉430072
1 引言
随着近年来网络安全和人工智能的重要性日益增加,越来越多关于入侵检测系统(IDS)的研究正在积极研究如何结合深度学习的优势。
网络入侵检测系统(NIDS)被创建用来有效地防御各种类型的网络攻击,并进一步保护网络系统正常运行。目前,NIDS 主要通过分析网络关键节点的网络流量来识别恶意攻击行为。在过去几年中,深度学习在解决语音图像识别、对象检测和语义翻译等应用场景下的人工智能问题方面取得了重大进展。许多研究表明,在异常检测分类和预测方面,深度学习的表现已经能够优于传统方法。但是,IDS 性能高度依赖于功能设计,同时基于异常的IDS 具有较高的误报率,在实际应用中表现不佳。因此,针对NIDS 怎样能够准确表征网络流量仍是一个值得研究的问题。
同时,当下针对IDS 流量预测的研究较少,而在实际情况下,准确的时间序列预测和对预测不确定性的可靠估计对于异常检测至关重要。目前迫切需要采用有效的流量预测模型实现NIDS 网络安全事件的预警功能,以防止攻击事件对真实世界造成更加严重的危害。因此,一种能够预测网络状态并提供详细的流量特征信息的新机制应该添加到当前的NIDS 中,使得该NIDS在实时检测中可以根据预测网络安全事件发生的可能性做出相应的响应策略。
为了解决上述问题,本文提出了一种基于深度学习的网络流量异常预测方法。该方法通过训练来自NIDS遭受典型攻击事件的大规模网络流量公共数据集,用以预测来自网络流量信号的典型异常攻击事件出现概率。网络流量数据随时间记录,并包含时间和空间信息,因而可根据数据包时间戳排序成为连续性的时间序列。
为了计算网络安全事件发生的概率,本文提出的方法构建了由三个主要阶段组成的神经网络模型:在第一阶段,对NIDS 中网络流量数据进行时间序列预处理和长期短期记忆(LSTM)网络学习时间特征。在第二阶段,卷积神经网络(CNN)学习网络流量的空间特征。在第三阶段,基于前面步骤得到训练后的LSTM 模型用以预测后续时间戳中的网络流量时间序列,训练后的CNN 模型对该时间序列进行安全事件分类,用以估计下一时间段中网络安全事件的出现概率。整个特征学习过程是基于深度学习自动进行的。实验结果证明了NIDS 中对网络安全事件预警功能实现的可行性,将本文设计的预测模块加入到NIDS中能够在系统运行中有效减少异常网络流量的误报率,得到准确度较高的网络安全事件预测效果。
2 相关工作
2.1 入侵检测技术
入侵检测的目的是识别各种活动,尤其是恶意活动,它是目前保护计算机网络和系统最重要的策略。过去的三十年中,对IDS 的研究一直在积极进行并产生了大量成熟的应用,其中一些已经商业化。目前,根据观察对象的不同可分为两种类型的入侵检测系统[1]。
第一种技术是基于签名的入侵检测,称为误用检测[2]。该技术是基于已知特征和模式的知识检测攻击,而这些特征和模型也称为签名。它通过将这些签名与新检测到的网络流量进行比较来检测入侵行为。误用检测的优点在于它对已知攻击具有高检测率和低误报率,但它无法检测到任何未知攻击。
第二种技术是基于行为的入侵检测,称为异常检测[3]。它通过将异常行为与正常行为进行比较来捕获攻击,目前主要采用机器学习的方法实现。在这种方法中,首先设置目标环境中的网络流量,并用流量特性的数据结构实现数据存储,再基于特性结构利用有监督或无监督的学习方法建立识别模型。异常检测的优点是能够检测未知攻击,对于工业界和学术界都有很大的吸引力。
根据输入数据的来源,IDS 又通常被分类为基于主机的入侵检测系统(HIDS)和基于网络的入侵检测系统(NIDS)[4]。NIDS 收集并分析网络流量数据,并确定当前事件是否是正常活动。HIDS 由主机上的代理组成,该代理通过分析系统调用、应用程序日志、文件系统修改等方式来识别入侵。由于HIDS基本上使用存储在主机中的审计数据,因此它可以比NIDS 更准确地检测异常活动[5]。但日前互联网攻击变得越来越复杂,而NIDS可以使用关于系统整体网络信息的安全策略来执行入侵检测,更能有效地检测这些攻击,因此系统安全保障对它的依赖性更大。
NIDS中基于异常的检测方法是入侵检测领域的主要研究方向。该方法通过分析网络流量来学习正常和异常行为,并可以检测未知和新的攻击。近年来,大多数研究人员尝试将机器学习应用到入侵检测中,尤其是通过机器学习来解决高误报率的问题。同时,一些研究试图将深度学习应用于网络流量预测。许多研究表明,深度学习在异常识别和预测方面的表现已经能够优于传统方法。但是,NIDS性能高度依赖于功能设计,同时基于异常的检测方法具有较高的误报率,在实际应用中表现不佳。因此,针对NIDS 怎样能够准确表征网络流量仍是一个值得研究的问题。
同时,由于互联网攻击的分阶段广泛传播,NIDS具有预测网络安全事件并提前警告攻击功能变得愈加重要。但是,主流系统机制只有在网络攻击造成一定程度的破坏后才能进行响应,当前的NIDS 不能提前进行攻击检测预警。同时,目前针对NIDS 流量预测的研究较少,而在实际情况下,准确的时间序列预测和对预测不确定性的可靠估计对于异常检测至关重要。目前迫切需要采用有效的流量预测模型实现NIDS对未来网络安全事件的预警功能,以防止攻击事件对真实世界造成更加严重的危害。
2.2 深度神经网络与入侵检测
近年来,深度神经网络在需要大数据分析领域的各种场景中取得了大范围推广[6],引发了深度学习的热潮[7]。深度学习是机器学习中的一种算法研究分支,通过将线性或非线性模型转换序列组织为特定数据结构并不断地学习和收敛,训练出目标特征模型。
卷积神经网络(CNN)在图像和语音领域表现优异,其中实现手写数字识别的卷积神经网络LeNet-5模型在MNIST 测试集上取得了低误报率[8]。同时,循环神经网络(RNN)中长短时记忆网络(LSTM)克服了原始RNN对时间序列建模训练后梯度消失或梯度爆炸的问题,并通过长期状态保存和前向计算,使用基于反向传播算法训练时间序列预测模型[9]。通过在多个维度上提供大量与时间相关的序列数据,已经表明LSTM 方法可以通过非线性特征融合来模拟复杂的极端事件[10-11]。
近几年,一些研究已经在利用深度神经网络的优势来完成入侵检测任务。Wang 等[12]使用CNN 来学习网络流量的空间特征,并使用图像分类方法实现对恶意网络流量分类识别。Torres等[13]首次将网络流量特征转换为一系列字符,然后使用RNN 来了学习它们的时间特征,这些特征进一步用于检测恶意网络流量。Wang等[14]进一步使用CNN 和LSTM 学习流量的时空特征用以提高流量检测率。这些研究方法的共同点是单独使用CNN 或RNN 或两者结合,学习了单一或多种类型的网络流量特征。
2.3 时间序列模型与网络流量预测
在时间序列预测的研究工作中,以标准R 预测[15]包模型为代表的经典时间序列模型提供了单变量序列预测的通用方法。虽然有时间序列模型可以包含外生变量[16],但通常这些模型不仅需要手动设置时序和其他参数,而且具有维度诅咒问题和频繁重训练问题[17]。这对于数百万个时间序列来说是无法完成的任务,亟待解决。
为克服自动提取特征和频繁训练序列模型,一些研究将机器学习运用在流量预测的特征训练中。例如,Ye等[18]用马尔可夫链模型来学习和评估EWMA方法对入侵检测活动的预测。Shin 等[19]使用马尔可夫链对网络系统中的异常事件概率进行建模,有效地预测和检测网络入侵。但这些研究方法的共同点都是只能针对单一维度下的网络流量特征进行训练。
近几年,深度学习在时间序列预测领域上的成绩也受到了人们越来越多的关注。RNN 在某些任务需要能够处理序列信息时,相比于全连接神经网络和CNN 的单个输入处理,能发挥出对应的时间序列处理优势。RNN 改进结构长短期记忆网络(LSTM)是Hochreiter 和Schmidhuber[20]提出的一种体系结构。LSTM 和原始RNN 一样也具有循环连接,主要特点是在原始RNN 中添加隐藏层LSTM 单元,用于学习基于网络包向量序列的时间特征。LSTM 神经网络中对序列数据进行前向计算得到特征向量值,再反向计算出每个时刻的误差项并向上传播,最后使用梯度下降算法更新权重[21]。实验表明,LSTM通过算法结构设计克服了RNN训练中梯度爆炸和梯度消失的困难[22]。当前LSTM 主要应用于股市走向预测[23]、交通流量预测[24]以及电力负荷预测[25]等领域。
3 提出的方法
本章将详细介绍提出的网络流量异常预测方法。该方法利用深度学习方法在时间序列预测和空间特征分类中挖掘网络流量数据特征,实现预测入侵检测系统中攻击事件的发生概率。首先介绍融合了时间序列和图像数据的网络流量预测方法模型,然后解释了该结构下的预测网络模块和分类网络模块。
3.1 方法概述
本文所提出的预测方法模型主要由时间序列预测模型和攻击分类模型组成,如图1 所示。其中时间序列预测模块由LSTM 实现,攻击分类模型由LetNet 实现。该方法自动学习连续网络流量数据的时空特征,将训练得到的模型用于流量序列数据的预测和分类,旨在提高网络安全事件分类效率并满足NIDS对安全事件的预测要求。
图1 整体方法模型
该模型主要包含三个步骤。首先,对实时收集到的t 时段下IDS 的实时流量数据进行数据的预处理,基于时间序列的预测器根据Seq()t 预测下一时段网络流量序列Seq_p( )t+1。然后,对预测的网络流量序列做网络安全事件分类,得到下一时间戳下网络安全事件的发生概率,有助于系统提前做出响应。具体模块在后面进行介绍。
3.2 使用LSTM学习时间特征
RNN 在传统前馈神经网络进行扩展实现了循环连接,因而擅长对序列进行建模。其中,RNN 使用反向传播算法(BTPP)来处理可变长度序列输入[26]。将输入序列、隐藏向量序列和输出向量序列分别用In、Hid 和Out表示,即输入序列为,隐藏向量序列和 输 出 向 量 序 列,序列计算方法如下:
其中,t=1,2,…,T,σ 是非线性函数,W 是权重矩阵,b是偏置项。训练过程中在每个时间步都保存输出误差梯度。但当误差传递很多时刻后在向前传播,会导致误差项的值增长或缩小非常快,这样会导致相应的梯度爆炸或梯度消失[27]。
LSTM 神经网络在原始RNN 中添加隐藏层LSTM单元,用于学习基于网络包向量序列的时间特征,如图2所示。
图2 LSTM单元结构
LSTM 关键在于如何控制长期状态的添加和权重,它使用门来控制LSTM 单元输入中信息流的加权函数。图2 所示的LSTM 单元有三个门,即输入门、遗忘门和输出门,它们分别控制通过不同阶段中神经元和神经网络的信息流。
在时刻t 下,输入为xt,隐藏层输出为ht,前输出为ht-1,单元输入状态为,单元输出状态为Ct,前状态为Ct-1,三个门的状态为it、ft和ot。LSTM 单元中Ct和ht都被传输到下一个神经元。为了计算Ct和ht,按顺序使用以下等式。
首先,计算三个门的状态和单元输入状态。输入门决定输入中的哪些值以更新存储器状态:
遗忘门决定从单元格中丢弃哪些信息:
输入门和遗忘门用于更新内部状态。输出门根据输入和单元的内存决定输出内容:
输出门限制了单元实际输出。则当前输入的单元状态为:
其中,Wxi、Wxf、Wxo、WxC是连接xt到三个门和单元输入的权重矩阵,Whi、Whf、Who、WhC是连接ht-1到三个门和单元输入的权重矩阵,bi、bf、bo、bC是三个门和单元输入的偏差项。σ 表示门使用的激活函数,其中输入门和遗忘门为sigmoid函数,输出门为tanh函数。
然后,计算单元输出状态:
时间序列是在等时间间隔下某类变量的有序序列,具有自相关性和时序性。序列预测正是利用了时间序列特点,对训练模型按照时间顺序保留学习结果并进行排序,因而可从一组时间序列中估计数据流的未来变化行为和发生概率。
为了进行网络流量预测,该模型使用LSTM 单元构建了如图3所示的LSTM神经网络。在时间t,网络的输入是观察到的历史数据xt,输出是预测的未来数据。通过上述LSTM计算,得到ht,计算网络输出:
其中,W 是输出层和隐藏层之间的权重矩阵,b是输出层的偏置项。该网络使用了具有多层LSTM 单元的编码器-解码器框架(图3)[28]:将提取特征以时间序列{xt}输t入,预测网络由编码器和解码器组成,其中编码器读入前T 个时间戳{ x1, x2,…,xT}对LSTM 单元进行训练,解码器在{ xT-F+1,xT-F+2,…,xT}通过训练好的LSTM单元输出预测的下一时间序列{ xT+1,xT+2,…,xT+F},将其作为预测结果输出。
图3 LSTM神经网络结构
综上所述,本方法使用了双层LSTM 神经网络作为该模型的预测网络,整体框架如图4 所示。将NIDS 的网络流量数据集通过数据预处理构造为包含多个连续流量数据的时间序列,每个训练样本由相邻时间戳的两个时间序列组成。通过构造好的LSTM 神经网络模型对样本集进行训练,得到能够预测下一时间戳的时间序列预测器。该预测方法可用于对NIDS实时流量的观测进行下一时间戳网络流量数据的预测。
3.3 使用CNN学习空间特征
卷积神经网络(CNN)在计算机视觉领域中表现优秀[29],在自然语言处理(NLP)领域也有一些成功的应用[30],适用于训练多维数据和具有强烈局部相关性的数据[31]。其中,1D-CNN 适用于顺序数据和语言等数据,2D-CNN 适用于图像和音频谱图等数据,3D-CNN 适用于视频或体积图像等数据。
CNN 能够学习空间特征,由若干卷积层、池化层和全连接层组成,一般的网络结构如图5 所示。经典模型LeNet 是卷积神经网络的提出者LeCun 在1998 年提出,用于解决手写数字识别的视觉任务。如今各大深度学习框架中所使用的LeNet都是简化改进过的LeNet-5(-5表示具有5个层)。
在所提出的方法中,CNN 应用于整个网络流量识别,如图6所示。本文方法中,将拥有n维特征项的流量数据通过独热编码(OHE)后转换为单个m×m 的流图像,其中多余位数置0。图像通过训练好的CNN 模型进行识别,最终输出代表分类编码的流向量:由多个标签向量组成,这些分组向量表示各流量包的分类。
3.4 方法分析
本文提出的网络流量异常预测方法,首先利用了卷积神经网络对图像数据在空间特征提取上的优势,将网络流量数据进行图像化处理后进行空间特征训练和安全事件识别,解决NIDS 中异常网络流量误报率高的问题;然后结合长短期记忆网络对时间序列的训练场景,将网络流量预测处理为时间序列预测过程,进行时间特征训练和流量数据走向预测,提供了NIDS 对网络流量进行预测的可行性;最后将两种训练模型结合,对当前网络流量进行预测识别,实现实时自动化监控NIDS 的网络流量异常预测功能。
图4 网络流量预测网络架构
图5 CNN神经网络结构
图6 攻击事件分类网络架构
该方法中流量异常识别准确度依赖于训练数据的数据规模大小,安全事件类型识别准确性依赖于训练数据中流量类型的多样性,流量变化预测的准确度依赖于数据规模大小和时间步长选取。当NIDS中受到全新的攻击模式时,可以实现对当前网络流量异常识别的高准确度,但无法识别安全事件类型以及当前攻击时间下未来流量的变化,此时需要重新收集此类安全事件流量数据,更新预测方法模型。
4 实验和分析
本章实验是为证明本文所提出的网络流量异常预测方法的可行性所设计,对NIDS 中的网络流量进行了异常识别和预测模型训练和准确性验证。所有研究实验均在个人笔记本电脑上进行,该电脑具有Intel Core i5-5200U CPU@2.20 GHz,8 GB 内存的配置,并且不使用GPU 加速。设计的两组实验为基于LetNet 的安全事件分类和基于LSTM 的流量特征预测,它们分别对应本文方法中的网络安全事件识别和网络流量预测,流量类型包括normal、DoS、DDoS和PortScan。
4.1 数据集介绍
2017 年,加拿大新布伦瑞克大学(UNB)信息安全卓越中心(ISCX)发布了一个名为CICIDS2017 的入侵检测数据集。CICIDS2017 涵盖了常见的安全网络事件的所有11 个必要标准,如DoS、DDoS、Bruteforce、XSS,SQL 注入、Infiltration、PortScan 和Botnet。通过使用加拿大网络安全研究所网站公开提供的CICFlowMeter 软件,数据集被标记为正常和异常并被提取出了80 多个网络流量特征。根据ImanSharafaldin[32],在实验中选择包含了表1 中显示的每种攻击对应最佳选择功能特征值,共计33个。
在进行实验之前,还需要对CICIDS2017 数据集进行预处理。标签项为攻击类型的流量总数统计如图7所示,其中Bruteforce、Web 攻击和Botnet 流量数据较少,在实验中不单独做训练。
因为CICIDS2017未被提供商划分为训练和测试数据集;因此,实验中分别使用80%和20%的比例将其划分为训练和测试数据集。此外,这个比例最近被许多研究人员使用。表2 显示了CICIDS2017 数据集的预处理结果。
图8~11 是该数据集中以四种流量特征项为代表的四种网络流量特征随时间变化的曲线图,即分别对应特征项Bwd Packet Length Std、SubflowFwd Bytes、Flow Duration和Init_Win_bytes_forward,每张图中(a)~(d)分别对应Benign、DoS、DDoS 和PortScan 四种类型的时间连续的1 000 个网络流量数据。从图中可以看出,不同类型的流量在相同特征项中呈现出了不同的分布规律。
表1 特征选项
图7 CICIDS2017记录的攻击总数分布
表2 CICIDS2017数据集预处理结果
4.2 实验结果和讨论
4.2.1 基于LetNet的安全事件分类
图8 特征项Bwd Packet Length Std下网络流量数据变化
图9 特征项SubflowFwd Bytes下网络流量数据变化
图10 特征项Flow Duration下网络流量数据变化
图11 特征项Init_Win_bytes_forward下网络流量数据变化
表3 LetNet模型主要参数
通常情况下,准确度(ACC),检测率(DR)和误报率(FAR)被用作IDS 评估的度量。准确度用于评估系统的整体性能。DR表示IDS模型检测到的入侵实例的比率。而FAR是错误分类的正常情况的比率。基于混淆矩阵度量方程如下(TP:真阳性,TN:真阴性,FP:假阳性,FN:假阴性):
因此,NIDS 能以较低的误报率获得高准确度和检测率。实验中使用多个卷积层和多个连接层来提取网络流量特征并传递给全连接SoftMax 层,该层的输出是输入会话或输入流的概率分布。表3 描述了实验使用的2D-CNN模型LetNet中每一层的主要参数。
实验首先对网络流量数据按照特征项进行了归一化处理,经过OHE 模块转化为像素大小为m×m 的矩阵图像。图12 中显示随着轮询次数增加,该CNN 模型对攻击类型分类的loss值和acc值的变化趋势。从图中可以看到当轮询次数达到7 时,该模型的分类质量趋于稳定,到达20 次轮询时loss值为0.031 2,acc 值为0.997 0,如表4所示。
经过测试评估分类效果,表5 显示了每种攻击和整体攻击分类的准确率、检测率以及误报率。实验中将为识别为Benign 的对象都分类为anomaly,因此存在部分混淆矩阵变量有未出现对应分类实例的情况。总结了表5中的结果,总体准确度为99.57%。在总攻击实例中检测到真实攻击流量的百分比为99.52%,将正常流量分类为异常的总体误报率为0.26%,表现出了很好的网络安全事件识别性能。
图12 CNN模型训练的时间分布
表4 不同epoch变化下的模型评估值
4.2.2 基于LSTM的流量特征预测
为了保证预测性能,实验构建时间序列预测LSTM需要定义每个主要神经网络参数。关键参数包括输入向量和输出向量维度、h的隐藏层数、每个隐藏层中的隐藏单元数以及训练的batch。每个时间步的网络输入和输出的维度等于每个时间段中的行进时间的维度。输入层大小取决于用于预测的前一个时间间隔,其他参数也会显著影响模型的精度。
表5 使用CNN的不同攻击类型的检测率比较%
为确定每个步骤的隐藏层的维度,首先进行实验精确度对比以确定,结果表明在给定输入维度的情况下隐藏层数为2,隐藏单位的数量均为64 时R2平均值最大,即预测值最接近真实值。考虑到流量包时间序列收集的时间延迟,实验使用训练模型预测最近观察到的多个时间段的流量特征时间序列以查看模型的执行情况,观测数据为{… , xt-1,xt} 以此预测下一个时间戳的时间序列xt+1。
在实验中使用正常训练数据集时,首先将所有实例进行归一化。输入向量维度为(样本数、时间步长、特征数),输出向量为下一时间戳的特征值。其中将LSTM体系结构应用于隐藏层,使用softmax输出层,优化器为Adam,损失函数为均方误差(MSE)。
为了评估所提出的模型的有效性,实验使用三个性能指标,即平均绝对误差(MAE),均方根误差(RMSE)和R-Squared(R2)。它们被定义为:
在模型评估部分设置了预测多个时间间隔的LSTM 模型,其中的主要参数为:添加2 层隐藏层,每层有64 个神经元,输入变量和输出变量是不同时间步长( t-1) 和(t )的特征,损失函数采用l2_loss,优化算法采用Adam。表6 是在不同输入输出时间步长比例和batch下,以DDoS 为代表的4 个主要流量特征训练结果的R2值,结果显示实验中模型batch 最优设置为128,时间步长(输入步长∶输出步长)最优为4∶1。
为了查看LSTM 神经网络的预测性能,表7 中给出了实验预测包含不同异常流量类型的RMSE、MRE 和R2,选取的流量特征项为Flow Duration、Bwd Packet Length Std、SubflowFwd Bytes、Init_Win_bytes_forward。从表中数据可以看出,在DoS流量数据中Flow Duration的R2为0.87,预测模型训练结果最优,而在DDoS 流量数据中为SubflowFwd Bytes,它的R2为0.695。因此,不同类型的流量类型应该对流量特征项预测分配相应的权重。
在总体流量数据中Flow Duration 和Bwd Packet Length Std 的R2分别为0.735 和0.762,均高于其他单个流量类型的预测效果。由此可得,流量数据类型的规模和数据量的大小对预测模型的训练效果有显著的影响。图13~17为不同流量类型中四种特征的预测效果。
5 结束语
随着入侵预测在网络入侵检测系统中的重要性日益突出,本文提出了一种新的基于深度学习框架的网络流量分类预测方法,可以有效地预测潜在的网络安全事件出现概率。该方法包括三个主要阶段,使用深度学习进行评估建模。首先,对网络流量数据进行时间序列预处理和长期短期记忆(LSTM)网络学习时间特征。接下来,卷积神经网络(CNN)学习网络流量的空间特征。最后使用训练后的LSTM 模型预测出后续时间戳中的网络流量时间序列,训练后的CNN 模型对该时间序列进行网络安全事件分类,用以估计下一时间段NIDS 受到攻击的风险概率。通过使用CICIDS2017数据集的实验评估所提出方法的性能。本方法实现了对多种网络攻击具有高检测性能的同时,对未来安全事件出现概率进行了有效地评估,为NIDS 预警安全事件功能证明了可行性。
表6 DDoS的模型性能统计
表7 模型性能统计
图13 Benign预测与实际的比较
图14 DoS预测与实际的比较
图15 DDoS预测与实际的比较
图16 PortScan预测与实际的比较
图17 所有类别预测与实际的比较
因此,未来的工作预计所提出的方法将与现有的NIDS有效地集成,能更好地实现安全事件的预警功能。同时未来还需要实现自动找到本文模型的最佳参数,并将组合各种概率技术以提高NIDS网络安全事件预测和分类的准确性。