小样本条件下列车通信网络攻击样本生成方法
2023-12-21王立德闫海鹏
岳 川,王立德,闫海鹏
(北京交通大学电气工程学院,北京 100044)
随着列车通信网络(TCN)对通信速率及智能化需求的不断增加,基于以太网的列车通信网络(ETCN)因其带宽高、兼容性强及开放性好等优点,正逐步成为现今智能列车的首选网络架构[1].但ETCN的应用给列车带来通信便利之时,也引入了诸多网络安全隐患[2].作为基础性公共设施,列车的网络安全至关重要,应当采取有效的措施来提高其安全防护能力.
入侵检测在网络安全领域扮演着重要的角色,可以发现网络入侵行为并发出告警[3].近年来,深度学习已成为入侵检测方法的主流选择,其优势发挥通常是以充足的数据样本为基础,但在入侵检测领域,小样本问题(模型训练时攻击样本数量过少)仍然阻挠深度学习方法发挥其应有的检测能力.网络攻击多为偶发事件,攻击报文数量往往有限,对于列车通信网络,攻击者更加追求“悄无声息”地入侵,攻击样本往往数量更小,小样本问题更加凸显,使模型没有充足的信息可以学习.同时,由于正常报文数量巨大,也会进一步导致类不平衡问题,即训练数据中各类别分布不均衡,导致深度学习模型倾向于学习正常样本的特征,而轻视关键的攻击样本.
数据增广是解决小样本问题的主流方法,即利用特定方法扩充小样本数据的数量[4].传统的数据增广方法主要为过采样方法,例如:文献[5]使用合成少数过采样法(SMOTE)来扩充小样本数据,提升了入侵检测的准确率;文献[6]提出一种基于聚类簇结构特性的综合采样法,能够生成样本分布结构特性保持的均衡数据样本.上述方法在面对入侵检测的小样本问题时取得了较好的效果,并且具有可解释性强、机制简单的优势,但也正因为其机制较为简单,生成样本的质量不够突出,容易导致有效信息的丢失及模型过拟合.生成对抗网络(GAN)[7]是一种生成模型,因其强大的数据生成能力已被广泛应用于多个领域的数据增广任务中.对于入侵检测的小样本问题,一种更为新颖的解决思路是使用GAN 来生成高质量的网络攻击样本:文献[8]提出了一种基于GAN 的攻击样本生成方法,将生成的样本应用在基于CNN 的入侵检测模型中,能够有效地提升模型的准度;文献[9]对传统GAN 进行了改进,提出了一种基于不平衡生成对抗网络(IGAN)的攻击样本生成方法并应用于点对点模式(ad-hoc)网络的入侵检测任务中,有效提升了入侵检测的检测准度.上述方法虽取得了优异的表现,但皆有不同的适用场景.如何将GAN 有效地应用于ETCN 场景仍是一项具有挑战性的任务,需要结合ETCN 中攻击数据的实际特点对方法进行适应性的改进设计.
针对ETCN 入侵检测的小样本问题,在传统GAN 框架基础上,本文提出一种改进的生成对抗网络(GMCW-GAN),用于生成高质量的ETCN 网络攻击样本.实验结果表明,本文提出的方法能够生成有效的ETCN 网络攻击样本,可以在小样本条件下提高基于深度学习的ETCN 入侵检测的检测准度,进而增强ETCN 的安全防御能力.
1 GMCW-GAN 样本生成方法
首先,分析将传统GAN 应用于网络攻击样本生成任务时存在的主要缺点,在此基础上,介绍GMCW-GAN 的主要改进内容;其次,设计GMCWGAN 中生成器与判别器的内部网络结构.
1.1 对传统GAN 的优化改进
GAN 是Goodfellow 等[7]于2014 年提出的一种基于可微生成器的生成式建模方法.GAN 由2 部分组成:生成器G与判别器D,通过对抗训练的方式使生成器产生的样本服从真实数据分布.该训练过程是一个0 和博弈问题,即生成器与判别器各自的收益等于对方的损失,当训练接近纳什均衡时,模型达到最优.其目标函数如式(1),GAN 的整体优化目标可形式化表示为
传统GAN 存在3 项缺点:1)生成器的输入通常为符合高斯分布或均匀分布的随机变量,然而,在实际应用中,这2 类分布的表达能力较为单一,会从模型的初始采样环节对生成样本的初始数据形态产生约束,最终影响生成样本的多样性;2)生成过程中,生成样本的类别不受控,表现为将GAN 应用在多类别的生成任务中时,无法按需指定其生成特定类别的样本;3)生成器的优化目标等价于最小化与pr(x) 之间的JS(Jensen-Shannon)散度[7],当分布之间没有重叠部分时,将导致生成器梯度消失,从而无法通过训练进一步优化生成器.
对于ETCN 入侵检测的攻击样本生成任务,缺点1 会导致生成样本的多样性不足,从而限制其在入侵检测模型训练环节中的促进作用;缺点2 会导致生成样本的类别难以控制,从而增加样本生成模型的训练难度与成本;缺点3 会导致生成样本的真实性不足,不能够充分模拟真实的网络入侵数据.
面向ETCN 入侵检测的攻击样本生成需求,本文设计了一种样本生成方法GMCW-GAN,其整体结构见图1.该方法在传统GAN 的基础上从采样策略、约束条件、损失密度3 个方面进行改进,以克服上述缺点.
图1 GMCW-GAN 的整体结构Fig.1 Overall structure of GMCW-GAN
1.1.1 采样策略改进
传统GAN 从高斯分布或均匀分布中采样生成随机变量作为其潜在空间的先验分布,这种采样方式在一定程度上约束了生成样本的多样性.为解决这一问题,GMCW-GAN 采用具备多模态特性的高斯混合模型(GMM)[10]来替代传统的一元高斯分布,从而更好地契合真实训练样本的内生多模态特性,增加生成样本的多样性.
GMM 由N个高斯分量加权求和组成,每个分量为1 个一元高斯分布,可将GMM 形式化表述为
式中:g(x|µi,Ci) 为单个随机潜变量依从的S元高斯分布的概率密度函数;µi为均值向量,µi∈RS;Ci为协方差矩阵;λ={ωi,µi,Ci} 为GMM的参数,ωi为第i个高斯分量的权值,且
对于ETCN 攻击样本生成任务,在没有先验知识时,可认为GMCW-GAN 潜空间中的高斯分量具有均等权值,则可令ωi=1/N,因此,潜空间需要计算的参数可约简为 λ={µi,Ci} .由于直接从GMM 中采样得到随机变量的过程不可导,无法参与反向梯度传播来更新参数 λ,因此,GMCW-GAN 通过重参数化技巧解决该问题,即首先从正态分布N(0,1) 中采样得到 ε,并按式(3)计算得到随机变量z.
该过程在保持潜在变量随机性的同时,将随机性与参与训练的参数分离,确保GMM 的参数 λ 可以通过反向传播来动态更新.
1.1.2 约束条件改进
传统GAN 的生成过程自由度过高,其生成的样本不可控.为解决该问题,GMCW-GAN 引入样本条件约束技巧,通过给定相应的样本类别标签约束增强生成过程的可控性.
在GMCW-GAN 中,令真实目标样本的类别标签y为样本条件约束,通过给生成器和判别器的输入分别增加约束x|y与z|y来实现.增加了样本条件约束后的优化目标改写为
改进后,可以通过改变输入样本的类别标签y来控制模型生成所需的网络攻击样本.
传统GAN 通过JS 散度来衡量
沃瑟斯坦距离可度量高维空间中的数据推动距离.面对高维的网络攻击样本,将数据从pr(x) 推向的过程存在多种移动路径,每种路径下,将数据全部推至目的分布的总代价B(γ),如式(5)所示.
将式(5)代入式(6),可以等价地将W(pr,pg) 表示为
求解式(7)的过程等同于求解一个线性规划问题,面对现实中复杂的网络攻击数据分布,直接对其求解是难以实现的,因此,通过求解其对偶问题[12],等价地得到新的函数表达式为
式中:s up 表示取上确界,L≤1 表示函数应服从1-Lipschitz 约束.
GMCW-GAN 引入梯度惩罚(gradient penalty)来保证函数服从1-Lipschitz 约束,即在判别器的优化目标中加入梯度惩罚项其表达式为
联立式(4)、(8)、(9),即可得到GMCW-GAN最终的目标函数为
1.2 生成器与判别器的网络结构设计
本节基于具有强表示能力的卷积神经网络来设计生成器与判别器的内部网络结构.
1.2.1 生成器
生成器主要作用是将输入的随机变量转变为攻击样本,GMCW-GAN 中生成器的网络结构包括全连接层(FC1)、重塑层(R2)、2 层转置卷积层(TC3、TC4)与卷积层(C5),如图2 所示.
图2 生成器网络结构Fig.2 Network structure of generator
从高斯混合模型中采样得到的随机分布z与样本标签约束y的联合嵌入表示生成器的输入;通过FC1 将输入进一步表示为多神经元隐层的输出;通过R2 将FC1 的输出重塑为三维结构;通过TC3 与TC4 执行转置卷积;通过C5,以same padding(保持卷积前后张量的高与宽不变)的方式执行卷积,得到与真实攻击样本同形状的生成攻击样本.
为避免引入稀疏梯度,FC1、TC3 与TC4 中的非线性激活函数采用LeakyRelu[13],同时因为C5 的输出为生成的攻击样本,为保证与输入至判别器的真实样本具备同样的特征尺度(0~1),采用Sigmoid函数作为其非线性激活函数.
1.2.2 判别器
判别器主要用于判断其输入样本是否真实,其本质上是一个二分类器,GMCW-GAN 中判别器的网络结构包括2 层卷积层(C1、C2)、展平层(F3)与2 层全连接层(FC4、FC5),如图3 所示.
图3 判别器网络结构Fig.3 Network structure of discriminator
判别器的输入用真实攻击样本或生成器生成的攻击样本与样本标签约束的联合嵌入表示;通过C1 与C2 提取样本特征;利用F3 将C2 的输出展平为向量;进一步用FC4 与FC5 提取特征,同时缩减向量长度,最终得到单个元素的输出.C1、C2 与FC4中的非线性激活函数采用LeakyRelu,应用沃瑟斯坦距离作为优化目标,因此,FC5 的输出无须进行非线性激活.
2 实验与讨论
为验证GMCW-GAN 的性能,首先,介绍ETCN半实物实验平台,给出攻击数据的获取方式;其次,给出相应评价指标,并介绍实验测试环境与相关超参数配置;最后,通过多角度的实验,验证GMCWGAN 的攻击样本生成能力.
2.1 数据获取
本文对照某型ETCN 列车的实车网络拓扑,搭建ETCN 半实物实验平台,根据相关资料在平台中模拟配置了车辆正常通信进程,在此基础上将安装了攻击模拟软件的攻击节点接入至交换机,从而开展模拟攻击实验.实验环境如图4 所示.
图4 ETCN 半实物实验平台Fig.4 Hardware-in-the-loop experimental platform of ETCN
本文提出的GMCW-GAN 生成样本类型主要取决于输入的真实样本类型.为了验证其生成能力,本节采取的思路为:总结ETCN 可能面临的典型攻击,开展模拟攻击实验,从而获取相应的数据,用于验证GMCW-GAN 的生成能力.
作者的前期研究中总结了ETCN 可能面临的3 大类主要攻击有探测类攻击、拒绝服务类攻击、中间人类攻击[14],因此,本文向实验平台注入3 大类攻击中的8 种典型攻击来构造训练数据集,包括属于探测类攻击的IP 扫描、端口扫描与漏洞扫描,属于拒绝服务类攻击的UDP(user datagram protocol)泛洪,TCP(transmission control protocol)泛洪,属于中间人类攻击的ARP(address resolution protocol)欺骗、篡改与重放.
为便于比较GMCW-GAN 生成的样本与真实样本的质量,通过2 个步骤构建2 个ETCN 攻击数据集.
步骤1通过攻击模拟实验构造1 个样本充足的基准ETCN 攻击数据集,称为TADS(train attack dataset),其数据分布见表1.
表1 TADS 的样本分布Tab.1 Sample distribution of TADS
步骤2维持TADS 中正常报文数量不变,在其各类攻击样本中随机抽取500 个样本,构造小样本的ETCN 攻击数据集,称为TADS-F,其数据分布见表2.
表2 TADS-F 的样本分布Tab.2 Sample distribution of TADS-F
TADS 中,正常报文与攻击报文均有上万个样本,数量充足,同时其数量比约为5.5∶4.5,分布平衡.TADS-F 中,正常报文数量充足,但攻击报文数量稀少,其数量比约为9.6∶0.4,分布不平衡.
2.2 评价指标
生成样本的目的是给入侵检测模型的训练提供更多有效信息,因此,本节通过入侵检测性能来评价GMCW-GAN 的攻击样本生成能力.小样本条件下主要关注正类样本(攻击)是否能被正确检测.查准率P是指所有检测为攻击的样本中真正为攻击的比例,反映了对攻击样本的检测精准度;查全率R是指所有攻击样本中被正确检测为攻击的比例,反映了对攻击样本的检测完整度;F1分数是P与R的调和平均,如式(11)所示,可综合反映对攻击样本的检测能力.
虚警率(FPR)是指被错误检测为攻击的正常样本占所有正常样本的比例,虚警率越低,模型对正样本的预测纯度越高,性能越好,如式(12).
式中:FP为被误检的正常样本数量,TN为被正确检测的正常样本数量.
2.3 实验设置
攻击样本生成实验与入侵检测实验在以下配置环境中实施:1)硬件,AMD Ryzen 5 1600X CPU@3.60 GHz,32 GB RAM,NVIDIA GeForce GTX 1060 6 GB GPU;2)软件,Windows 10 操作系统,Keras 2.5.0,CUDA 10.2.95.
GMCW-GAN 采用RMSProp 作为优化器,学习率设置为0.001,小批量大小为32 个,随机变量设置为128 维向量,梯度惩罚项为10,µi与 σi赋以随机初值(由于共有8 类攻击样本,因此i样本标签为1~8 的整数.
深度神经网络(DNN)是一种具有代表性的深度学习方法,在入侵检测领域取得了良好的应用效果[15],其网络结构如图5 所示.该模型的主要原理为:将入侵检测任务转化为深度学习中的分类任务,将模型视为实现函数关系拟合的分类器,通过从隐含层到输出层的逐层拟合,建立输入(样本的特征表示)与输出(预测的类别)之间的映射关系,通过该映射关系即可实现对输入样本的类别预测,从而实现入侵检测.所构建的模型具有3 层隐含层,其神经元数分别为512、256、128 个,激活函数为ReLU,损失函数为交叉熵损失,优化器采用SGD,学习率为0.002,小批量大小为64,遍历次数epoch 为30 次,检测的总类别数C=9(包含正常类).
图5 入侵检测模型的结构Fig.5 Network structure of intrusion detection model
2.4 实验过程与结果
开展实验之前,首先对原始数据进行预处理:提取TADS 中网络报文的主要报头信息作为样本特征,包括以太网头、IP 头、UDP 头、TCP 头、ICMP头、ARP 头以及TRDP 头的各关键字段;用-1 填充样本中的缺失值;使用独热码(one-hot)将类别型特征转换为数值型;使用最大最小归一化对全部特征值进行标准化处理.基于预处理后的TADS,通过2.1 节中的方式构造TADS-F.
为多角度验证GMCW-GAN 的性能,共开展了下述4 类实验.
2.4.1 样本生成实验
训练GMCW-GAN 模型,按需生成少数类攻击样本从而构造大样本平衡攻击数据集.
步骤1从高斯混合模型中生成128 维的随机向量z,从TADS-F 中获取真实攻击样本x,将z与x分别与样本标签y进行联合嵌入,得到带条件约束的输入向量z|y与真实样本x|y.
步骤2将z|y输入生成器,得到一批生成的攻击样本G(z|y) .
步骤3固定生成器参数,将x|y与G(z|y) 输入判别器,训练判别器.
步骤4固定判别器参数,将z|y输入生成器,训练生成器,得到新的G(z|y) .
步骤5循环步骤3 与步骤4,对整体模型进行对抗训练,直至收敛,从而完成训练.
步骤6按照y从1~8 的顺序,将z|y输入训练好的生成器,对每类攻击各生成9 500 个样本,得到大样本数据集(TADS-L),其分布见表3.
表3 TADS-L 的样本分布Tab.3 Sample distribution of TADS-L
数据集中的网络报文为高维样本,无法直观地观察,使用t分布随机邻域嵌入(t-SNE)[16],将真实样本与生成样本映射为三维空间中的点以观察其分布,如图6 所示.
图6 真实样本与生成样本的三维空间表示Fig.6 3D representation of real and generated samples
图6 中红色散点与蓝色散点分别代表真实攻击样本与生成样本的三维表示,可以看到:GMCWGAN 生成样本与真实样本高度相似,这初步证明了GMCW-GAN 的生成能力.当然,该结果是由初步的视觉观察得到的,由于t-SNE 实现的是对空间特征的维度映射,并不完全反映数据在高维空间的真实情况,因此,仍需通过下述实验进一步验证生成样本的质量.
2.4.2 验证生成样本对入侵检测性能影响的实验
通过比较用TADS、TADS-F 与TADS-L 分别训练的DNN 入侵检测模型在相同测试集上的性能差异,来验证GMCW-GAN 生成的攻击样本对入侵检测性能的影响.从TADS 中对各类别均匀分层抽样获取测试集,每类1 000 个,共计7 000 个测试数据.用TADS、TADS-F 与TADS-L 分别训练DNN入侵检测模型,3 个模型在测试集上测试得到的F1分数见图7,虚警率分别为12.7%、11.2%、12.4%.
图7 TADS、TADS-F、TADS-L 数据集分别训练的DNN 入侵检测模型的F1 分数Fig.7 F1 score of DNN intrusion detection models trained by TADS,TADS-F,and TADS-L
对于TADS-DNN 在测试集上的测试结果,在其样本分布均衡且数据量充足的情况下,不同类别攻击的F1分数是由其自身特性决定的,不在本文的讨论范围内.可将这一结果作为基准参考,从而排除攻击本身的检测难度对比较结果的影响.
TADS-DNN 与TADS-F-DNN 对比发现:后者各类攻击的F1分数相较于前者有明显下降,这是由攻击样本数量减少而导致的模型拟合能力下降引起的;与之相反的是,TADS-F-DNN对正常样本的检测能力略有提升,分析其原因可知,正常样本数量没有减少,模型可提取信息仍然充足,同时,由于攻击样本数量减少导致了类不平衡,模型会将其自身学习至擅于识别样本量大的类别,因此导致了对正常样本检测能力的小幅上升;TADS-F-DNN 的虚警率略低于TADS-DNN,这同样说明训练时攻击样本的减少几乎不会影响正常样本的检测,反而因为引发的类不平衡现象,略微提高了对正常样本的识别能力.
根据图7 可知:TADS-L-DNN 对攻击样本的检测能力相较于TADS-F-DNN 有明显提升,对8 类攻击样本的F1分数均有促进作用,使其平均提升了4.23%,这证明GMCW-GAN 生成的攻击样本对入侵检测的检测准度有明显的促进作用;TADS-LDNN 的F1分数与虚警率均非常接近于TADS-DNN,由于TADS-L 与TADS 的数据分布相同,其唯一区别在于样本真实性不同,这证明了生成的攻击样本与真实样本非常相似;尽管两者的检测结果差距很小,但最好的检测效果仍由TADS-DNN 取得,这表明生成样本本质上仍是对真实样本的模拟,只能尽可能地向其逼近.
综上可知,GMCW-GAN 可以生成非常接近真实攻击样本的高质量样本,可用于扩充小样本的攻击数据,从而提高入侵检测的检测能力.
2.4.3 与其他生成方法的性能比较实验
为进一步验证GMCW-GAN 的生成能力,开展与其他经典方法及前沿方法的对比实验,其中,经典方法包括随机过采样(ROS)、SMOTE 与传统GAN;前沿方法包括文献[8]与文献[9]所提出的方法.利用上述多种方法从TADS-F 中生成新的网络攻击样本,分别构造多个大样本数据集,其数据分布与TADS-L 相同.以TADS-L 与这多个数据集训练的DNN 入侵检测模型的测试结果见图8 与表4.
表4 不同生成方法对入侵检测模型虚警率的影响对比Tab.4 Comparison of data generation methods affecting FPR of intrusion detection models %
图8 不同生成方法对入侵检测F1 分数的影响对比Fig.8 Comparison of data generation methods affecting F1 score in intrusion detection
从图8 可知:机制最为简单的ROS 所生成的攻击样本对入侵检测的促进最少;SMOTE 优于ROS,这是由于其应用了K 近邻方法,使其比随机采样更具备信息提取能力;在IP 扫描、端口扫描、漏洞扫描、ARP 欺骗、UDP 泛洪与TCP 泛洪上,传统GAN表现出比ROS 与SMOTE 更好的生成能力,这证明了传统GAN 具备更强的样本生成能力;但其篡改与重放样本的生成效果劣于SMOTE,导致这一结果的可能原因是传统GAN 训练中出现了模式崩塌,使得模型对篡改与重放的拟合能力较低;相比之下,GMCW-GAN 对篡改与重放样本的生成效果最好,但与其他方法的差距并不突出,导致这一结果的可能原因是篡改与重放样本同正常样本在特征上非常相似,因此,入侵检测模型对这2 类生成样本并不敏感,表现为F1分数的变化较小.
参与对比的2 个前沿方法表现出了比经典方法更好的效果.GMCW-GAN 取得了全局最优的表现,其生成的攻击样本所训练的模型在所有攻击类别上均取得了最佳F1分数,相较于其他方法,GMCWGAN 拥有最佳的攻击样本生成能力,将传统GAN的几种改进方法、生成器与判别器的优化设计综合在一起后,取得了明显的优化效果.
从表4 可知,不同生成模型生成的样本对入侵检测模型的虚警率影响很小,这一结果再一次验证了2.4.3 节中的结论,即生成的攻击样本主要用于促进入侵检测模型对攻击样本的检测能力,在正常样本数量较大的前提下,生成的攻击样本对正常样本的检测几乎没有影响.
2.4.4 类内实验
上述实验从整体视角评估并验证了本文方法的有效性,本节则开展类内实验,具体对比所提出的不同改进对生成样本的影响,从而验证各项改进的有效性.
本文共对传统GAN 进行了3 项改进,其中第2 项改进为约束条件改进,其效果体现在增强实验人员在样本生成实验中的控制力,即能够通过该改进来控制模型按需生成特定类型的攻击样本,因此,该改进对样本的质量无影响,不参与量化的评估.为评估其他2 项改进,即采样策略与损失函数的改进,首先,在GMCW-GAN 中去除这2 项改进,其次,去除一项、保留另一项,从而共建立3 个模型,利用这3 个模型,按照2.4.3 节的方式开展对比实验,在入侵检测实验中,F1分数结果如图9 所示.由于不同生成模型对虚警率的影响已在上文实验中进行了验证,因此不再进行对比.
图9 2 项类内改进方法对入侵检测的影响对比Fig.9 Comparison of two in-class improvements affecting intrusion detection
通过图9 可知:采样策略改进与损失函数改进对各项攻击的F1分数均有促进作用,验证了对生成样本的多样性与真实性的提升效果;对于除篡改与重放外的其他攻击样本,损失函数改进对F1分数的促进比采样策略改进更明显,样本真实性的提升能够比多样性的提升在入侵检测中带来更明显的促进作用;对于篡改与重放,2 项改进对F1分数的提升较为接近,这2 类攻击与正常样本的相似度很高,因此,样本真实性在其检测过程中带来的收益相对受限,表现为多样性与真实性的促进效果接近.整体而言,包含了2 项改进的完整模型对各类攻击样本均具有最佳的F1分数,2 项改进能够共同促进入侵检测的检测准度提升,进一步验证了2 项改进的有效性.
3 结论
针对基于深度学习的ETCN 入侵检测领域面临的网络攻击小样本问题,对传统生成对抗网络进行改进,提出了一种攻击样本生成方法GMCW-GAN.该方法使用高斯混合模型、样本条件约束与沃瑟斯坦距离改进了GAN 的采样策略、约束条件及损失函数,基于卷积神经网络构建了生成器与判别器.在ETCN 半实物实验平台中进行了模拟攻击实验以获取攻击样本,利用GMCW-GAN 生成了新的攻击样本,通过多角度的实验证明了GMCW-GAN 可以生成有效的网络攻击样本,可用其扩充模型训练数据,进而缓解ETCN 入侵检测的小样本问题.