基于LSTM的DAE加密流量识别
2024-02-28闫金蓥王海珍
闫金蓥,王海珍
基于LSTM的DAE加密流量识别
闫金蓥,王海珍
(齐齐哈尔大学 计算机与控制工程学院,黑龙江 齐齐哈尔 161006)
随着虚拟专用网(VPN)技术的广泛应用,实时VPN流量识别已成为网络管理和安全维护中越来越重要的任务.加密流量使得从原始流量中提取特征变得极具挑战性,现有的VPN流量识别方法通常存在高维数据特征提取困难的问题.提出了一种在DAE(Denoising Auto-Encoder,降噪自编码器)的网络结构基础上加入了LSTM(Long Short Term Memory,长短时记忆)的模型,将深度学习相关技术融入加密流量识别技术之中,使一直存在的难以处理高维数据以及特征提取等问题得到解决.
降噪自编码器;加密流量识别;长短时记忆网络
加密流量主要是指在通信过程中所传送的被加密过的实际明文内容.在安全和隐私保护需求的驱动下,网络通信加密化已经成为不可阻挡的趋势.但是,加密流量也给互联网安全带来了巨大威胁,尤其是加密技术被用于网络违法犯罪,如网络攻击、传播违法违规信息等.如何通过改进加密流量识别技术,识别潜在的网络威胁是目前加密流量技术的重点.
机器学习方法主要根据C4.5[1]、KNN以及有效载荷长度序列(PLS)[2]等方法进行展开.深度学习[3]方法在准确分类加密流量的方面具有强大的改进空间,GAO[2]等提出了将流量混淆分为三类,并提出了两种分类方法,即基于统计特征识别和分类VPN流量.Lotfollahi[4]等提出了一种新型的方法用于加密流量分类,开发了一个名为Deep Packet的框架,可以处理网络流量分类为主要类别(如FTP和P2P)的流量表征,还可以区分VPN网络流量和非VPN网络流量.TIAN[5]等提出了一种卷积注意力网络(CAT),作为一种端到端的模型,CAT 以原始数据为输入,使用卷积神经网络(CNN)自动学习特征并将输出输入到 softmax 函数中得到分类结果.FENG[6]等提出了一种利用基于有效载荷的技术和从现有网络结构修改的卷积神经网络模型的方法,但是相比于其他深度神经网络而言,资源密度较低.XIAN[7]等提出了一种用于识别 SSL VPN的胶囊神经网络(CapsNet),通过改进指纹识别方法以及替换采样层,来达到对SSL流更高的识别准确率.
这些方法采用深度神经网络实现对加密流量的识别,但在识别高维度多类别时序数据时,会出现识别率低且时间较长的情况.因此,本文提出了一种基于LSTM(Long Short Term Memory,长短时记忆)的DAE(Denoising Auto-Encoder,降噪自编码器)加密流量识别模型,通过LSTM对时序数据进行特征提取,根据DAE的特性对高维度时序数据进行特征降维,并进行了分类训练,得到了较高的准确率,在ISCXTor2016数据集上的准确率能够达到0.963 9.
1 DAE-LSTM模型设计
1.1 模型框架
图1 DAE-LSTM模型设计
1.2 数据预处理
使用Wireshark与Weka进行数据形式转换,将pcap文件与arff文件转换为csv格式,并对数据进行了训练集与测试集的划分.因为原始数据具有不平衡性,在进入模型训练之前,对数据进行标签数值化和标准化处理.训练集与测试集经过多次实验得出最佳划分比例为8∶2.
1.3 DAE设计
DAE是在自编码器(AE)的基础上增强了鲁棒性的自编码器.DAE最大的特点是能够对“被污染和噪声破坏”的原始数据通过解码和编码处理恢复真正的原始数据.因此,相比较于其他类型的自编码器,DAE具有良好的降噪能力,可以降低因为数据丢失或污染而对数据分类结果产生的影响.DAE结构见图2.
图2 降噪自编码器网络结构设计
1.4 LSTM设计
LSTM基本原理见图3.
图3 LSTM基本原理
第2步通过sigmoid激活函数决定单元的更新值,由tanh层创造一个新的候选向量并将其添加到单元状态中,公式为
通过sigmoid激活函数确定输出单元状态的部分,将单元输出与前一个sigmoid层经过tanh层运算(通过tanh层进行映射处理,得到-1到1之间的单元值)的输出相乘作为最终输出值,公式为
LSTM本质是由一系列的LSTM模块组成,LSTM的结构见图4.模型使用双层LSTM网络,第1层LSTM的return_sequences=True,返回所有节点的输出;第2层LSTM的return_sequences=False,LSTM输入维度为(serie_size,n_features),输出维度为最后一个节点的输出值,其中:
serie_size:序列递归的步数;
n_features:输入数据的特征数量.
图4 LSTM模块结构
LSTM的隐藏层层数与隐藏层的LSTM模块数量由具体的数据集数据特征决定.隐藏层层数的设置并没有特定要求,如果设置过量的隐藏层层数,那么可能会在模型训练中造成过拟合现象,也会增大模型的存储开销与计算.本文的LSTM使用的是双层LSTM网络结构,深度体系结构对于编码器-解码器框架而言,实现流量分类的效果更好.根据实验可得,一层LSTM网络结构相比于双层的效果要差,但三层相较于双层而言,容易使模型过拟合.
2 实验分析
2.1 实验准备
使用64位Win 10操作系统,八核十六线程AMD Ryzen 7 5800H with Radeon Graphics CPU和16 GB DDR4 RAM,安装Anaconda3,采用Python3.8编程.实验使用ISCXTor 2016[8],为加拿大新不伦瑞克大学(UNB)的ISCX 研究中心发布.
ISCXTor2016数据集初始大小为22 GB,Tor是一种面向电路的协议,从网关到入口节点的所有流量都将被加密并通过相同的连接发送.数据集中定义了八种类别,即Browsing,Email,Chat,Audio-streaming, Video-streaming,File Transfer,VoIP,P2P.数据集一共选取了八种流量类别进行识别分类,最终使用的数据一共有67 834条.
2.2 实验结果与分析
提出的模型在数据集上随着迭代次数的增加(见图5),根据准确率以及损失率的变化,可以看出当迭代次数为100时,准确率能够达到0.963 9,损失率小于0.02且数值较稳定.
为了进一步验证本文模型的有效性,选取了SAE-LSTM[9]模型与本文模型DAE-LSTM进行对比实验(见表1).相关实验所涉及的构造与内部参数均按照原文模型进行复现.由表1可以看出,在多分类流量识别模型中,本文提出的基于LSTM的降噪自编码器模型的表现优于SAE-LSTM.在ISCXTor2016数据集中能够达到0.963 9的准确率,并且损失率低至0.01.
a DAE-LSTM损失率 b DAE-LSTM准确率
图5 ISCXTor2016数据集的训练集与测试集的损失率与准确率
表1 SAE-LSTM模型和DAE-LSTM模型的准确率与损失率比较
ROC曲线下的面积反映各个模型的检测效果(见图6),当ROC曲线下方的面积越大,越接近1时,模型的效果越好.
图6 对比实验与本文实验ROC 曲线
从所有ROC曲线图的对比来看,本文提出的模型ROC曲线中的AUC(曲线下方面积)最接近1,证明提出的模型效果相较于对比实验为最佳效果.
通过对模型的多次分类训练,两种流量识别模型对八种流量类别识别的F1值见表2.F1值综合了准确率与召回率,能够更加全方位地分析各模型对流量识别的性能效果.
表2 各模型识别各类流量的F1值对比
3 结语
本文提出了一种在降噪自编码器(DAE)基础上融入了LSTM的模型.该模型主要通过对流量的时序数据特征进行进一步的提取与分析,最后进行流量分类,得到最终的分类结果.该模型在ISCXTor2016数据集上进行实验与分析,DAE-LSTM模型的准确率、F1值以及ROC优于SAE-LSTM基于深度学习的模型与算法,准确率达到了0.963 9,实验结果说明了本文模型的有效性.在所采用的数据集中,因为其中各类数据的数据条数差别过大,对模型的训练具有一定的影响.下一步,将对数据集的不平衡性进行研究,将不平衡数据进行改进与生成,降低原始数据集对模型训练的影响.
[1] WANG S,CHEN Z,YAN Q,et al.A mobile malware detection method using behavior features in network traffic[J].Journal of Network and Computer Applications,2019,133:15-25.
[2] GAO P,LI G,SHI Y,et al.VPN Traffic Classification Based on Payload Length Sequence[C]// 2020 International Conference on Networking and Network Applications(NaNA).2020.
[3] Aldweesh A,Derhab A,Emam A Z,et al.Deep learning approaches for anomaly-based intrusion detection systems:A sur- vey,taxonomy,and open issues[J].Knowledge-Based Systems,2020,189:105124.
[4] Lotfollahi M,Zade S H R,SiavoshaniJ M,et al.Deep packet:a novel approach for encryptedtraffic classification using deep learning[J/OL].Soft Comput,2020,24:1999-2012.https://doi.org/10.1007/s00500-019-04030-2.
[5] TIAN S M,GONG F X,MO S,et al.End-to-end encrypted network traffic classification method based on deep learning[J].The Journal of China Universities of Posts and Telecommunications,2020,27(3):25-34.
[6] FENG R,HU T,JIA X,et al.VPN Traffic Classification Based on CNN[C]//2022 14th International Conference on Computer Research and Development(ICCRD).Shenzhen,2022:94-99.DOI:10.1109/ICCRD54409.2022.9730292.
[7] XIAN K H.An optimized recognition algorithm for ssl vpn protocol encrypted traffic[J]. Informatica(Lithuanian Academy of Sciences),2021:45:125-129.
[8] Lashkari A H,Draper-Gil G,Mamun M S,et al.Ghorbani,Characterization of Tor Traffic Using Time Based Features[C]//In the proceeding of the 3rd International Conference on Information System Security and Privacy.Porto Portugal:SCITEPRESS,2017.
[9] 尚文利,石贺,赵剑明,等.基于SAE-LSTM的工艺数据异常检测方法[J].电子学报,2021,49(8):1561-1568.
DAE encrypted traffic identification based on LSTM
YAN Jinying,WANG Haizhen
(School of Computer and Control Engineering,Qiqihar University,Qiqihar 161006,China)
With the widespread application of virtual private network(VPN)technology,real-time VPN traffic identification has become an increasingly important task in network management and security maintenance.Encrypting traffic makes it highly challenging to extract features from the original traffic,and existing VPN traffic identification methods often face difficulties in high-dimensional data feature extraction.It was proposed of a model based on the network structure of denoising auto-encoder(DAE)with the addition of long short term memory (LSTM).Integrating deep learning techniques into encrypted traffic identification technology enables solutions to long-standing issues such as handling high-dimensional data and feature extraction.
denoising auto-encoder;encrypted traffic identification;long short term memory network
TP393
A
10.3969/j.issn.1007-9831.2024.02.008
1007-9831(2024)02-0042-06
2023-09-11
黑龙江省省属高等学校基本科研业务费科研项目(145209126)
闫金蓥(1998-),女,河南郑州人,在读硕士研究生,从事计算机网络与信息安全研究.E-mail:519778027@qq.com
王海珍(1976-),女,山东临沂人,教授,硕士,从事嵌入式技术、密码分析与设计、网络安全研究.E-mail:wanghaizhen1976@163.com