密文恶意流量智能分类研究综述
2023-07-17刘紫萱吴魏
刘紫萱 吴魏
摘要:随着加密流量技术的快速发展,越来越多网络攻击行为利用加密伪装逃脱检测。针对加密恶意流量检测问题,文章对现有的基于机器学习的密文恶意流量分类方法进行了梳理,讨论了这些方法的分类效果和优缺点,总结了现有方法的不足.为密文恶意流量智能分类技术的发展提供了一定的借鉴。
关键词:密文恶意流量分类;机器学习;加密伪装
中图法分类号:TP393 文献标识码:A
1 引言
近年来,学术界和工业界常用的恶意流量分类技术主要分为以下几种。一是使用端口号进行流量检测,这种方法比较简单,但是随着新的应用程序不断涌现,使用者可使用熟知端口号掩盖或使用非注册端口号,从而导致该方法检测性能显著下降。二是基于深度报文检测的恶意流量分类方法分类准确率高,但是特征提取难度大,且难以处理加密流量。这些传统的流量分类方法在加密流量广泛应用的情况下,检测性能受到了较大的影响。
随着机器学习的快速发展,出现了基于机器学习的恶意流量分类方法,其分类准确率较高且能够处理加密流量。目前,常用于恶意流量分类的机器学习算法有随机森林、k 近邻、决策树、逻辑回归等。
然而,这些基于机器学习的恶意流量分类方法对输入模型的特征有较大的依赖性,其性能优劣受到特征提取和特征工程的限制,从而影响了该类方法在实际场景下的适用性。针对上述恶意流量分类方法存在的不足,本文對现有的基于机器学习的密文恶意流量分类方法进行了梳理,讨论了不同方法的效果和优缺点,并总结了现有方法的不足。
2 基于机器学习的密文恶意流量分类
近年来,机器学习被广泛应用于多个领域,如计算机视觉、自然语言处理等。此外,研究人员在网络安全领域也将机器学习技术应用于网络流量分类等任务中,以达到实现自动化流量分类的目的。目前,常用于流量分类的机器学习算法有随机森林、k 近邻、决策树、逻辑回归算法等。下文将对使用上述算法实现密文恶意流量分类的文献进行总结和梳理。
2.1 基于随机森林的密文流量分类方法
在密文恶意流量分类研究中,随机森林(RandomForest)是常用的一种机器学习方法,在流量分类方面有比较具体的体现,而且它还可以用于流量特征的选择,可以选择出流量重要特征,以提高流量分类的准确率。
文献[1]对10 种基于机器学习的加密恶意流量检测算法进行了对比分析,包括随机森林、k 近邻、线性回归等算法,设计了一种基于机器学习的加密恶意流量检测技术的通用框架,同时对高频出现的特征进行总结,进一步优化了统计特征集(FOS 特征集),提出了基于随机森林算法和FOS 特征集组合的检测模型。
文献[2]针对加密恶意软件流量问题,在以文献标准特征集中22 个常见特征和专家专为加密网络会话定制的319 个增强特征为特征集的基础上,对比了用于加密恶意软件流量分类的6 种常见的机器学习算法,包括随机森林、决策树、支持向量机等算法,得出随机森林集成方法优于其他5 种算法。
为解决网络入侵检测中数据不平衡的多分类问题,周杰英等[3] 提出了一种融合随机森林模型进行特征转换、使用梯度提升决策树模型进行分类的入侵检测模型框架RF⁃GBDT,其具有预测精度较高、收敛速度较快以及泛化性能好的特点,可以较好地解决网络入侵检测中数据不平衡的多分类问题。
文献[4]针对高维数据限制算法泛化能力从而影响网络入侵检测能力的问题,提出了一种新的基于包装的特征选择算法,即禁忌搜索⁃随机森林(TS⁃RF),其中禁忌搜索进行特征搜索与选择,随机森林作为学习方法。该算法不仅提高了分类器精度,而且将特征空间减少了60%以上,降低了模型的计算复杂性。
文献[5]针对传统基于深度包分析的加密恶意流量检测方法带来的精度下降和实时性不足等问题,提出了一种结合多特征的加密恶意流量检测方法,而且通过对比随机森林、逻辑回归、决策树等4 种机器学习算法,得出分类效果最好的是随机森林算法的结论。
2.2 基于k 近邻的密文流量分类方法
在流量分类领域中,还有一种机器学习方法被频繁使用,那就是k 近邻节点算法(kNN)。它同随机森林算法一样,常用于分类任务,在流量分类任务中发挥着重要的作用。该算法的思路简单直观:若要判断一个样本所属的类别,只需确定在特征空间中与它最邻近的k 个样本大多数所属的类别,则该样本也属于这一类别。简而言之,该方法在分类决策上只依据最近邻的k 个样本的类别来决定待分类的样本所属类别。
文献[6]针对基于传统复杂特征的恶意流量检测方法检测率日益降低的问题,提出了一种使用TCP /IP 数据包侧信道特征的恶意流量检测方法,该方法的主要优点是:可以使用较少的特征集和较少的数据集同时,在较短的时间内完成恶意流量检测。在此基础上,研究人员还对比了包括k 近邻、支持向量机、逻辑回归等在内的7 种机器学习算法,发现k 近邻算法的性能较好,其提供了一种基于TCP / IP 数据包侧信道特征与k 近邻算法的恶意流量检测方法新思路。
2.3 基于决策树的密文流量分类方法
除了上文提到的基于随机森林和k 近邻算法的密文恶意流量分类方法,目前还有许多其他机器学习方法可以实现密文恶意流量分类,虽然这些机器学习方法少见,但是分类结果也有意想不到的准确率。决策树就是代表方法之一,它是基于Boosting 框架的主流集成算法,也是随机森林的基本组成,包括XGBoost和LightGBM。
文献[7]针对流量加密影响恶意流量特征分析从而影响检测效果的问题,对比了使用XGBoost、随机森林、支持向量机3 种机器学习算法区分恶意加密http流量和良性加密流量的性能,得出XGBoost 性能较优的结论,同时验证了基于模型自身选择特征优于基于人为专家选择特征,最终提出了在不解密流量的情况下密文恶意流量分类方法,即基于模型自身选择特征的XGBoost 密文恶意流量分类算法。
文献[8]针对流量数据不平衡并且深度神经网络检测方法的训练和检测时间较长等问题,提出了一种基于自适应合成(ADASYN)过采样技术和LightGBM的网络入侵检测系统,其中ADASYN 过采样技术增加了少数攻击样本,以解决由于训练数据不平衡导致的少数攻击检测率低的问题。LightGBM 集成模型进一步降低了系统的时间复杂度,同时确保了检测的准确性。
2.4 基于逻辑回归的密文流量分类方法
逻辑回归是一个分类模型,广泛应用于各个领域,包括机器学习、医学和社会科学。其最为突出的特点就是模型简单和模型的可解释性强。逻辑回归的优点在于实现简单、易于理解,同时计算代价低、速度快、存储资源低,但是也存在缺点,如易欠拟合、分类精度不高等。
文献[9]针对TLS 协议为传统网络入侵检测方法带来的新挑战进行了详细分析,对18 个恶意软件家族和企业应用在TLS 协议中的使用进行了深入研究,发现企业应用通常使用较新版本的TLS 协议,而恶意软件一般使用较老版本的TLS 协议和较弱的密码参数。基于此,本文提出了一种基于传统特征与TLS 特征结合的L1 逻辑回归密文恶意流量分类方法。
文献[10]针对加密恶意流量包含的威胁给网络入侵检测带来挑战这一问题,在沙盒中自收集的数据集上,通过对比实验证明了上下文流数据可用于流量分类并且有较好的效果,证明了L1 逻辑回归分类器的准确性。最终提出了基于TLS 握手元数据和上下文流等特征与L1 逻辑回归分类器相结合的监督机器学习流量分类方法。
目前,基于机器学习的恶意流量分类方法仍存在一定的局限性。例如,流量数据集不平衡和流量特征代表性不足影响了分类器的准确性,以及当前基于机器学习的流量检测方法无法有效应对未知网络攻击检测。这些问题影响了密文恶意流量智能检测技术的发展,应着重加以解决。
3 结束语
本文对现有的基于机器学习的密文恶意流量分类方法进行了梳理和总结,讨论了不同机器学习算法,如随机森林、k 近邻等算法的分类效果和优缺点,总结了现有恶意流量分类方法存在的不足,如流量数据非均衡、分类特征代表性不足、未知网络攻击检测难等,进而为该领域技术的发展提供了一定的参考和借鉴。
参考文献:
[1] WANG Z,FOK K W,THING V L L. Machine learning forencrypted malicious traffic detection: Approaches, datasetsand comparative study[J].Computers & Security,2022,113:102542.
[2] ANDERSON B,MCGREW D.Machine learning for encryptedmalware traffic classification:accounting for noisy labels andnon⁃stationarity[C]∥Proceedings of the 23rd ACM SIGKDDInternational Conference on knowledge discovery and datamining,2017:1723⁃1732.
[3] 周杰英,贺鹏飞,邱荣发,等.融合随机森林和梯度提升树的入侵检测研究[J].软件学报,2021,32(10):3254⁃3265.
[4] NAZIR A,KHAN R A. A novel combinatorial optimizationbased feature selection method for network intrusion detection[J].Computers & Security,2021,102:102164.
[5] 李慧慧,张士庚,宋虹,等.结合多特征识别的恶意加密流量检测方法[J].信息安全学报,2021,6(2):129⁃142.
[6] STERGIOPOULOS G, TALAVARI A, BITSIKAS E, et al.Automatic detection of various malicious traffic using sidechannel features on TCP packets[C]∥European Symposiumon Research in Computer Security, 2018:346?362.
[7] SHEKHAWAT A S,TROIA F D,STAMP M.Feature analysisof encrypted malicious traffic [ J]. Expert Systems WithApplications,2019,125:130⁃141.
[8] LIU J M,GAO Y B,HU F J.A fast network intrusion detectionsystem using adaptive synthetic oversampling and LightGBM[J].Computers & Security,2021,106:33⁃48.
[9] ANDERSON B,PAUL S,MCGREW D.Deciphering malwaresuse of TLS (without decryption) [J]. Journal of ComputerVirology and Hacking Techniques,2018,14(3):195⁃211.
[10] ANDERSON B,MCGREW D.Identifying encrypted malwaretraffic with contextual flow data[C] ∥ Proceedings of the2016 ACM workshop on artificial intelligence and security,2016:35⁃46.
作者简介:刘紫萱(2001—),本科,研究方向:计算机技术。