基于层内和层间融合注意力的家族恶意域名检测
2024-09-26张清
摘 要:针对当前家族恶意域名检测方法在新出现或新变种恶意域名的检测方面仍存在精度低、漏报高等问题,提出一种基于层内和层间融合注意力的家族恶意域名检测的新方法。首先,利用深度自编码网络将域名集逐层编码压缩到空间特征中,并借助自注意力机制强化域名字符串中关键字符的表达能力;其次,利用交叉注意力建立双分支网络输入端的关联,促进分支间深层信息的交流;最后,计算待测域名映射特征与交互特征集之间的相似度对比。实验证明所设计方法的准确率为98.21%,该方法对保障网络安全、预防新型域名入侵攻击具有重要的现实意义。
关键词:恶意域名检测;融合注意力;判定规则;层内自注意力;层间交叉注意力
中图分类号:TP393.0 文献标识码:A 文章编号:2096-4706(2024)14-0098-05
Family Malicious Domain Name Detection Based on Intra-layer and Inter-layer Fusion Attention
ZHANG Qing
(Lanzhou Petrochemical University of Vocational Technology, Lanzhou 730060, China)
Abstract: A new method for detecting family malicious domain names based on intra-layer and inter-layer fusion attention is proposed to address the issues of low accuracy and high false positives in the detection of newly emerged or mutated malicious domain names using current methods. Firstly, it uses deep self-encoded networks to compress the domain name set layer by layer into spatial features, and utilizes self-attention mechanisms to enhance the expression ability of key characters in domain name strings. Secondly, it utilizes cross attention to establish associations between the input ends of a dual branch network, promoting the exchange of deep information between branches. Finally, it calculates the similarity comparison between the mapping features of domain name to be tested and the interaction feature set. The experimental results show that the accuracy of the designed method is 98.21%, which is of great practical significance for ensuring network security and preventing new domain name intrusion attacks.
Keywords: malicious domain name detection; fusion attention; judgment rule; intra-layer self-attention; inter-layer cross-attention
0 引 言
互联网的快速发展给人们的日常生活和工作带来了极大地便利,其中网络域名作为人们访问网站的入口,备受不法分子的关注,给互联网的安全性和稳定性带来了巨大威胁。恶意域名不仅用于网络钓鱼、恶意软件传播等攻击行为,还可能伪装成合法网站,获取用户的个人信息或散布虚假信息[1-2]。因此,对恶意域名的及时检测至关重要,这有助于构建更稳定、和谐的绿色网络。
近年来,随着深度学习技术的快速发展,利用深度学习相关技术对域名访问请求进行合法性判定[3],及时检测出伪装、新变种或新出现的恶意域名。如赵宏等[4]从词法组成与结构方面进行合法性的判定,通过计算待测域名与恶意域名历史数据集之间的编辑距离值,快速给出判定结果。王甜甜等[5]设计了一种三段式的检测方法,首先利用Alexa开源网站的域名字符串特征集快速响应合法域名请求,其次利用历史黑名单数据集快速过滤恶意域名,最后通过构造深度神经网络对新出现或新变种恶意域名进行建模。吴涛等[6]通过提取域名字符串在时序和空间维度的深层特征表示,构建了时序和空间串行混合模型,并利用检测结果与真实结果之间的损失设计了一种自反馈机制。类似地,张斌等[7]考虑到域名字符串上下文的时序关联,提出了一种时序和空间维度并行混合模型的恶意域名检测方法。姜言波等[8]针对新出现或新变种家族恶意域名集标注样本少,采用深度自编码网络作为主干进行特征提取,并通过聚类不同家族间的特征,构造了一种弱监督的家族恶意域名检测方法。
上述恶意域名检测方法从不同角度提升了对新出现或新变种恶意域名的检测性能,然而,该类方法主要借助时序和空间维度的全局特征表示,忽略了域名字符串字符与字符之间的短距离关联关系、域名字符串整体间的长距离关联关系。此外,恶意域名攻击后才被加入恶意域名黑名单历史数据集中,导致该类域名的标注信息不能及时利用。为此,设计了一种基于元学习的双分支网络结构,包括带有标注的支持分支和不带标注的查询分支,通过在支持分支中学习判定规则,并将其迁移到查询分支中进行检测性能的评估,以此来提升模型对未知新变种、新出现或伪装域名的检测性能。
1 小样本恶意域名检测方法
恶意域名当发生攻击后,才被加入恶意域名黑名单历史数据集中,存在一定的时间滞后。因此,传统利用恶意域名黑名单来构造判定规则的方法无法适应该类新出现、新变种或伪装恶意域名的检测任务。在我们的方法中,设计了一种基于元学习网络结构的双分支网络结构,通过在带有标注信息的支持集上学习检测规则,并将其迁移到查询分支中实现未知家族域名的判定。所提出的方法主要包括:特征提取、层内特征自注意力计算、层间特征交叉注意力计算和恶意域名判定四个步骤。其中,特征提取是利用编码器将双分支输入的域名字符串映射到同一深度特征空间;层内特征自注意力计算是在双分支编码特征图上构造自注意力特征图,强化域名字符串中关键信息的表达能力;层间特征交叉注意力计算是利用交叉注意力机制建立双分支特征间的上下文语义关联,促进域名字符串间的交互能力,旨在聚焦双分支输入域名字符串中的共性语义;恶意域名判定阶段采用无参数的余弦相似度,快速计算待测域名特征与交互特征集之间的相似度分数。模型结构如图1所示。
1.1 特征提取
新出现或新变种恶意域名当发生攻击后,才被加入恶意域名黑名单数据集中,存在一定的时间滞后,即并非所有的恶意域名都存在明确的标签信息[9]。为此,采用自监督的深度自编码网络将输入域名字符串编码到深度特征空间,然后利用编码特征来恢复出原始域名集,根据恢复后的域名集与原始域名集之间的损失,来优化特征提取过程,提升编码特征表达的可靠性。具体特征编码可用式(1)和式(2)所示:
(1)
(2)
其中,Fe表示编码特征,E(⋅)表示编码函数,Sl表示原始域名字符串, 表示解码后的域名字符串,κ(⋅)表示损失函数,用于计算编码前后域名字符串的偏差。
其次,考虑到域名字符串短距离与长距离之间的关联,采用分层特征编码的策略构造多尺度特征集,集将编码特征按照不同尺度下采样为低层、中间层和高层特征。具体计算式如式(3)所示:
(3)
其中,fel、fem和feh分别表示低层、中间层和高层特征表示。down1-x (Fe)表示对编码特征进行下采样操作,且x ∈ {l,m,h}。
1.2 层内特征自注意力计算
为了强化支持分支内每层特征表达的可靠性,在低层、中间层和高层特征图上分别计算层内自注意力,聚焦域名字符串短距离编码特征的局部信息。具体计算公式如式(4)所示:
(4)
其中,、 和 分别表示低层、中间层和高层自注意力后的特征,T表示转置操作。经过自注意力后的特征图,强化了短距离局部信息的表达能力。
1.3 层间特征交叉注意力计算
为了尽可能检测出新出现或新变种的家族恶意域名,采用支持分支和查询分支的双分支网络[10],这有助于利用较少标注的支持域名集指导查询分支中未知类别域名的判定。此处,为了促进支持分支和查询分支间的信息交流,计算跨分支间的交叉注意力。跨分支交叉注意力计算流程如图2所示。
为了促使模型可以捕获到查询分支中待测域名字符串在不同层上的特征表示,以查询分支的全局编码特征作为不同层的初始化特征,并与支持分支不同层间的特征计算交叉注意力。此处,支持特征来源于 ,查询特征可用Fq表示。支持分支和查询分支层间交叉注意力计算公式如式(5)所示:
(5)
其中,、 和 分别表示分支间低层、中间层和高层的交叉注意力特征。
1.4 恶意域名检测
为了及时判定待测域名的合法性,采用无参数的度量策略,通过计算查询分支编码特征和跨分支融合特征间的相似度,快速给出待测域名的合法性。最后,通过计算待测域名的标签和真实标签的损失值来端到端优化网络模型。具体地,在度量阶段采用无参数的余弦相似度[11],计算式如式(6)所示:
(6)
其中,lb表示相似度值,cat(⋅)表示特征拼接操作。然后,依据查询特征与融合特征集上每一特征表示的最大相似度值快速定位待测域名,并给出判定性结果。最后,利用交叉熵损失函数计算待测标签与真实标签之间的损失,并根据损失值优化网络参数。具体计算如式(7)所示:
(7)
yp表示预测标签,yt表示真实标签。N表示待测试的域名个数。
2 实验与结果分析
2.1 实验设定与评价指标
实验平台选择Windows 10操作系统,12核24线程,搭载1T Nas,16 GB运行内存。深度学习框架选择PyTorch,编程语言采用Python,编辑器为PyCharm。设定训练初始学习率为0.000 1,迭代次数设定为160次,Batch大小设定为8,优化器选择Adam。此外,为了评估所设计方法的优越性,选择准确率(Accuracy)、精准率(Precision)、召回率(Recall)和漏报率(False Negative Rate, FNR)等指标评估所提出方法的性能。计算公式如式(8)所示:
(8)
其中,TP表示正确检测出的恶意域名总数;FP表示合法域名误报为恶意域名的个数;FN表示恶意域名漏报为合法域名的个数;TN表示正确检测出的合法域名总数。
2.2 实验数据集
模型的训练与测试数据主要来源于360 Netlab、DGArchive和Alexa,总共收集获得合法域名10万条,恶意域名4 200条,并按照8:2的比例划分为训练集和测试集。此外,所选取的家族域名集中包含14个小样本家族域名集,数据集详细信息如表1所示。
2.3 实验结果分析
为了验证所设计方法的优越性,在相同的数据集和评价指标与当前经典方法进行对比实验,此处以合法域名与恶意域名二分类检测结果为标准进行对比,具体对比结果如表2所示。
由表2可以看出,所提出方法在四个检测性能指标上优势明显。具体地,在四个评价指标下,相比并行连接的LSTM+CNN混合模型,所提出方法分别实现了1.80%、1.95%、1.40%和2.23%的改进。其次,在测试时间开销方面,所提出方法比LSTM网络下降了2秒。
为了进一步验证所设计方法对多家族恶意域名的细粒度检测性能,选择14个家族域名集进行测试,并与当前经典的方法进行对比,具体对比结果如图3所示。
(a)准确率
(b)精准率
(c)召回率
(d)漏报率
可以看出,在四个指标上,所提出方法的得分均优于对比方法,验证了所提出方法的优越性,能够适应实际场景中新变种或新出现多家族恶意域名的检测。
3 结 论
及时准确的检测出新变种或新出现的恶意域名,有助于保障网络安全。本文提出了一种基于层内和层间融合注意力的家族恶意域名检测方法,该方法采用元学习网络的双分支网络结构,在携带标注信息的支持分支中学习检测规则,并将其迁移到查询分支中实现未知新变种或新出现家族恶意域名的检测。通过在合法域名与恶意域名、恶意域名细粒度检测实验上验证了所设计方法的优越性。
未来工作中,将尝试设计一种自反馈学习机制,进一步优化所设计的网络模型。
参考文献:
[1] SHI Y,CHEN G,LI J T. Malicious Domain Name Detection Based on Extreme Machine Learning [J].Neural Processing Letters,2018,48(3):1347-1357.
[2] 卢加奇,吕广旭,魏先燕,等.基于优化CS-SVM算法的DGA域名检测研究 [J].现代信息科技,2023,7(11):77-79.
[3] WANG H,TANG Z G,LI H Z,et al. DDOFM: Dynamic Malicious Domain Detection Method Based on Feature Mining [J/OL].Computers & Security,2023,130[2023-12-10].https://www.sciencedirect.com/science/article/abs/pii/S0167404823001700?via%3Dihub.
[4] 赵宏,常兆斌,王乐.基于词法特征的恶意域名快速检测算法 [J].计算机应用,2019,39(1):227-231.
[5] 王甜甜,刘雄飞.一种分阶段的恶意域名检测算法 [J].小型微型计算机系统,2022,43(10):2046-2050.
[6] 吴涛,王占海,张健,等.基于CNN-BiLSTM迁移自反馈学习的小样本恶意域名检测[J].小型微型计算机系统,2023,44(3):602-607.
[7] 张斌,廖仁杰.基于CNN与LSTM相结合的恶意域名检测模型 [J].电子与信息学报,2021,43(10):2944-2951.
[8] 姜言波,邵增珍.基于无监督自适应模糊聚类的多家族恶意域名细粒度检测 [J].中国电子科学研究院学报,2023,18(7):663-670.
[9] KASIM Ö. Hybrid Deeper Neural Network Model for Detection of the Domain Name System over Hypertext Markup Language Protocol Traffic Flooding Attacks [J].Soft Computing,2022,27(9):5923-5932.
[10] 张清,张文川,冉兴程.基于CNN-BiLSTM和注意力机制的恶意域名检测 [J].中国电子科学研究院学报,2022,17(9):848-855.
[11] LIANG J B,WANG S X,ZHAO S,et al. FECC: DNS Tunnel Detection Model Based on CNN and Clustering [J/OL].Computers & Security,2023,128[2023-12-11].https://doi.org/10.1016/j.cose.2023.103132.
作者简介:张清(1986—),女,汉族,四川成都人,讲师,硕士研究生,研究方向:网络与信息安全。
收稿日期:2024-01-04
基金项目:兰州石化职业技术大学科学研究项目(2023KY-14)
DOI:10.19850/j.cnki.2096-4706.2024.14.020