受APT攻击的网络实验室域名智能检测仿真

2022-10-25杨桂山

计算机仿真 2022年9期

杨桂山，安庆

(1. 湖南信息学院实验实训中心，湖南长沙 410151； 2. 武汉理工大学人工智能学院，湖北武汉 430070)

1 引言

互联网技术被广泛应用于不同的领域中，有效促进了各领域的同步发展。现阶段，网络实验室安全成为大家关注的热点话题。部分非法分子使用各种不同的攻击手段威胁网络安全，给用户带来财产损失和隐私泄露等问题，同时整个网络的运营成本也开始快速增加。

针对APT攻击带来的网络安全问题，国内相关专家给出了一些较好的研究成果，例如赵宏等人将未完成检测的域名按照长度分别完成正则化处理，通过聚类算法对全部域名完成划分，分为多个不同的小组。采用堆排序算法对各个域名小组完成排名，逐一计算各个小组中的域名和黑名单域名的聚类，通过编辑距离值快速检测恶意域名。杜鹏等人主要借助混合词向量深度学习模型对域名完成检测。基于以上已有方法，提出一种网络实验室受APT攻击的域名检测方法。经实验结果可得，所提方法能够准确检测出域名，同时还能够提升检测速度。

2 方法

2.1 域名特征提取

通常在正常域名中不会存在域名长度过长的情况，同时具有明显的含义。对于域名内部的无序程序，主要通过熵的相关概念完成诠释。在信息论中，熵代表系统内不确定的度量。信息熵能够有效解决数据量化问题。

合法域名的出现是为了方便用户上网，域名是由38种不同的字符组成，域名主要具有以下几方面的特征：

1)随机性

AGDs较合法域名具有更强的随机性，且字符混杂程度也更高。借助信息熵对域名的随机性完成量化处理，具体的计算式为

(1)

(2)

式中，()代表字符出现的总次数；()代表经过量化处理的域名；代表字符串的总数；()代表域名的随机性度量；代表熵值的取值范围；代表域名总数。

2)可发音性和差异性

在大多数情况下，合法的网络实验室或者公共单元注册使用的域名都具有较强的可发音性，同时有利于记忆字符串。是否容易发音可以作为判定恶意域名的标准，同时也是识别大词汇连续发音的重要方法。通过马尔科夫链计算对应概率值，并设定为可发音性的度量标准。其中，马尔科夫链的参数如下所示：

①设定代表有限集合，主要采用式(3)表示

={，，…，}

(3)

式中，代表集合中元素的总数；代表各个元素的状态。

②设定代表状态转移矩阵，={}。其中，代表发生的概率，能够转换为状态。其中

=(+1=|=)

(4)

式中，代表条件概率。

综合上述分析，马尔科夫链描述的是一组状态时间序列的随机变量。状态转换箭头指向自身状态，各个状态值和当前状态的有限个数量存在关联，同时满足以下关系式

(5)

式中，代表状态的有限个数量；+1代表随机变量。

假设网络实验室受到攻击的域名按照-中不同的值完成切割，获取个字符组成的序列。通过式(6)计算集合发生的概率

(6)

式中，()代表序列出现的概率；(|)代表序列和同时出现的概率。

通过条件概率的计算方式，能够准确估算出联合概率(-1|)和边缘概率(-1)。在完成估算的过程中，需要优先完成训练，分别统计-1出现的次数(-1)和-1两者相接出现的次数(-1，)。计算结果和语料库对比，并得出相应的相对频度。在足够多的统计量下，获取如下计算式

(7)

将二元马尔科夫链模型作为域名字符串，完成可发音量化处理。通过训练语料库，得出全部序列频度。通过式(7)完成计算，获取对应的联合概率。

3)字符连续性

AGDs会使域名组成字符在域名中均匀分布，同时良性域名的长度比较短，方便记忆。

对网络实验室受到APT攻击的域名数量和分散度设定为主要特征，通过查询IP地址，就可获得实验室的归属地。分散度-16计算式如下

(8)

式中，()代表序列对应的归属地。

对于新增的域名而言，设定恶意集合为，则需要借助集合和两者之间的交集情况描述域名的局部情况，采用(，)完成定义。将(，)设定为一个特征，则有

(9)

对于行、个指标以及个标签的数据集={(，)}，对应的预测值可以表示为

(10)

式中，代表叶子节点对应的函数；代表叶子节点标签。

采用分类算法对全部的叶子节点完成分类优化，在整个过程中需要考虑正则化，设定目标函数为

(11)

在对域名完成聚类处理前，优先对域名完成N-Gram完成处理，N-Gram模型需要优先计算n个词汇出现的概率，同时判定语句的组成结构。按照长度将n字节片段完成统计形成序列Gram，通过事先设定的阈值完成过滤，然后将全部Gram的出现频度完成统计，最终形成Gram列表。

对域名的N-Gram处理也是十分简单的，需要对全部域名完成量化处理，它是特征提取十分关键的步骤。

针对域名文本类型而言，不可以直接完成特征提取，需要优先完成N-Gram处理，将其转换为待识别的数值特征，然后对全部的域名完成特征提取和量化处理。

经过若干次演算之后，将左样本的标号集设定为，右样本为，则通过网络特征和词汇属性对实验室受到攻击的域名特征完成提取，如式(12)所示

(12)

式中，和代表预测值的一次编导和二次编导；代表残差值。

2.2 网络实验室受APT攻击的域名检测

在网络实验室受APT攻击的域名检测过程中，通过域名长度统计方法查找恶意域名。在二级域名长度分布处理阶段，将采集到的全部域名数据筛选，经过筛选之后，借助2.1小节提取全部的域名特征，计算出各个主机访问域名的二级域名长度距离阈值函数，同时将其完成描点和画图，并由此获取二级域名长度分布异常的阈值。将阈值设定为恶意域名检测的依据。根据得到的阈值将候选者划分为两种类型，分别为：

1)满足二级域名长度的异常分布；

2)不满足二级域名长度异常分布。

二级域名内容相似性处理阶段，合法域名和恶意域名数据可以通过合法网络域名和网络安全机构获得。

在域名数据筛选的过程中，由于采集到的数据量比较大，需要将部分合法的域名实现过滤处理，有效提升检测结果的准确性。

在域名训练的过程中，需要将全部数据按照时间窗完成排列，同时计算对应的域名长度距离函数值，采用描点画图的方式总结恶意域名的变化规律。

在判定的过程中，通过二级域名长度分布异常的阈值，对未检测的域名数据完成判定，判断之前需要筛选数据，同时按照候选者的访问需求计算域名函数值等步骤，将得到的阈值和异常阈值进行对比，假设任意候选者的距离函数大于阈值，则说明该候选者满足二级异常分布需求，则说明该域名是恶意域名。二级域名长度检测流程图如图1所示。