APP下载

受APT攻击的网络实验室域名智能检测仿真

2022-10-25杨桂山

计算机仿真 2022年9期
关键词:域名代表实验室

杨桂山,安 庆

(1. 湖南信息学院实验实训中心,湖南 长沙 410151; 2. 武汉理工大学人工智能学院,湖北 武汉 430070)

1 引言

互联网技术被广泛应用于不同的领域中,有效促进了各领域的同步发展。现阶段,网络实验室安全成为大家关注的热点话题。部分非法分子使用各种不同的攻击手段威胁网络安全,给用户带来财产损失和隐私泄露等问题,同时整个网络的运营成本也开始快速增加。

针对APT攻击带来的网络安全问题,国内相关专家给出了一些较好的研究成果,例如赵宏等人将未完成检测的域名按照长度分别完成正则化处理,通过聚类算法对全部域名完成划分,分为多个不同的小组。采用堆排序算法对各个域名小组完成排名,逐一计算各个小组中的域名和黑名单域名的聚类,通过编辑距离值快速检测恶意域名。杜鹏等人主要借助混合词向量深度学习模型对域名完成检测。基于以上已有方法,提出一种网络实验室受APT攻击的域名检测方法。经实验结果可得,所提方法能够准确检测出域名,同时还能够提升检测速度。

2 方法

2.1 域名特征提取

通常在正常域名中不会存在域名长度过长的情况,同时具有明显的含义。对于域名内部的无序程序,主要通过熵的相关概念完成诠释。在信息论中,熵代表系统内不确定的度量。信息熵能够有效解决数据量化问题。

合法域名的出现是为了方便用户上网,域名是由38种不同的字符组成,域名主要具有以下几方面的特征:

1)随机性

AGDs较合法域名具有更强的随机性,且字符混杂程度也更高。借助信息熵对域名的随机性完成量化处理,具体的计算式为

(1)

(2)

式中,()代表字符出现的总次数;()代表经过量化处理的域名;代表字符串的总数;()代表域名的随机性度量;代表熵值的取值范围;代表域名总数。

2)可发音性和差异性

在大多数情况下,合法的网络实验室或者公共单元注册使用的域名都具有较强的可发音性,同时有利于记忆字符串。是否容易发音可以作为判定恶意域名的标准,同时也是识别大词汇连续发音的重要方法。通过马尔科夫链计算对应概率值,并设定为可发音性的度量标准。其中,马尔科夫链的参数如下所示:

①设定代表有限集合,主要采用式(3)表示

={,,…,}

(3)

式中,代表集合中元素的总数;代表各个元素的状态。

②设定代表状态转移矩阵,={}。其中,代表发生的概率,能够转换为状态。其中

=(+1=|=)

(4)

式中,代表条件概率。

综合上述分析,马尔科夫链描述的是一组状态时间序列的随机变量。状态转换箭头指向自身状态,各个状态值和当前状态的有限个数量存在关联,同时满足以下关系式

(5)

式中,代表状态的有限个数量;+1代表随机变量。

假设网络实验室受到攻击的域名按照-中不同的值完成切割,获取个字符组成的序列。通过式(6)计算集合发生的概率

(6)

式中,()代表序列出现的概率;(|)代表序列和同时出现的概率。

通过条件概率的计算方式,能够准确估算出联合概率(-1|)和边缘概率(-1)。在完成估算的过程中,需要优先完成训练,分别统计-1出现的次数(-1)和-1两者相接出现的次数(-1)。计算结果和语料库对比,并得出相应的相对频度。在足够多的统计量下,获取如下计算式

(7)

将二元马尔科夫链模型作为域名字符串,完成可发音量化处理。通过训练语料库,得出全部序列频度。通过式(7)完成计算,获取对应的联合概率。

3)字符连续性

AGDs会使域名组成字符在域名中均匀分布,同时良性域名的长度比较短,方便记忆。

对网络实验室受到APT攻击的域名数量和分散度设定为主要特征,通过查询IP地址,就可获得实验室的归属地。分散度-16计算式如下

(8)

式中,()代表序列对应的归属地。

对于新增的域名而言,设定恶意集合为,则需要借助集合两者之间的交集情况描述域名的局部情况,采用(,)完成定义。将(,)设定为一个特征,则有

(9)

对于行、个指标以及个标签的数据集={()},对应的预测值可以表示为

(10)

式中,代表叶子节点对应的函数;代表叶子节点标签。

采用分类算法对全部的叶子节点完成分类优化,在整个过程中需要考虑正则化,设定目标函数为

(11)

在对域名完成聚类处理前,优先对域名完成N-Gram完成处理,N-Gram模型需要优先计算n个词汇出现的概率,同时判定语句的组成结构。按照长度将n字节片段完成统计形成序列Gram,通过事先设定的阈值完成过滤,然后将全部Gram的出现频度完成统计,最终形成Gram列表。

对域名的N-Gram处理也是十分简单的,需要对全部域名完成量化处理,它是特征提取十分关键的步骤。

针对域名文本类型而言,不可以直接完成特征提取,需要优先完成N-Gram处理,将其转换为待识别的数值特征,然后对全部的域名完成特征提取和量化处理。

经过若干次演算之后,将左样本的标号集设定为,右样本为,则通过网络特征和词汇属性对实验室受到攻击的域名特征完成提取,如式(12)所示

(12)

式中,代表预测值的一次编导和二次编导;代表残差值。

2.2 网络实验室受APT攻击的域名检测

在网络实验室受APT攻击的域名检测过程中,通过域名长度统计方法查找恶意域名。在二级域名长度分布处理阶段,将采集到的全部域名数据筛选,经过筛选之后,借助2.1小节提取全部的域名特征,计算出各个主机访问域名的二级域名长度距离阈值函数,同时将其完成描点和画图,并由此获取二级域名长度分布异常的阈值。将阈值设定为恶意域名检测的依据。根据得到的阈值将候选者划分为两种类型,分别为:

1)满足二级域名长度的异常分布;

2)不满足二级域名长度异常分布。

二级域名内容相似性处理阶段,合法域名和恶意域名数据可以通过合法网络域名和网络安全机构获得。

在域名数据筛选的过程中,由于采集到的数据量比较大,需要将部分合法的域名实现过滤处理,有效提升检测结果的准确性。

在域名训练的过程中,需要将全部数据按照时间窗完成排列,同时计算对应的域名长度距离函数值,采用描点画图的方式总结恶意域名的变化规律。

在判定的过程中,通过二级域名长度分布异常的阈值,对未检测的域名数据完成判定,判断之前需要筛选数据,同时按照候选者的访问需求计算域名函数值等步骤,将得到的阈值和异常阈值进行对比,假设任意候选者的距离函数大于阈值,则说明该候选者满足二级异常分布需求,则说明该域名是恶意域名。二级域名长度检测流程图如图1所示。

图1 二级域名长度检测流程图

3 仿真研究

为了验证所提网络实验室受APT攻击的域名检测方法的有效性,需要完成仿真测试。将研究方法与文献[3]提出的基于混合词向量深度学习模型的DGA域名检测方法、文献[4]提出的基于词法特征的恶意域名快速检测方法对比,突出实验的可靠性。具体实验结果如下:

1)域名检出数量和漏报率测试结果

实验选取750个域名作为测试对象,分别对三种方法采取域名检出数量和漏报率实验对比,实验结果如图2和图3所示。

图2 不同方法的域名检出数量测试结果

由图2可知,各个方法的检出数量会随着待检测域名数量的增加而增加。相比另外两种方法,所提方法的域名检出数量明显更高一些。

图3 不同方法的漏报率测试结果

分析图3中可以得出,所提方法的漏报率低于其他两种方法。在域名总数为750个时,其漏报率低于25%。此实验结果充分说明所提方法的优越性。

2)测试时间

实验测试对比三种方法的测试时间变化情况,实验结果如图4所示。

图4 不同方法的测试时间对比结果

由图4中的实验数据可知,所提方法的域名检测用时在三种检测方法中最短;文献[3]方法和文献[4]方法的测试时间均较长,最长的测试时间高达1.4min。由此可见,所提方法能够以更快的速度完成网络实验室受APT攻击的域名检测。

3)误检率测试结果

将误检率设定为测试指标,通过误检率来检测整个系统的稳定性。其中误检率取值越高,说明系统的可靠性越高,实验结果如图5所示。

图5 不同方法的误检率测试结果

分析图5可以得出,三种方法的误检率呈直线上升趋势。文献[3]方法和文献[4]方法的上升幅度更加明显。由于所提方法在完成网络实验室受APT攻击的域名检测的过程中,提取域名特征,为后续的检测奠定基础,同时也有效优化了检测结果,全面降低误检率。

4)误除率测试

将误除率设定为系统将正确节点当成恶意节点清除的网络比率。其中,误除率的取值控制在2%以下,则说明清除机制具有比较好的效果。利用图6给出详细的实验结果:

图6 不同方法的误除率测试结果

由图6可知,三种不同检测方法的误除率均在2%以下,说明均具有较好的清除功能。但是所提方法的误除率明显更低。此实验结果进一步说明所提方法的清除性能明显优于另外两种方法。

5)检测正确率测试结果

为了验证所提方法的检测性能,设定检测正确率为测试指标。其中,正确率的取值越高,则说明检测结果越准确。详细的实验结果如表1所示。

分析表1可以得出,所提方法的域名检测正确率高于另外两种文献检测方法。因此可以得出所提方法能够获取比较满意的检测结果。

表1 不同方法的域名检测准确率对比结果

4 结束语

针对传统网络实验室攻击域名检测方法存在的应用弊端问题,设计并提出一种网络实验室受APT攻击的域名检测方法。实验结果表明,该方法有效降低了测试时间以及误检率,具有一定的有效性。但仍存在一些问题需要进一步完成探索和研究,后续将对所提方法以下几方面的内容完成研究:

1)引入全新的检测技术,进一步提升整体检测性能。

2)对各个类型的域名完成深入分析,形成全新的域名集合。

猜你喜欢

域名代表实验室
诠释代表初心 践行人大使命
四季的代表
“代表通道”新观察
这个代表咋这么拗
《江苏教育研究》官方网站域名变更公告
《江苏教育研究》官方网站域名变更公告
电竞实验室
电竞实验室
电竞实验室
电竞实验室