一种多维数据融合的网络威胁溯源迭代分析模型研究*

2021-05-08万抒，王进，裴华

通信技术 2021年4期

万抒，王进，裴华

（中国电子科技集团公司第三十研究所，四川成都 610041）

0 引言

近年来，随着网络威胁向广域化、复杂化和组织化演进发展，网络威胁已不再是局限于单区域的单一破坏行为，而是一系列恶意行为或步骤的复杂组合。从防御方的视角来看，难以预先、准确地知晓网络威胁全生命周期的各个步骤及具体攻击行为，如何寻找各类恶意行为或步骤之间的蛛丝马迹，如何完整复盘网络威胁全过程的实施步骤，一直是网络安全领域的难点问题。本文提出了利用大数据分析技术，对多个维度的数据进行融合关联，采用寻找“同一威胁在不同维度的相似性破坏现象和相似性动作行为”的方法，逐次迭代还原网络威胁的整个过程。

1 相关工作

近年来，为了网络攻击行为以及各个步骤描述语义的同一性、标准化和结构化，国内外研究机构提出了攻击链模型，一般也称为杀伤链模型（Cyber-Kill-Chain）。它是一种基于网络攻击全生命周期的模型[1]，最早是由洛克希德·马丁公司的计算机事件响应小组提出，采用时间顺序描述入侵者对攻击目标系统实施攻击所采取的路径及手段的集合，将网络攻击划分为“目标侦察—武器化—交付和投递—外部利用—安装—命令和控制—恶意活动”7个阶段[2]。

上述经典的攻击链模型（Cyber-Kill-Chain）不能很好地适用于内部网络威胁，因此一些国内外的学者提出了适用于内部网络威胁的攻击链模型，包括LogRhythm的5阶段模型、Lan-caster的3阶段模型、SDAPT的8阶段模型等[3]。总体来说，各个攻击链模型均认为很多网络攻击或网络威胁存在相对固定的生命周期和步骤[4]。

2 模型总体设计

为了解决针对广域化、复杂化、组合网络威胁的溯源复盘问题，本文提出了一种多维融合分析的网络威胁溯源迭代分析模型，采用大数据分析技术，利用“寻找同一网络威胁在不同维度的相似性破坏现象和动作行为”的思想，以资产作为关联分析的主线，对多个维度的数据进行融合关联，在资产损伤现象、资产运行现象、资产操作行为和资产网络行为等方面形成安全数字矩阵，采用安全数字矩阵的“横向相似关联+纵向追踪关联”相结合的方法，构建从“相似损伤特征”“相似运行特征”“相似操作行为”到“相似网络行为”的逐级反向追踪分析机制，逐段推导网络威胁各个步骤的关联关系和行为特征，以此为基础实现整个网络攻击链的智能化分析和复盘。

参照杀伤链模型[5]，以时间为序，形成总体映射模型：“相似损伤特征”主要是针对恶意活动阶段的外部特征：“相似运行特征”主要是针对安装、命令和控制阶段的外部特征：“相似操作行为”主要是针对交付和投递、外部利用阶段的行为特征分析：“相似网络行为”主要是针对武器化、交付和投递阶段的行为特征分析。总体设计如图1所示。

图1 模型总体设计

3 网络威胁溯源分析机制

如图2所示，以A、B、C、D、E、F共6个资产的应用场景为例，说明多个资产的网络威胁溯源分析机制。本文提出模型的前提条件是对各类安全数据资源的语法语义实现了一致性、标准化的描述，即不同类别的安全数据资源已具备融合分析处理的能力。

图2 网络威胁溯源分析机制

3.1 资产受损相似性分析

依托于相应的安全检测分析手段，对病毒木马、网络攻击、系统窃权、数据泄露等资产破坏行为进行检测，定期将基于发现的问题分别形成相应的资产受损特征链，如病毒木马的资产受损链表示为：

式中，Event-Vir(ai)表示已发现的某一病毒木马事件。以此类推，网络攻击的资产受损链表示为：

系统窃权的资产受损链表示为：

数据泄露的资产受损链表示为：

为了确保资产受损特征矩阵的标准化和一致性，将只选取各个资产受损特征链的前十项重要特征，以此整合各个资产受损特征链形成资产受损特征矩阵：

同理，定期形成资产B、C、D、E、F……的资产受损特征矩阵AdM(Bi),AdM(Ci),AdM(Di),AdM(Ei),AdM(Fi),…

对资产受损特征矩阵AdM(Bi),AdM(Ci),AdM(Di),AdM(Ei),AdM(Fi),…进行关联对比分析，若发现特征矩阵存在2个以上相同的要素，则将其划分为一组，假设A、B、C、D、E、F的资产受损特征矩阵存在2个以上的相同要素，将其划分为“相似受损资产集”。

3.2 资产内部威胁溯源机制

依托于相应的安全检测和安全审计手段，对“相似受损资产集”中相关的资产一段时间内的运行信息进行融合分析，包括系统策略、系统用户、系统漏洞、系统进程等运行状态信息，定期提取相关特征分别形成相应的资产运行特征链，如系统策略的资产运行特征链表示为：

系统用户的资产运行特征链表示为：

系统漏洞的资产运行特征链表示为：

系统进程的资产运行特征链表示为：

为了确保资产运行特征矩阵的标准化和一致性，将只选取各个资产运行特征链的前10项重要特征，以此整合各个资产运行特征链形成资产运行特征矩阵：

同理，定期形成资产B、C、D、E、F……的资产受损特征矩阵AeM(Bi),AeM(Ci),AeM(Di),AeM(Ei),AeM(Fi)。

依托于相应的安全检测和安全审计手段，对“相似受损资产集”中相关的资产一段时间内的内部操作行为进行融合分析，包括策略操作、外设操作、进程操作、数据操作等操作行为信息，定期提取相关特征，按照3.1节的模式分别形成相应的资产操作行为链，包括进程操作的资产操作行为链表示为AoC-Str(Ai)，外设操作的资产操作行为链表示为AoC-Dev(Ai)，进程操作的资产操作行为链表示为AoC-Pro(Ai)，数据操作的资产操作行为链表示为AoC-Dat(Ai)。

为了确保资产运行特征矩阵的标准化和一致性，将只选取各个资产网络行为链的前10项重要特征，以此整合各个资产操作行为链形成资产操作行为矩阵：

同理，定期形成资产B、C、D、E、F……的资产受损特征矩阵AoM(Bi),AoM(Ci),AoM(Di),AoM(Ei),AoM(Fi)。

基于安全大数据分析技术，通过发现同一网络威胁在不同资产的受损特征、运行特征和操作行为等方面的相似性，逐步追溯还原网络威胁在不同阶段的外在特征，资产A、B、C、D、E、F已形成一个“相似受损资产集”，以此为例实施后续相关数据分析。

以“相似受损资产集”中的时刻为起点，反向追踪分析集合中A、B、C、D、E、F在一段时间内所有的资产运行特征矩阵，如反向追踪资产A、B、C、D、E、F在过去24个时间间隔内的资产运行特征矩阵，即对{(AeM(Ai),AeM(Ai-1),…,AeM(Ai-23)},{(AeM(Bi),AeM(Bi-1),…,AeM(Bi-23)}，{(AeM(Ci),AeM(Ci-1),…,AeM(Ci-23)}，{(AeM(Di),AeM(Di-1),…,AeM(Di-23)},{(AeM(Ei),AeM(Ei-1),…,AeM(Ei-23)},{(AeM(Fi),AeM(Fi-1),…,AeM(Fi-23)}进行对比关联分析，发现资产A、B、C、D存在相同的运行特征要素，将其划分为“相似运行特征资产集”，并形成“相似资产运行特征矩阵集”。

同理，以“相似受损资产集”中的时刻为起点，反向追踪分析集合中A、B、C、D、E、F在一段时间内所有的资产操作行为矩阵，反向追踪资产A、B、C、D、E、F在过去24个时间间隔内的资产运行特征矩阵，发现资产B、C、D、E存在相同的运行特征要素，将其划分为“相似操作行为资产集”，并形成“相似资产操作行为矩阵集”。

取“相似运行特征资产集”和“相似操作行为资产集”的并集，形成“相似威胁特征资产集”，即资产A、B、C、D、E组合形成“相似威胁特征资产集”，之后，基于相同的资产受损特征要素，提取形成资产受损特征AdF(t)；基于相同的资产运行特征要素，提取形成资产运行特征AeF(t)；基于相同的资产操作行为要素，提取形成资产内部行为特征AoF(t)；以此作为资产内部某一威胁的相关步骤特征，并以此组合形成资产内部威胁链：

3.3 资产外部威胁溯源机制

依托于相应的安全检测和安全审计手段，对“相似威胁特征资产集”中相关的资产一段时间内的网络操作行为进行融合分析，包括文件传送、远程登陆、应用访问、数据获取等操作行为信息，定期提取相关特征分别形成相应的资产网络行为链，包括文件传输的资产网络行为链AnC-Fil(Ai)，远程登陆的资产网络行为链AnC-Log(Ai)，应用访问的资产网络行为链AnC-App(Ai),数据获取的资产网络行为链AnC-Dta(Ai)。为了确保资产运行特征矩阵的标准化和一致性，将只选取各个资产网络行为链的前10项重要特征，如果存在要素不够的情况，以数字0补齐，以此整合各个资产网络行为链形成资产网络行为矩阵AnM(Ai)、AnM(Bi)、AnM(Ci)、AnM(Di)。

以“相似威胁特征资产集”中的时刻为起点，反向追踪分析集合中A、B、C、D、E在一段时间内所有的资产网络行为矩阵，以1个小时为时间间隔，反向追踪资产A、B、C、D、E、F在过去24个时间间隔内的资产运行特征矩阵，发现资产A、B、D、E存在相同的网络行为要素，将其划分为“相似网络行为资产集”，并形成“相似网络行为资产集”为：

基于“相似网络行为资产集”相同特征要素和“资产内部威胁链”进行相关性分析，若存在强相关行为，则提取相关特征作为资产网络威胁特征AnF(t)，以此组合形成网络威胁链：

4 模型迭代验证机制

基于网络威胁链AtC(t)的网络行为关系进行回溯定位分析，将网络威胁源头的资产作为可疑资产，之后将网络威胁链和相关可疑终端作为网络威胁情报，实现全网发布和共享，如图3所示。

后续的网络威胁溯源分析过程中，可利用网络威胁链AtC(t)和可疑资产作为威胁情报辅助进行分析，同时，持续利用后续更多的数据样本，持续验证网络威胁链的特征是否准确且全面，可疑终端是否再次发生类似威胁行为，基于相关验证数据迭代修正上述威胁情报，持续提升其准确性。

图3 模型迭代验证流程

5 实例分析

本文在某试验网络中选择2 000个终端/服务器进行测试，终端/服务器上部署主机安全软件，能够实时采集上报各类威胁告警信息、安全事件信息、运行状态信息、用户操作信息、网络通信信息等，汇总到后台的安全大数据平台，安全大数据平台具备多维度多层次的融合分析能力；同时，在后台构建一个网络威胁情报系统，能够基于安全大数据平台的分析数据形成新的威胁情报，或修正相关威胁情报。

经过10天的验证，采用该模型进行溯源迭代分析，已回溯了2个网络威胁链，结合安全专家的进一步分析，成功定位到威胁源资产以及相应的威胁动作。