基于概率神经网络的安全态势要素提取

2020-12-10常镒恒马照瑞李霞巩道福

网络空间安全 2020年10期

常镒恒马照瑞李霞巩道福

摘要：网络安全态势要素提取精度的高低直接影响着态势感知系统的性能，针对在复杂异构的网络环境中网络安全态势要素提取困难的问题，文章提出了一种基于概率神经网络的安全态势要素提取方法。在该方法中，通过粗糙集对原始数据进行属性约简，删除冗余属性，然后，使用概率神经网络对约简后的数据集进行分类训练。为验证该方法的有效性，使用NSL-KDD数据集对该要素提取方法进行仿真测试。实验分析结果表明，该方法是一种有效、可行的态势要素提取方法，与其传统方法相比，该方法明显地提高了网络态势要素提取的准确性，为网络安全态势的评估和预测提供了有力的数据保障。

关键词：态势感知;态势要素提取;粗糙集;概率神经网络

中图分类号： TP393.08 文献标识码：A

1 引言

随着网络规模的扩大，网络新应用的出现，网络空间安全形势不容乐观，网络安全态势感知技术是当下信息安全领域研究的热点。网络安全态势感知能够从大量且存在噪声的数据中辨识出网络中的攻击行为，从而融合这些信息对网络的安全态势进行实时的评估和监控，以达到对网络状态的整体把控。态势感知系统由三部分组成，分别是态势要素提取、态势评估和态势预测。

在网络安全态势感知中，态势要素提取是指在大规模网络环境中采用基于大数据的关联归并和深度挖掘等技术手段，结合协议还原识别、静态特征匹配、动态行为分析、异常行为挖掘等检测方法，从离散的、孤立的数据中探测发现潜在的安全威胁。态势要素提取一般分为三步，分别是数据获取、数据预处理和数据分类。数据获取主要是通过传感器、嗅探器采集网络中的流量信息、日志信息等安全相关的数据，数据预处理是通过属性约简算法对数据进行约简，删除冗余。常见的属性约简算法有主成分分析法[1]、奇异值分解法[2]和粗糙集[3]。数据分类是指使用分类器把约简后的数据集进行分类训练，从而实现态势要素的分类提取。常见的分类算法有决策树[4]、贝叶斯[5]、人工神经网络[6]、支持向量机[7]和基于关联规则[8]的分类等。

随着对网络安全态势要素提取技术的不断深入研究，科研人员开始把一些新兴技术引入到态势感知中。TimBass[9]把数据挖掘技术引入到基于多传感器数据融合的网络安全态势感知框架中，运用数据挖掘中的聚类、关联、统计分析等技术对网络安全态势要素进行提取。L等人[10]主要是对网络的脆弱性信息进行采集，将可信漏报、可信误报、漏报率、误报率等指标作为漏洞扫描的度量指标。除此之外，国外大量机构也投入到网络态势要素提取的研究中，如美国劳伦斯伯克利国家实验室开发的“Spinning Cube of Potential Doom”系统[11]，卡内基梅隆大学开发的SILK[12]系统等。

国内学者则是从全方面，多角度，多层次对网络安全态势进行提取。戚犇等人[13]提出了基于信息增益的改进朴素贝叶斯分类约简方法，通过信息增益设置权值，获取关联性强的态势因子，并且在传统的朴素贝叶斯模型上加入调控因子θ，通过选取适当的θ值来提高分类的精确度。赖积保、王慧强[14]等人提出了基于相异度计算和指数加权DS证据理论的网络安全态势要素提取方法，该方法不仅考虑到各安全设备之间的互补性，而且能够有效地提取网络中的态势要素。

上述方法在推进态势要素提取的研究中具有重要的作用，不足之处就是具有较强的主观性，需要大量的先验知识，而在复杂的网络环境中获取先验知识是比较困难的，因此，本文提出了基于粗糙集的概率神经网络安全态势要素提取方法。通过粗糙集对获取到的原始数据集进行约简，删除冗余的属性，降低冗余度，然后，使用概率神经网络分类器对约简后的数据集进行分类训练，从而实现了对网络安全态势要素的高效提取。

2 粗糙集基本理论

粗糙集（Rough Set，RS）理论是一种数据分析处理理论，它能够在不影响最终决策分类结果的情况下，对数据集的属性进行约简。RS的主要思想是利用已知的知识库，将不精确或不确定的知识用已知的知识库中的知识来（近似）刻画。

2.1 知识的表示

给定信息系统（U、Q、V、f），U是对象集合，也就是态势要素集合，Q是属性集合，V是所有属性的值域，f表示一种映射，反应对象集合之间的值，将对象属性映射到它的值域。当信息系统中的属性集Q能分为条件属性集C和决策属性集D，即有C∪D=Q且C∩D=，则该信息系统称为决策表。

2.2 不可分辨关系

在给定的论域U上，任意选择一个等价关系集R和R的子集，且，则P中所有等价关系的交集依然是论域U中的等价关系，称该等价关系为P的不可分辨关系，记作IND（P）。

2.3 集合的上下近似

上近似包含了所有那些可能是属于X的元素，下近似包含了所有使用知识R可确切分类到X的元素。在給定的知识库K=中，任意选择集合，可以定于X关于知识R的上下近似：

2.4系统参数的重要度

在给定的知识库K=上，存在着R∈IND（K），可以用于说明系统的特征，称之为系统参数。对于任意集合，我们可以得到X相对于这个系统参数R所提供的信息的数量的多少，称这个数量为X的重要度：

随着X相对于R的重要度的增加，使用集合X表示系统参数R的程度也会增加。

2.5 知识的依赖度

在给定的知识库K=中，，定义γp（Q）为知识Q对于知识P的依赖程度。POSp（Q）即Q的P的正域，其中包含了论域U的信息中能够按照P进行分类后能够被唯一的划分到Q的等价类中的那一部分：

显然，0≤k≤1，k的数值大小反映了知识R对知识Q的依赖程度。

3 概率神经网络

概率神经网络（PNN）是一种前馈型并行算法的神经网络，它采用指数函数来代替S形激活函数，可以计算出接近于贝叶斯最佳判定面的非线性判别边界。PNN的优势在于可以把非线性学习算法转换成线性学习算法来处理问题，同时保证非线性算法的高精度等特性。

概率神经网络包括输入层、隐含层、求和层以及输出层，其结构如图1所示。

第一层为输入层，输入测试样本值，并将接收的数据传递给隐含层，其神经元个数等于样本的特征维度。第二层隐含层是径向基层，每一个隐含层的神经元节点拥有一个中心，该层接收输入层的样本输入，计算输入向量与中心的距离，最后返回一个标量值，神经元个数等于输入训练样本个数。向量x输入到隐含层，隐含层中第i类模式的第j神经元所确定的输入/输出关系由下式定义：

i=1，2，…M，M为训练样本的总数类。D为样本空间数据的维数，xij为第i类样本的第j个中心。求和层把隐含层中属于同一类的隐含神经元的输出做加权平均：

vi表示第i类类别的输出，L表示第i类的神经元个数。求和层的神经元个数等于类别数M。

输出层取求和层中最大的一个作为输出的类别：

在实际计算中，输入层的向量先与加权系数相乘，再输入到径向基函数中进行计算：

x和ω均为单位长度，对结果进行径向基运算，为平滑因子，值与分类精度相关。求和层中的神经元只与隐含层中对应类别的神经元有连接，所以求和层的输出与各类基于内核的概率密度的估计成比例，通过输出层的归一化处理，就能得到各类的概率估计。网络的输出层由竞争神经元构成，神经元个数与求和层相同，它接收求和层的输出，做简单的阈值辨别，在所有的输出层神经元中后验概率密度最大的神经元输出为1，其余神经元输出为0。

4 基于概率神经网络的安全态势要素提取

网络中的态势要素主要分为两大类：静态数据和动态数据。静态数据主要包括主机信息、网络信息和IDS信息等，动态数据主要包括活动信息、行为信息、脆弱性信息、攻击信息和感知结果信息等，其中攻击要素对网络安全态势研究来说较为重要。这些数据信息主要是通过各种传感器在不同设备层进行数据采集，如漏洞扫描记录、SNMP数据、日志类数据、NetFlow数据分析记录等。将这些异构传感器采集的数据信息通过RS对其进行预处理，主要是对原始数据进行属性约简，删除冗余数据以及重要属性低的数据，过程如图2所示。

属性的重要程度对分类结果也会有影响，使用分类器对原始态势要素数据进行提取，不仅分类精度低而且分类效率也不高。因此，要先使用属性约简算法对原始态势要素数据进行预处理，删除冗余以及重要属性低的数据，这将大大提高分类精度和分类效率。本文提出的基于粗糙集的概率神经网络态势要素提取方法如图3所示。

本文提出的基于粗糙集的概率神经网络态势要素提取方法的具体流程分为四步骤：

步骤一：对原始态势数据进行预处理，获得态势要素决策表;

步骤二：通过粗糙集对数据进行约简，获得优化后的态势要素子集;

步骤三：使用概率神经网络分类器对优化后的态势要素子集进行分类训练，得到PNN强分类器;

步骤四：测试结果。

5 实验与分析

5.1 实验数据

本文实验选自的数据集是NSL-KDD测试数据集，它是目前众多公开数据集中公认的较为权威的入侵检测数据集，NSL-KDD数据集是KDD 99数据集的子集，对KDD 99数据集做了精简处理，它删除了KDD 99数据集中的冗余数据记录。NSL-KDD数据集包含了41个特征属性和1个标签属性，标签属性分为Probe、DoS、U2R、R2L和Normal五种类型，其中前四种为异常数据类型，最后一种为正常数据类型。表1展示了本文实验中不同攻击在训练集和测试集上的分布情况。

5.2 实验分析

NSL-KDD数据集中的数据是网络中的真实数据，数据类型比较繁杂且大部分都是连续的，因此在实验前需要对NSL-KDD数据集进行预处理，把连续的数据离散化。将预处理后的数据分别导入传统的PNN模型和本实验改进的基于RS的PNN分类模型，表2展示了对NSL-KDD数据集进行检测的分类效果对比结果。

从实验中可以看出，本文改进的概率神经网络模型分类的准确性均高于传统的概率神经网络模型，在一定程度上提高了数据分类的精确度。根据本文实验的结果表明，本文提出的基于RS的PNN分类模型与传统的PNN模型相比，有效提高了网络安全态势要素提取的准确性，实现了网络安全态势要素的高效提取。

6 结束语

本文将粗糙集（RS）理论与概率神经网络相结合，提出了一种基于RS的概率神经网络态势要素提取的分类模型，先是通过RS对态势要素集合进行预处理，删除冗余的态势要素，降低數据集的冗余度，然后对约简后的态势要素数据集使用概率神经网络进行分类训练，从而实现了对态势要素的高效精确提取，为后面网络态势的评估和预测提供了有效的数据支撑。实验研究的结果表明，本文提出的基于RS的概率神经网络分类模型与传统的概率神经网络模型相比，有效地提高了网络安全态势要素提取的速度和准确性，实现了网络安全态势要素的高效提取。但是，这种提取算法还有进一步完善和优化的发展空间，就是着重于提高算法的运行效率。因此，算法的运行效率将是下一步学术研究工作的重点。

基金项目：

1.国家自然科学基金项目（项目编号：61302159）;

2.国家自然科学基金项目（项目编号：61379151）;

3.国家自然科学基金项目（项目编号：61272489）;

4.国家自然科学基金项目（项目编号：61602508）;

5.国家自然科学基金项目（项目编号：61772549）;

6.国家自然科学基金联合重点项目（项目编号：U1804263）。

参考文献

[1] Jolliffe I T， Cadima J. Principal component analysis： a review and recent developments[J]. Philosophical Transactions of the Royal Society A： Mathematical， Physical and Engineering Sciences， 2016， 374（2065）： 20150202.

[2] Li H， Kluger Y， Tygert M. Randomized algorithms for distributed computation of principal component analysis and singular value decomposition[J]. Advances in Computational Mathematics， 2018， 44（5）： 1651-1672.

[3] Mac Parthalain N， Jensen R， Diao R. Fuzzy-rough set bireducts for data reduction[J]. IEEE Transactions on Fuzzy Systems， 2019.

[4] Kotsiantis S B. Decision trees： a recent overview[J]. Artificial Intelligence Review， 2013， 39（4）： 261-283.

[5] Mihaljevi? B， Bielza C， Larra?aga P. bnclassify： Learning Bayesian Network Classifiers[J]. 2019.

[6] Walczak S. Artificial neural networks[M]//Advanced Methodologies and Technologies in Artificial Intelligence， Computer Simulation， and Human-Computer Interaction. IGI Global， 2019： 40-53.

[7] Cortes C， Vapnik V. Support-vector networks[J]. Machine learning， 1995， 20（3）： 273-297.

[8] Kotsiantis S， Kanellopoulos D. Association rules mining： A recent overview[J]. GESTS International Transactions on Computer Science and Engineering， 2006， 32（1）： 71-82.

[9] Bass T. Intrusion detection systems and multisensor data fusion[J]. Communications of the ACM， 2000， 43（4）： 99-105.

[10] Loh P K K， Subramanian D. Fuzzy classification metrics for scanner assessment and vulnerability reporting[J]. IEEE Transactions on Information Forensics and security， 2010， 5（4）： 613-624.

[11] Lau S. The spinning cube of potential doom[J]. Communications of the ACM， 2004， 47（6）： 25-26.

[12] Householder A D， Seacord R C. A Structured Approach to Classifying Security Vulnerabilities[J]. paper， CMU/SEI-2005-TN-003， 2005.

[13] 戚犇，王夢迪.基于信息增益的贝叶斯态势要素提取[J].信息网络安全，2017（09）：54-57.

[14] 赖积保，王慧强，郑逢斌，冯光升.基于DSimC和EWDS的网络安全态势要素提取方法[J].计算机科学，2010，37（11）：64-69+77.

作者简介：

常镒恒（1995-），男，汉族，河南洛阳人，郑州轻工业大学，硕士;主要研究方向和关注领域：网络安全态势感知。

马照瑞（1978-），男，汉族，河南辉县人，解放军信息工程大学，博士，郑州轻工业大学，高级工程师;主要研究方向和关注领域：网络安全、人工智能。

李霞（1962-），女，汉族，河南济源人，华中科技大学，硕士，郑州轻工业大学，教授;主要研究方向和关注领域：计算机网络、教育大数据。

巩道福（1984-），男，汉族，山东淄博人，解放军信息工程大学，博士，中国人民解放军战略支援部队信息工程大学，讲师;主要研究方向和关注领域：网络态势感知。

展开全文▼