基于粗糙集理论的网络信息安全风险等级分类方法*
2022-09-07骆公志陈圣瑜
骆公志,陈圣瑜
(南京邮电大学,江苏 南京 210003)
0 引言
信息化时代的网络信息安全事件频发,武汉籍大学生返乡群体个人信息泄露事件、小米800 万用户信息泄露事件、国家电网数据泄露事件等,已在一定程度上威胁到社会稳定和国家安全,网络信息安全问题已成为众多学者关注的热点问题。陶彩栋认为大数据时代的网络信息安全主要来自于计算机网络技术应用和网络信息技术实际应用两个层面。过辰楷运用动态关系模型,有效监测出了隐形网络信息漏洞。李黎借助创新第三方支付系统信息泄露风险预警模型,指出泄露风险等级,有效降低了信息泄露事件发生的概率。于鹏洋从源代码层面,通过提取相应的特征代码,来检测网络信息泄露的情况。鉴于已有文献研究中对数据信息处理过程的复杂性,以及粗糙集理论在数据挖掘、风险评估、智能决策等领域的成功应用,本文以粗糙集理论为基础,提出一种更贴近于实际应用的网络信息安全风险等级分类方法。
基于等价关系的经典粗糙集在其实际应用过程中,已被研究者不断的拓展。Kryszkiewicz将等价关系推广为容差关系,解决了不完备信息系统的缺失值问题。Qian从多粒度、多层次的角度分析问题,结合决策粗糙集理论,建立了多粒度决策粗糙集。Zhang基于粒度的不平等性,提出了基于粒度加权的多粒度粗糙集。以下针对网络信息数据呈现出复杂异构、来源广泛、隐私性等特点,同时考虑到网络数据和网络数据获取过程的独立性,在Khan提出的多源信息系统基础上,通过改进成对比较矩阵来获取权重,提出多源不完备信息系统下的加权多粒度粗糙集,并通过实例验证该模型在网络信息安全风险等级分类中的有效性。
1 粗糙集预备知识
1.1 不完备信息系统
设(,∪,,)是一个四元组,其中,为论域,⊆为属性的非空有限集合,∀∈,V表示属性的值域;=∪V表示的值域;为×→的一个映射,(,)=()∈V是在属性上的取值,且至少存在一个属性使()=*,即* ∈V,其中“*”表示未知属性,则称(,∪,,)是一个不完备信息系统。
1.2 容差关系
设不完备信息系统=(,∪,,),为论域,⊆为属性的集合,“*”表示未知属性,则对于属性子集,容差关系T定义为:
定义3设不完备信息系统=(,∪,,),为论域,⊆为属性的集合,“*”表示未知属性,属性子集在论域上诱导的容差关系为T,则对于∀∈关于T所划分的容差类定义为:
定义4设不完备信息系统=(,∪,,),属性子集在论域上诱导的容差关系为T,则对于⊆关于T的下近似、上近似分别定义为:
2 多源不完备信息系统下的加权多粒度粗糙集
2.1 多源不完备信息系统下的多粒度粗糙集
设多源不完备信息系统=(,,…,IS),不完备信息系统IS=(,∪,V,f),IS间相互独立,⊆为属性子集,T()为容差类,∕={,,…,D} 为决策类,则对于∀⊆,关于多源不完备信息系统下的乐观多粒度粗糙集的下近似、上近似分别定义为:
对于∀⊆关于多源不完备信息系统下的悲观多粒度粗糙集的下近、似上近似分别定义为:
设多源不完备信息系统=(,,…,IS),不完备信息系统IS=(,∪,V,f),IS间相互独立,0 ≤≤1,⊆为属性子集,T()为容差类,则对于∀⊆关于多源不完备信息系统下的可变多粒度粗糙集的下近似、上近似分别定义为:
多源不完备信息系统下的可变多粒度粗糙集与乐观、悲观多粒度粗糙集具有以下关系:
2.2 多源不完备信息系统下的加权多粒度粗糙集
在上述多源不完备信息系统的决策过程中,对每个不完备信息系统的评价是相等的。而在实际获取网络信息安全风险等级的过程中,往往每个信息系统都存在重要性的差别,有的信息系统相对重要,可以赋予较高的权重;有的较为次要,则赋予较低的权重。为了解决此类情况,本文提出了一种新的权重确定方法。
定义确定权重的成对比较矩阵为:
其中,a之间相互独立。成对比较矩阵的取值规则如表1 所示。成对比较矩阵采用1~9 标度方式,对不同的情况给出对应的数值标度。
表1 成对比较矩阵取值规则
由定义5和定义9易证。略。
多源不完备信息系统下的加权多粒度粗糙集有如下性质:
多源不完备信息系统下,对于∀⊆,目标集的乐观、悲观、可变、加权多粒度粗糙集对应的近似精度和分类质量有以下关系:
由定义3,定义9和定理3可证。
3 应用实例
取目标集合=={,,,,,},阈值=0.55,经专家评估得出关于不完备信息系统的权重相关的成对比较矩阵如下:
⑴计算在信息系统,,,下各对象所对应的容差类,如表3所示。
表3 容差类
⑵根据定义10,由成对比较矩阵计算出每个信息系统的权重分别为:
=0.44,=0.28,=0.17,0.11
⑶当=0.55 时,目标集在多源不完备信息系统下的乐观、悲观、可变、加权多粒度粗糙集的下近似、上近似分别为:
根据以上计算结果,可得目标集的近似精度和分类质量分别为:
结合表2,以对象为例。虽然对象在信息系统下的风险评价大多为良,但其总体评价仍为安全,原因在于所对应的权重较小,而在权重较大的下其风险评价大多为优,体现出良好的态势。按照本文给出的加权计算方法,最终计算得出对象总体评价为安全,在此决策过程中,信息系统的质量被考虑在内。
表2 网络信息安全风险等级多源不完备信息决策系统
同时由式⑶、式⑷可知,当阈值发生变化时,多源不完备信息系统下的加权多粒度粗糙集的下、上近似集也随之发生变化。值越小,分类质量越大,分类效果越佳;值越大,分类质量越小,分类效果越差。因此,适当调整阈值的大小,可在一定程度上降低噪声数据的干扰,进而有效提高该模型在网络信息安全风险等级识别应用中的分类能力,更具有实际意义。
4 结束语
随着网络信息安全事件发生频率的提升,对网络信息安全风险等级评估和分类的要求也在提高。本文依靠粗糙集在数据处理中的优势,提出了一种基于粗糙集理论的网络信息安全风险等级分类方法。首先梳理各类粗糙集模型的优势,再结合网络信息安全数据的特征,在多源信息系统的基础上引入容差关系,最后通过改进成对比较矩阵赋予每个信息系统对应的权重,提出了多源不完备信息系统下的加权多粒度粗糙集,给出了上下近似定义,讨论了与模型相关的定理和性质,且通过实例分析了该模型在网络信息安全风险等级分类中的有效性和容错性。接下来将对网络信息安全识别指标体系做更深入的研究,同时拓展粗糙集模型,进行属性约简和规则获取,为网络信息安全识别和网络信息安全预警提供有效理论参考。