APP下载

基于数据挖掘的企业信息风险评估

2023-11-09高旦董斌丁小蔚

微型电脑应用 2023年10期
关键词:数据挖掘信息安全代表

高旦, 董斌, 丁小蔚

(浙江华云电力工程设计咨询有限公司,浙江,杭州 310000)

0 引言

伴随着企业信息化的飞速普及,各种企业信息安全问题迎面而来。同时,信息安全问题具有影响范围广以及影响程度深等特点[1-2],当信息安全出现问题很难解决和控制时,科学地对企业信息进行风险评估,提前做好防范措施具有十分重要的意义。国外对信息安全评估研究已经有40多年的历史,国外专家在早期就已构建了国家认证机构与风险评估认证体系,现阶段这些技术已经发展的十分成熟。在国外已有技术的基础上,国内相关专家提出了一些较好的研究成果,例如王少英等[3]采用带有非凸惩罚的SVM模型对影响中小企业信息的风险因素进行分析,同时通过LassoSVM完成相关变量的选择以及对应参数计算,以此为依据构建信用风险评估模型。孟庆勇等[4]对煤矿实施的安全条例进行特征转换,构建对应的关联系数矩阵。计算危险发生系数以及更高等级风险发生的概率,组建安全风险评估模型。在上述两种方法的基础上,结合数据挖掘技术,提出一种基于数据挖掘的企业信息风险评估方法。经实验测试证明,本文方法具有良好的数据挖掘能力,同时还能够有效提升评估效率和评估结果的准确性。

1 方法

1.1 企业信息挖掘

灰色建模是进行灰色预测以及灰色决策建模的基础[5-6],在设定条件下,主要通过导数对序列的主要特性进行了分析。

当序列满足准光滑条件时,通过多次累加即可形成对应的序列,进而构建灰色模型,对应序列X的表达式为

X=(x(1),x(2),…,x(n))

(1)

构建累差矩阵A和B,获取以下形式的计算式:

(2)

(3)

采用式(4)表示h个序列n阶微分方程对应的动态模型GM(n,h):

(4)

式中,d(n)和tn代表系数向量,al代表变量。

为了有效对建模的质量和系统进行分析,对于收集到的初始数据进行变换和处理,消除量纲以及可比性。

采用关联分析中常用的数据变换对齐进行归纳处理,具体如式(4):

(5)

式中,M、N以及Nt分别代表不同指标集对应的下标集合。

为了更好完成对灰色关联序列的有效分析[7-8],首先需要构建一套相对完成的灰色关联理论体系,同时对关联度进行计算,如式(5):

(6)

式中,r(x0,xl)代表关联度,x0(k)代表位移差,xi(k)代表斜率。

灰色聚类分析主要是以灰色关联度为基础的聚类分析方法,主要将其应用于相同因素的合并,促使复杂的系统变得简单化。在上述分析的基础上,将灰色关联分析理论与灰色聚类方法两者进行有效结合,最终实现企业信息挖掘[9-10]。

1.2 基于数据挖掘的企业信息风险评估体系构建

由于企业信息具有数量多、处理时效高等特点,假设采取人工处理,会导致成本和处理时间增加。为了更好实现企业信息风险评估,需要优先构建企业信息风险评估体系,分析企业现阶段的管理情况,采用数据挖掘方法构建可量化的数学模型。评估指标的选取对于评估结果具有十分重要的意义,因此在选取评估指标的过程中,需要结合我国的国情,制定企业风险评估指标需要遵循的首要原则。在备选评估体系指标的过程中,主要借助问卷调查方式。通过匿名问卷调查的方式征询我国相关专家的意见,对获取的全部意见进行归纳、统计、整理和分析,客观综合多方专家的意见,最终确定企业信息风险因素。其中,评估指标的筛选主要从以下两个方面进行。

(1) 对风险要素的筛选

对风险要素的筛选主要就是对资产、威胁源与攻击行为等确定的。通过企业的实际运行情况确定企业的资产信息,对企业的历史运行状态和威胁情况进行分析,最终确定危险源以及其他攻击行为。

(2) 对企业安全要素组合进行筛选

针对企业而言,除了一些因素可能存在意外,还有一些组合也有可能是不可行的。

优先对企业的经营现状进行分析,同时确定建模数据的主要来源,对采集到的数据依次进行预处理和清洗等操作,详细的操作步骤如下。

优先清除和建模不存在任何关联的评估指标,由于源数据库包含的很多指标和企业信息评估并没有过大的关联,所以需要将其在数据库中清除。然后,对剩余的数据进行格式化统一操作,将其放置在同一服务器中。对于小部分不满足需求的数据,需要进行属性转换。最后,为了有效避免数据质量问题的形成,需要对全部数据进行清洗[11]。

为了简化模型的计算复杂度,针对全部备选指标进行分组处理。企业信息风险评估体系的建立为我国企业的发展提供了有效的决策信息,整个评估体系主要由9个评估指标组成,具体如图1所示。

图1 企业信息风险评估体系

1.3 构建企业信息风险评估模型

在企业风险评估体系中,需要借助三角模糊熵理论有效克服数据量不完整问题[12-13],促使评估结果更加贴合实际,有效提升评估结果的可靠性和有效性。

正向指标主要是指信息安全状态以及和指数值成正比的指标,即指标取值越大,则信息安全状况就越好,对应的正向指标打分公式dij为

(7)

式中,j代表评估对象,n代表被评估对象的总数,Vij代表第j个评估对象第i个指标的取值。

负向指标主要是指指标信息安全状况和指数成反比的指标,同时也说明指数取值越小,企业的信息安全性越高。利用式(7)给出负向指标对应的打分公式dkj:

(8)

式中,Vkj代表第j个评估对象第k个指标的取值。

适中指标主要是指评估指标值越接近任意规定数值越好的指标。通过将温度控制等相关指标设定为适中指标,全面提升评估结果的准确性。其中,适中指标的打分公式dlj如下:

(9)

式中,Vj0代表评估指标额的适中值,Vlj代表第j个评估对象第l个指标的取值。

最佳区间指标主要是指指标值满足任意特定的合理区间内指标,可以避免评估结果的片面性,有效确保评估结果的准确性。适中区间最佳区间打分公式可以表示为

(10)

式中,fij代表权数的取值范围。

通过三角模糊法确定指标权重值,优先设定三角模糊数rl,对应的隶属度函数可以表示为

(11)

式中,aij、bij和cij代表模糊程度。

确定专家评估权重集E:

E={e1,e2,…,ek}

(12)

当模糊权重确定以后,主要将熵权和三角模糊两者进行线性组合,构建企业信息风险评估模型Rij[14],根据建立的模型进行评估:

(13)

(14)

式中,q1和q2分别代表指标最佳区间的下限和上限。

设定xij代表第i个被评估企业的第j个指标的观测数据,n代表被评估对象的总数,m代表第i个被评估对象的指标总数。对于任意一项指标而言,观测数据xij的差异性越大,则说明该项指标对系统的作用就比较大。其中,熵主要用来衡量信息的不确定性;当熵的取值增加,对应的信息量就会降低;反之,则信息量增加。通过熵值法确定指标权数的具体操作步骤如下所示:

(1) 计算第i个对象和第j个指标的特征比重。

(2) 通过熵值计算公式获取第j个评估指标的熵值ej。

根据以上过程,实现了基于数据挖掘的企业信息风险评估。

2 仿真实验

本文实验均在一台操作系统为Windows 10的笔记本电脑中进行,利用MATLAB软件进行模型测试。为了验证所提基于数据挖掘的企业信息风险评估的有效性,选取J供电企业作为测试对象,针对信息安全问题,对专家、企业管理人员、技术人员等进行采访和统计,选取企业资产机密性、完整性和可用性作为指标,利用三角模糊法确定指标权重值,包括机密性指标权重为0.5,完整性指标权重为0.3,可用性指标权重为0.2,基于此,对企业资产进行分类,对其价值进行赋值,由此得到下表1。

表1 企业资产价值及等级表

根据提上数据,选取企业信息的分类精度和企业信息挖掘平均时间作为测试指标,利用本文方法对该企业数据进行挖掘,测试其数据挖掘能力。其中,当分类精度在85%以上,信息挖掘平均时间在25 s以下,则说明所提方法具有良好的数据挖掘能力。具体实验测试结果如图2、图3所示。

图2 企业信息分类精度测试结果

分析图2和图3中的实验数据可知,本文方法能够以较短的时间和较高的分类精度完成企业信息挖掘,充分说明本文方法具有比较好的数据挖掘能力。

为了更进一步验证本文方法的评估能力,选取文献[3]方法和文献[4]方法作为对比对象,将风险事件发生概率设定为5个等级,具体如下所示:

(1) 一级(100%~85%);

(2) 二级(84%~70%);

(3) 三级(69%~60%);

(4) 四级(59%~50%);

(5) 五级(49%以下)。

利用表2给出3种评估方法的风险评估结果:

表2 不同方法的评估结果测试对比

对表1中的实验数据进行分析可知,本文方法能够获取更加精准的企业信息安全风险评估结果。由于在进行风险评估前期,对企业内的全部信息进行深入挖掘,充分掌握各种信息的属性,有效为后续的风险评估提供一定的数据支持,确保评估结果的准确性。

以下实验测试对比3种不同方法的评估效率,具体实验结果如图4所示。

图4 不同方法的评估效率测试结果对比

分析图4中的实验数据可知,本文方法的评估效率明显优于另外两种方法,更进一步验证了本文方法的优越性。

3 总结

针对传统方法存在的一系列问题,设计并提出一种基于数据挖掘的企业信息风险评估方法。经实验测试证明,本文方法不仅能够提升评估结果的准确性,同时能够有效增加评估效率,具有良好的数据挖掘能力。本文方法现阶段取得了比较满意的研究成果,但是仍然还存在一定的不足,后续将对其展开更深层次的研究。

猜你喜欢

数据挖掘信息安全代表
诠释代表初心 践行人大使命
四季的代表
探讨人工智能与数据挖掘发展趋势
“代表通道”新观察
这个代表咋这么拗
保护信息安全要滴水不漏
高校信息安全防护
基于并行计算的大数据挖掘在电网中的应用
保护个人信息安全刻不容缓
一种基于Hadoop的大数据挖掘云服务及应用