APP下载

基于朴素贝叶斯的社交网络入侵行为取证模型构建

2021-01-12

关键词:朴素贝叶斯概率

朱 敏

(湄洲湾职业技术学院,福建 莆田 351119)

0 引言

近年来,网络不断延伸到社会各个领域,网络中的机密信息大量增加,网络安全技术的重要性日益凸显,如何有效检测信息,确定网络数据安全,成为当前亟待解决的问题[1]。

近年来,随着网络用户和信息的增加,网络攻击的数量也在增加。入侵检测技术是发现一系列威胁信息资源完整性、机密性和可用性的恶意行为的有效安全手段。对于网络大量事件数据,入侵检测技术能够在考虑最佳分类率的同时,准确地对正常和异常事件进行分类,以达到过滤网络攻击事件、降低误报率的目的[2-3]。

当前提出的入侵检测行为取证模型多是利用数据挖掘实现入侵检测,通过数据挖掘检测网络中的误用信息和异常信息,利用匹配法分析网络流量中的攻击行为和样本。数据挖掘法虽然能够降低错误检测率、加快检测速度,但是数据挖掘法过于依赖训练集,如果训练集中不存在异常检测和误用检测的模型,则无法匹配[4]。

本文基于已有研究,应用朴素贝叶斯构建了一种新的社交网络入侵行为取证模型,在朴素贝叶斯模型上引入调控参数,通过分析精确度来确定最佳性能,利用实验验证取证模型的有效性,实验结果表明,该模型能够有效检测到入侵行为。

1 基于朴素贝叶斯的社交网络入侵检测分析

本文通过建立改进的神经网络模型扩展已有的入侵检测框架,基于特征选择和离散化预处理的思想,分析网络中海量数据的复杂度和虚警率,从而减少分析时间、提高分析速度。本文提出的算法不同于传统的入侵检测模型,在进行网络事件分类时,通过合理地选择和调整参数,有效地调整正确分类率和错误分类率,并结合学习和训练等机械方法,得到最佳的分类结果。本算法不受应用领域的限制,具有很强的灵活性和可扩展性,能对各种概率事件进行分类[5-6]。本算法有如下优点:(1)快速分类,降低了算法的复杂性;(2)虚警率低、漏检率低、误报率低;(3)结构适应性和灵活性良好;(4)具有较好的稳定性和扩展性。

贝叶斯网络的内部结构为图形化网络结构,这种结构能够有效减少概率推理时间,提高应用价值。朴素贝叶斯网络如图1所示。

图1 朴素贝叶斯网络

朴素贝叶斯网络虽然网络结构简单,但是内部节点都是父节点,这些父节点具备自己的属性,并且没有连接[7-8]。

贝叶斯方法的知识表达为判别函数,而非参数方法为判别函数。数据挖掘在机器学习中的应用主要有决策树方法、规则归纳法、产生规则的决策树方法和规则表示法[9]。该方法分为两部分:一是建立入侵分类模型,二是对入侵进行分类,图2为具体步骤。

当前入侵检测中建立分类模型的方法有很多种,其原理和策略也不尽相同,通过研究决策树和数学表达公式来展示模型结果。

图2 入侵检测分类过程图

分析标记连接记录数据实现新训练,这样可以有效减少重复和评价花费的时间,根据特征分析完成分类进行检测,连接记录被输入到分类器,然后分类器会输出记录所属的类别[10-11]。

2 基于朴素贝叶斯的社交网络入侵行为取证模型构建

入侵行为取证模型是入侵检测技术中的一个重要组成部分,贝叶斯网络能够建立广泛的认知行为模型,具有神经网络所没有的概率推理能力[12]。本文以贝叶斯概率理论为基础,建立取证模型,它不仅具有理论基础,而且具有表达和推理的能力。入侵行为取证模型如图3所示。

图3 基于朴素贝叶斯的社交网络入侵行为取证模型

决定理论是主观贝叶斯归纳理论的重要组成部分,它在完全智能条件下估计局部知识状态的主观概率,再用贝叶斯公式修正发生概率,最后根据预测值和修正概率进行优化。这种方法的核心思想是利用测验前的概率估计测验后的概率[13]。

本文基于贝叶斯决策理论,建立并简化了朴素贝叶斯分类模型。这种方法具有简单、速度快、分类精度高的特点。核心算法如下:

计算步骤为:

(1)计算训练样本Cj的概率,表达为P(Cj),计算公式为:

其中,cj对应的训练样本数据集为表示训练的总样本数据集。

(2)分析训练样本中的特征∃a,特征值在网络事件类别出现的相对概率值P(ai∣cj) ,计算公式为:

(3)根据上述公式得到训练样本中的特征值,计算公式为:

(4)利用朴素贝叶斯网络得到独立假设,分析入侵行为概率,计算公式为:

基于事件的贝叶斯网络是入侵检测的基本实现方法。为获得能够真实反映样本间关系的有向无环网络拓扑,对贝叶斯网络结构进行了研究,本文的贝叶斯网络能够在数据中显示潜在的条件无关关系和概率分布函数。

贝叶斯网络社交网络入侵行为取证模型依据参数学习方法的特点,可将参数估计划分为经典统计估计和贝叶斯统计估计两类,通常采用矩估计和极大似然估计两种方法进行统计参数估计。

贝叶斯网络分为两个阶段,分别是结构学习和参数学习,结构学习通过网络拓扑结构来实现信息分析,探索网络内部节点变量学习条件概率。

贝叶斯网络能够很好地训练样本数据,利用研究对数据和先验知识进行分析,从而得到最好的网络拓扑结构。贝叶斯网络的推理方式包括因果分析、诊断分析和支持分析。因果推理采用的是自下向上的推理,在分析原因后得出结论,根据已知的证据验证不同情况下出现的不同现象;诊断推理是利用结论分析原因,在确定推理结果后,确定原因所发生的概率;支持推理是通过验证不同原因之间的相互影响,从而分析数据。贝叶斯网络作为概率网络,通过统计学研究知识分类,在大型数据库中,判断不同的属性值,提高方法的准确性。

基于朴素贝叶斯的社交网络入侵行为取证模型的入侵检测流程如图4所示。在第一阶段分析网络流量数据,在辨别不同取证类型后,获得映射集,映射集合为,通过训练完成数据的离散化处理和特征选择,即实现数据的预处理,在预处理中将有效数据过滤出来,根据统计结果得到先验概率通过映射关系,确定集中数据集,从而能够检测到整个社交网络内部入侵行为。在第二阶段,提取整个框架中的数据,借鉴离散化和特征选择的思想把提取的网络数据具象化,简化内部冗余数据和不重要的特征数据,通过降低社交网络入侵时间复杂度和空间复杂度,提高社交网络入侵行为检测的精度。

图4 取证模型入侵检测流程

3 实验验证

为了验证本文提出的基于朴素贝叶斯的社交网络入侵行为取证模型的有效性,设定对比实验,分别与基于信息增益的社交网络入侵行为取证模型以及基于数据挖掘的社交网络入侵行为取证模型进行对比。本文选用的实验数据来自于KDDCUP入侵检测数据集,KDD入侵检测数据集内部的数据来源主要有两个部分:

(1)7 周时间训练数据,网络连接记录大约为5000000个。

(2)异常攻击类型。共有22种攻击类型,可以具体化为4类主要的攻击种类,如表1所示。实验过程如图5所示。设置的实验参数表2所示。

表1 异常种类描述方式

图5 检测实验过程

表2 实验参数

根据上述参数进行实验,比较不同的入侵取证模型分析异常类型匹配度的准确率,得到的分析结果如图6所示。

图6 入侵匹配度实验结果

根据图6 可知,本文提出的基于朴素贝叶斯的社交网络入侵行为取证模型具有很强的信息匹配能力,能够匹配到所有的入侵行为,精准地分析出所有的入侵类型,从而实现行为取证。朴素贝叶斯的社交网络入侵行为取证模型内部的训练样本值通过不断扩展,逐渐降低条件概率的误差,提高模型自身的连续学习能力和扩展能力,使入侵检测能力有所增强。

本文提出的入侵模型通过建立决策树和分类模型,连接神经网络,构建大型数据库,在大型数据库中提取信息,从而提高分析的准确度。

在确定入侵匹配度后,分析不同模型的入侵取证匹配范围,取证匹配范围如表3所示。

表3 取证匹配范围

由表3 可知,本文提出的入侵行为取证模型取证范围远远大于传统的取证模型匹配范围,能够实现数据的分析匹配,使绝大多数的信息都能够实现匹配。

4 结语

在因特网上发生复杂大规模攻击时,入侵检测行为实际上就是一系列不确定性行为过程的结合。因为朴素贝叶斯定理最适合解决概率事件问题,所以在入侵检测技术中采用朴素贝叶斯决策的行为证据方法是可行的。本文基于现有的经验和思考,基于朴素贝叶斯建立了社会网络入侵取证模型。传统的数据预处理和数据挖掘技术进一步提高了入侵检测过程中的数据特征提取能力,降低了分类的时间复杂度,通过模型测试,确定最佳分类参数,并对分类结果进行综合分析。实验结果表明,该模型匹配误差较小,其识别效果优于其他几种方法,但这一方法仍需进一步完善。在复杂多变的网络数据中,如何更有效地细化控制参数,结合其他有效的分类方法,进一步提高分类器的预测性能是下一步的工作。

猜你喜欢

朴素贝叶斯概率
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
隔离朴素
概率与统计(一)
概率与统计(二)
基于贝叶斯解释回应被告人讲述的故事
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
最神奇最朴素的两本书
基于贝叶斯估计的轨道占用识别方法