APP下载

事件关联在证据链构造中的研究

2016-02-23宁玉富

计算机技术与发展 2016年12期
关键词:贝叶斯关联度关联

刘 栋,宁玉富

(1.山东青年政治学院,山东 济南 250103;2.山东省高校信息安全与智能控制重点实验室,山东 济南 250103)

事件关联在证据链构造中的研究

刘 栋1,2,宁玉富1,2

(1.山东青年政治学院,山东 济南 250103;2.山东省高校信息安全与智能控制重点实验室,山东 济南 250103)

在电子取证工作中,往往忽略对电子证据信息的预处理,从而导致电子证据冗余较大,计算分析较复杂。为解决计算机取证中存在电子证据形式化表示的困难以及数据缺失的问题,在对事件关联技术进行研究和深入分析的基础上,利用贝叶斯网络理论,提出一种基于事件关联的证据链构造方法。该方法考虑事件之间的相互影响以及序列关系,分析缺失数据的因果关系,拟合完整证据链,实现了形式化表示电子证据,并降低了证据分析的数据冗余,从而有针对性地进行数据处理和证据分析,完善了取证体制。通过实验结果分析得出,该方法实现了证据的形式化表示,减少了证据分析的数据量。

计算机取证;事件关联;贝叶斯网络;证据链;电子证据

0 引 言

计算机取证是解决争议和打击计算机犯罪的重要手段,专门研究如何按照符合法律规范的方式收集、处理计算机犯罪证据,是实现信息安全保障的一个重要方面,在保持社会稳定和维护法律秩序方面具有重要作用[1-2]。近年来,随着计算机取证不断在实用性和有效性方面的深入研究,在电子证据的获取、分析、表示等方面取得了许多经验和进展。文献[3]用手工定义的入侵事件间概率相似度和极小匹配规则来构建入侵事件关联专家系统,但难以直接获取所需知识;文献[4]将前提和目的吻合的入侵事件关联形成入侵者攻击轨迹,但主观性较强;文献[5]提出了运用关联算法分析事件间的关系;文献[6]提出一种基于计划的事件关联模型,但分析数据量较大,未考虑数据缺失的情况。

文中在总结前人研究的基础上,提出一种基于事件关联的证据链构造方法,用于证据分析,便于形式化表示证据,完善了取证体制。

1 相关概念

先前的证据分析大都是对事物间的统计关系的挖掘,未涉及底层因果结构以及电子证据间的相关性,而电子证据的表现方式多样,获取的证据不一定就是完整数据,对于证据的形式化出示一直存在困难[7-8]。为了支持司法分析,有必要进行证据链的挖掘与构造。证据链的构造具体为事件的关联分析,其基本内容主要包括将每一子事件以时间序列重新定义,进而把不同的事件联系起来,挖掘深层次、有价值的模式。事件关联分析的目的是进行数据预处理,主要包括信息计数、数据浓缩、信息抑制和事件概括[9]。

在计算机取证领域,很多专家学者已经做了大量深入研究,文中从理论层面研究事件关联分析在证据链构造中的应用。

定义1 事件[10](Event):是指在计算机系统中由某项活动产生的记录。

定义2 原子事件(Atom Event,AE):描述用户一次具体的请求(e),比如仅单击某个按钮。

2 证据链的构造

2.1 事件的关联分析

对于事件之间的关系,文中列出了事件之间常见的关联关系类型,具体如下:

(1)压缩(compression):去除冗余的过程,计算多个事件的关联度,将多事件归纳为单事件,形式为:[e,e,e,…]e。

(2)过滤(filtering):假定源事件集e的属性诸多M(e)不属于目的事件集,则过滤掉源事件集e中的该类事件,形式为:[e,M(e)∉H]φ。

(3)压制(suppression):将事件进行优先级排列,形式为:[e,E]E。

(4)计数(count):重复事件的计数归纳过程,尽可能减少重复计算,形式为:[n×e]E。

(5)时序关系(temporalrelation):根据依赖函数,计算事件之间的时间序列模式,形式为:[|e1-e2|

2.2 证据链构造方法

根据协同取证的原理,构造证据事件的序列模式关键在于子事件内部序参量之间的协同作用[11]。证据事件关联系统可以定义为一种自组织结构,在有赖于事件之间的关联作用的有序组织中相继发生的事件之间通过相互作用形成,事件关联度用来描述事件之间相互关联相互影响的程度。

(1)作用函数。

αij,βij是系统稳定临界点上序参量的上、下限值。对原子事件有序的作用系数uij可表示为:

(1)

式(1)中反映了各指标达到目标的满意程度,Xij对证据链构成的贡献作用由uij表示,uij的取值范围为[0,1],uij趋于1为最满意,趋于0为最不满意。

构成证据链上的原子事件间存在先发事件的输出要素与后发事件的输入要素之间的因果关系。后发事件的输入要素与先发事件的输出要素构成了证据链的序数参量,设为U1、U2,一般采用集成方法来计算各个序参量有序程度的总贡献度。具体方法为:

(2)

其中,UA(Ui)为某个原子事件对事件证据链系统的总序参量;λj为影响因素指标的权重。

(2)关联度函数。

原子事件相互作用的关联度模型可以表示为:

(3)

其中,C表示事件之间的关联度;i表示事件个数;UA(Ui)表示对证据链系统有序的作用贡献大小。

当C趋于1,事件关联程度最大,即若干原子事件的演化将会对证据链产生完全的影响;当C=0时,表示事件之间无任何关联性。在计算过程中,设定一个关联度的临界值α,若C>α,表示后发事件的输入可以由先发事件的输出表示,即后发事件的发生由先发事件引起,否则事件间不存在链式作用关系。

设集合E={e1,e2…ei…en},通过计算事件关联度,可以构建一条以初始原子事件为链源的证据链,具体过程为:

设初始原子事件为ei(ei∈E),以ei为先发事件,E中的其他事件为后发事件,计算ei与其他事件的关联度Cij(1≤j≤n)。当Cij>α时,则说明ei与ej之间的关联度较高,它们之间存在着潜在的链式关系。令ei存在潜在的链式关系的后继事件集合由Eil={ei1,ei2…eii…ein}表示。接着按照同样的方法,对集合Eil1,Eil2,…,Eili,…,Eiln进行操作。其中Eili表示与集合Eil中的事件eii具有链式关系的事件集合。以上过程持续直到在集合E中不再找到与后继事件集合中的事件具有链式关系的原子事件为止。最后,从初始事件ei开始,合并所有的后继原子事件集合Eil,Eili,Eilii,…,可以得到最后的目标证据链EL={E,P}。其中E={e1,e2,…,ei,…,em|1≤m≤n}为原子事件集合;P={(ei,ej)|ei,ej∈E}为E中各种原子事件的链式关系集合。

2.3 证据链的形式化表示

用函数begin(p)表示初始路径,用end(p)表示路径尾,基本的状态转换路径表示为Pφ。设有两条路径:

px=(sx1,ex1,sx2,ex2,…,sxm,exm)

py=(sy1,ey1,sy2,ey2,…,syn,eyn)

如果end(px)=begin(py),如sym=sy1,则两条路径可以连接为一条路径p。即:

p=px⊗py=(sx1,ex1,sx2,ex2,…,sxm,exm,sy1,ey1,sy2,ey2,…,syn,eyn)

(3)

其中,符号“⊗”表示连接操作。

p=σ(px,py)=

(5)

对应路径集合连接运算为:

P=φ(P1,P2)={σ(p1,p2)|p1∈P1,p2∈P2,end(p1)=begin(p2)}

(6)

3 拟合缺失数据

在取证研究中,获取的证据源数据并不都是完整的,存在犯罪人员将数据擦除或者篡改的危险,造成数据缺失,为此需要将缺失数据进行完整拟合。贝叶斯网络[12]可以自然地表示因果信息,是一种表示变量集合的连接概率分布的图形模型,在处理带有噪声和不完整数据集方面具有优势。该模型采用概率测度的权重来描述数据间的相关性。文中将缺失数据作为网络节点,数据间的因果关系采用有向图表示,进而构建贝叶斯网络结构。

3.1 贝叶斯网络

贝叶斯网络描述由两部分组成:

(1)有向无环图(DAG),其中每一个节点代表一个数据变量Xi,Pai为Xi的父节点的集合。

(2)条件概率表(CPT),表中的每一元素为数据变量Xi,条件概率密度为p(XiPai,θ)。

这两部分确定了贝叶斯网络,节点变量可以是对任何问题的抽象,文中节点变量主要指与原子事件发生、发展相关的各种因素。

3.2 证据链缺失数据的分析处理

基于贝叶斯统计的缺失证据参数学习[13]的基本思想是:对于一个随机变量λ,服从先验分布P(λ),该分布表示学习前关于参数λ的先验信息。假设P(λ)是一个均匀分布。参数λ的信息随着在实例数据集合M上的学习而发生变化。一般参数的估计值采用最大后验分布。采用式(7)计算参数的估计值为:

(7)

其中,αk代表先验知识(专家证据集[9]),特殊情况下,假设变量取各个值的概率都相等,即αi=1,一般采用等价抽样规模法进行估计。

原子事件的贝叶斯网络拟合:令G={N,E,P}为原子事件贝叶斯网络,如图1所示。

图1 原子事件贝叶斯网络结构

其中,N=Z∪S∪O,(N,E)表示网络结构,其作用是描述变量之间的因果关系,用条件概率表示变量之间的影响程度,根据历史数据或通过专家知识直接指定得到变量的条件概率。得到其他节点的条件概率和根节点的先验概率,就可以得到所有变量的联合概率分布,如式(8):

p(ei,si,sj,zj,se,ak,oj)=p(ei)p(sj|ei)p(sj,zj|

ak)p(sj|si)p(zj|si)p(se|si,zj)p(oj|

si)p(oj|zj)

(8)

通过式(8)可以得到网络中各节点的边缘概率,确定先验网络。假设获取的部分信息为E,利用此数据更新网络中其他节点的概率,实现对证据事件后果的预测和关键状态,由贝叶斯公式计算如下:

令e∈E为证据信息,则:

(9)

当网络节点过多时,为了降低计算复杂度,可以采用联合树推理算法[14]进行求解。

对缺失证据事件的修补,为取证提供完整证据链,以满足电子证据的分析需求。而缺失的原子事件又是离散的,因此,可以构造一种用于多个离散变量的贝叶斯网络。

4 测试结果与分析

以一次关联实验为例,测试该方法构造证据链关联事件的性能。测试环境为实验室内局域网(25台主机,1台服务器),操作系统为WindowsXP。数据采集了2 500个事件,测试中时间阈值(即在某一时间段内进行关联分析)分别为20min,40min,60min。实验中关联度临界值α设为0.7。测试结果如图2所示。

图2 证据链关联结果

从测试结果中得出,时间阈值较小时,由于获取的前后知识不充分,错误率较大,随着阈值的增大,错误率明显下降。当数据缺失较严重时,错误率增加不明显,说明该方法对于缺失数据的拟合补充效果较为明显。但是当时间阈值较小,如20min时,错误率却较高,说明此时对于因果关系的分析还不充分,仍需要进一步的自学习。

经过证据链中的事件关联分析后,减少了无用知识与冗余事件,证据分析的数据量减少了许多,见表1,使得取证分析更有针对性。

表1 事件数量比较

5 结束语

文中引入关联度的概念描述证据事件间的相互影响程度,提出一种基于事件关联的证据链构造方法,综合不同的证据事件源进行相关性分析,去除冗余事件,最终构成证据链,有效地实现了电子证据的形式化表示,减少了证据分析的数据量。运用贝叶斯网络推理算法分析缺失数据与现有数据之间的因果关系,即使在部分事件失序和数据缺失情况下,算法也可推理犯罪入侵的发生过程,拟合证据链,保证了数据的完整性。形成证据链后,不仅能有效验证证据的原始性,而且能防止对证据记录的破坏,最大程度地保护证据,满足了电子取证的事件连续性的原则。但是随着网络取证的数据量的增大,特别是云计算技术的发展,给电子取证技术带来了挑战,比如构造海量数据的证据链,海量信息的证据事件处理,以及多维证据的分析等,这将是下一步研究的方向。

[1]HanJ,KamberM,PeiJ.Dataminingconceptsandtechniques[M].3nded.Beijing:ChinaMachinePress,2012:288-293.

[2]DingLP,WangYJ.Studyonrelevantlawandtechnologyissuesaboutcomputerforensics[J].JournalofSoftware,2005,16(2):260-275.

[3]EtzionO,NiblettP.Eventprocessinginaction[M].[s.l.]:ManningPublicationsCo.,2010.

[4]NingPeng,CuiYun,ReevesDS.Analyzingintensiveintrusionalertsviacorrelation[C]//RAID2002.Zurich,Switzerland:[s.n.],2002.

[5]KochGG,KoldehofeB,RothermelK.Cordies:expressiveeventcorrelationindistributedsystems[C]//ProceedingsofthefourthACMinternationalconferenceondistributedevent-basedsystems.[s.l.]:ACM,2010:26-37.

[6]AcamporaG.Exploitingtimedautomatabasedfuzzycontrollersfordesigningadaptiveintrusiondetectionsystems[J].SoftComputing,2012,16(7):1183-1196.

[7]TiffanyM.Asurveyofeventcorrelationtechniquesandrelated

topics[EB/OL].2003.http://www.tiffman.net/netman/netman.pdf.

[8]JakobsonG,WeissmanM.Real-timetelecommunicationnetworkmanagement:extendingeventcorrelationwithtemporalconstraints[C]//Proceedingsofthefourthsymposiumonintegratednetworkmanagement.SantaBarbara,California,USA:Chapman&Hall,1995:290-301.

[9]NarayananK,BoseSK,RaoS.Towards’integratedmonitoringandmanagementofDataCentersusingcomplexeventprocessingtechniques[C]//ProceedingsofthefourthannualACMconference.Bangalore:ACM,2011.

[10]LuckhamD.Thepowerofevents:anintroductiontocomplexeventprocessingindistributedenterprisesystems[M].[s.l.]:Addison-Wesley,2002.

[11] 张有东,曾庆凯,王建东.网络协同取证计算研究[J].计算机学报,2010,33(3):504-513.

[12]PearlJ.Probabilisticreasoninginintelligentsystems:networksofplausibleinference[M].SanMateo,CA:MorganKaufmanPublishers,1988.

[13]ChengJ,RussellG,KellyJ.LearningBayesiannetworksfromdata:aninformation-theorybasedapproach[J].ArtificialIntelligence,2002,137(1-2):43-90.

[14]GuiHX.Researchoftheintrusiondetectionsystembasedondatamining[C]//Proceedingsoftheinternationalconferenceone-educationentertainmentande-management.[s.l.]:[s.n.],2011:190-192.

Research on Event Correlation in Construction of Evidence Chain

LIU Dong1,2,NING Yu-fu1,2

(1.Shandong Youth University of Political Science,Jinan 250103,China;2.Key Laboratory of Information Security and Intelligent Control of Shandong Universities,Jinan 250103,China)

The electronic evidence data preprocessing is easily neglected in electronic forensics work,leading to heavy redundancy for electronic evidence and complex calculation.Since the electronic evidence is difficult to represent formalized,and there exist missing data.A method for constructing electronic evidence chain is proposed on the basis of the study and analysis of event correlation and Bayesian network.Considering the interaction between evidence events and sequence relationship,it can be analysis of causal relationship of the events to deal with the missing data.It realizes the electronic evidence represented and reduces the data redundancy of evidence analysis,thus consummating the evidence collection system and making the data process and evidence analysis be more target-oriented.The experimental results show that the method realizes the representation of evidence and reduces the computation.

computer forensics;event correlation;Bayesian network;evidence chain;electronic evidence

2016-02-14

2016-05-19

时间:2016-11-21

国家自然科学基金资助项目(60873247)

刘 栋(1987-),男,硕士研究生,助理实验师,研究方向为数据挖掘;宁玉富,教授,博士,硕士生导师,研究方向为不确定理论。

http://www.cnki.net/kcms/detail/61.1450.TP.20161121.1641.034.html

TP391

A

1673-629X(2016)12-0107-04

10.3969/j.issn.1673-629X.2016.12.024

猜你喜欢

贝叶斯关联度关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
中国制造业产业关联度分析
中国制造业产业关联度分析
沉香挥发性成分与其抗肿瘤活性的灰色关联度分析
奇趣搭配
智趣
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
一种基于贝叶斯压缩感知的说话人识别方法