APP下载

面向网络犯罪侦查的日志关联取证技术研究

2017-03-10贾王晶

网络安全技术与应用 2017年12期
关键词:项集日志关联

◆贾王晶

(山西警察学院 山西 030000)

面向网络犯罪侦查的日志关联取证技术研究

◆贾王晶

(山西警察学院 山西 030000)

目前计算机网络在人们的工作、生活等方方面面都得到了广泛的应用,但由于网络的虚拟性、开放性,以及相关立法工作的滞后性,利用计算机网络为工具的犯罪活动日益增多。计算机取证技术的目的是对计算机系统和计算机网络中发生的犯罪行为进行取证分析,获取网络犯罪事件的电子证据。日志取证是计算机取证研究中非常重要的一个研究领域,本文就是在已有日志关联技术的基础上,提出能够应用在网络犯罪取证中的新的取证方案。

计算机取证技术;犯罪行为;取证分析;电子证据

0 引言

计算机取证这门学科,是伴随着计算机技术的发展和网络犯罪这一新的犯罪形式出现而出现的。而大量计算机网络犯罪的操作痕迹被日志记录下来,构成了发生在计算机本地系统或者网络中的事件的重要审计凭据,为打击计算机犯罪提供了非常重要的线索和证据。怎样充分利用系统日志资源在相关范围内挖掘实时有效的数据作为犯罪证据,重新构建网络犯罪事件的整体流程,追踪肇事者,是我们在网络犯罪取证方面研究的重点方向。[1]

根据目前的研究成果,基于日志取证的取证分析方法有:

(1)建立日志规则库,即通过收集网络犯罪的相关日志知识来构成日志知识库,并利用日志知识寻找犯罪事件相关的证据信息;

(2)日志审计方法,即根据海量的正常用户的系统日志来定义正常用户的一般行为模式,然后对当前用户行为模式与正常历史用户行为的偏差进行分析;

(3)机器学习方法,即利用用户过往日志记录的信息来学习用户的正常行为模式,通过使用一些学习算法来分析日志的历史事件,并预测用户的未来行为;

(4)数据挖掘方法,即从海量日志数据中提取出与相关案件的数据信息,并从具体的数据中抽象出有利于进行判断和比较的特征模型,采用相应的数据挖掘算法来分析整个证据文件的性质及内容。[2]

以上这几种方法都可以有效地对各自类型的日志数据进行取证分析,并得到相关的分析结果。但这些结果相对来说是比较片面的,因为各种日志信息没有被关联起来,这样可能会造成某些关键信息的遗漏。在已有的日志关联技术上做出改进是本文的目的。

1 日志关联取证技术在网络犯罪侦查方面的应用

将各种系统中的日志以统一格式综合到一起进行观察就叫做日志关联,而日志关联分析是指对取证所得日志数据进行自动、连续地分析。根据用户定义的、可配置的规则来识别网络中的各种证据文件,从而可以确定事件真实性并进行有效取证。日志关联取证分析与传统的犯罪调查取证分析有很大的不同,一般来说传统的取证分析要从已得的有限的证据样本中获取尽可能多的信息,而日志关联取证分析面临的是海量的日志数据,没有办法人工逐条分析,需要借助关联规则自动、连续的特点,从中筛选出与计算机犯罪相关的证据材料。日志关联分析可以用来提高网络取证操作的可靠性、效率以及可视化程度,并为证据数据的安全管理和统计分析提供技术手段。[3]

1.1 日志关联取证技术

日志关联分析需要将各系统中的原始数据采集起来,然后数把它们进行集中统一管理,最后根据我们指定的相关规则进行分析,得到相应的结果。[4]

(1)案件相关日志数据的采集及存储

我们应按照以下的方法来采集日志数据:根据所找日志文件的内容要求来配置采集参数,按照设定的频率从各个日志数据源采集原始日志数据,对原始日志数据进行一定处理,转换为标准格式;建立安全通道并通过安全通道传输数据,记录数据采集、传输的过程。

日志数据在存储管理时遇到的主要问题是对于来自不同数据源的日志,它们对应的系统及应用程序各有不同,记录的数据类型也不一样,因此,需要使用分类存储的方式。可以将这些采集到的数据根据按照不同的标准(如接收时间、源IP地址、日志类型等)进行分类存储。除此之外,还要提供专用数据库来记录关联规则,以及关联前的日志记录和关联后的分析结果。

(2)日志的关联取证分析

面对海量的日志数据,我们不可能通过人工逐条判读日志记录来发现与事件相关的证据信息。目前的趋势是利用数据库提供的强大的扫描和统计功能来进行取证分析。关联分析可以帮助取证人员构建网络用户操作的正常行为规律;可以对日志记录进行聚类,利用算法缩小分析的范围,检测出与犯罪案件相关的日志记录;此外,关联分析还可以对来自多个数据源的不同类型的日志数据进行聚合、规范化处理,然后运用各种关联方法从相互独立的数据源中提取相关信息,用于整体案件的分析与处理。

1.2 日志关联技术原理-Apriori算法

日志关联取证的关键在于关联规则的挖掘,关联规则的目的就是在一个数据集中找出项与项之间的关系,Apriori算法是关联规则领域中的一项具有代表性的算法。目前大部分的日志关联技术都是使用Apriori算法来实现日志证据之间的相互关联的。

Apriori算法的基本思想是:如果某个项集不是频繁的,那么包含这个项集的项集也不是频繁的,这个原理可作为减枝的依据。Apriori算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集,低于这个次数的项集就可以减枝减掉;第二步利用频繁项集构造出满足用户最小信任度的规则,先生成1-频繁项目集,再由1-频繁项目集生成2-频繁项目集,依次类推,直到生成所有的频繁项目集。然后遍历所有的频繁项目集,计算该规则的置信度进行筛选即可。这样就从频繁项目集中找出了符合条件的关联规则。

从整个运算流程看出,使用 Apriori算法寻找关联规则时,可能产生大量的候选集,而且可能需要多次重复扫描数据库。

2 对于现有日志关联取证技术的改进

目前的日志关联取证技术存在着种种缺陷,我们将从Apriori算法、安全信道建立等方面提出几点改进措施。

2.1 使用Fp-growth算法来代替Apriori算法生成关联规则

Apriori算法多次扫描交易数据库,每次利用候选频繁集产生频繁集,算法效率不高。针对Apriori算法的固有缺陷,我们可以使用Fp-growth算法,采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(Fp-Tree),然后再对Fp-Tree进行挖掘。该算法和Apriori算法最大的不同有两点:第一,不产生候选集;第二,只需要两次遍历数据库,大大提高了效率。[5]

Fp-growth算法的工作流程如下:

(1)按以下步骤构造Fp-Tree

Step 1:扫描数据记录,生成一级频繁项集,统计各元素项出现次数,创建头指针表,并按出现次数由多到少排序。树中每条路径代表一个项集,因为许多项集有公共项,而且出现次数越多的项越可能是公共项,因此按出现次数由多到少的顺序可以节省空间,实现压缩存储,遍历数据集。

Step 2:再次扫描数据记录,对每条记录中出现在Step 1产生的表中的项,按表中的顺序排序,使用这个项集更新Fp-Tree,从Fp-Tree的根节点开始:如果当前项集的第一个元素项存在于FP-Tree当前节点的子节点中,则更新这个子节点的计数值;否则,创建新的子节点,更新头指针表;不断递归,直到第二次扫描完成。此时,Fp-Tree就建好了。

(2)Fp-Tree的挖掘

Fp-Tree建好后,就可以进行频繁项集的挖掘,步骤如下:

Step 1:抽取条件模式基。首先从头指针表中的每个频繁元素项开始,对每个元素项,获得其对应的条件模式基。条件模式基是以所查找元素项为结尾的路径集合。

Step 2:创建条件FP-Tree。对于每一个频繁项,都要创建一棵条件FP-Tree。可以使用刚才发现的条件模式基作为输入数据,并通过相同的建树代码来构建这些树。

Step 3:递归查找频繁项集。有了Fp-Tree和条件Fp-Tree,我们就可以在前两步的基础上递归得查找频繁项集。

FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。将其应用于日志关联取证中可以大大提高算法的运行效率。

2.2 可搜索的公钥加密算法在建立安全信道中的应用

日志关联取证在进行数据采集时,就涉及到日志数据的传输安全问题。为了保护日志文件不被泄露,我们需要在网络上传输之前对其进行加密处理。那么就应该有一种加密机制允许他们搜索加密的数据而不损害日志信息的隐秘性。可搜索加密是一种可以对已加密日志文件进行保护隐私的关键词搜索的重要的密码体制。在本文中,我们可以使用一种基于带关键字搜索的公钥加密体制的SCF-PEKS方案来建立日志传输的安全通道。[3]

整个SCF-PEKS方案是以这种方式运行的:

Step 1:GlobalSetup (1k)首先生成整个方案所需要的各种参数,比如椭圆曲线群、生成元、HASH函数、关键字空间等公共参数;

Step 2:KeyGen(params)函数输入这些参数,生成并输出用户的公钥和私钥,这里由用户和服务器分别运行生成自己的公私钥;

Step 3:PEKS(params,pkR,pkS,w)由服务器运行,用接收者和自己的公钥一起生成关键字w相关的密文;

Step 4:dTrapdoor(params,skR,pkS,w)由用户自己运行,用自己的私钥生成所要搜索的关键字w相应的陷门Tw,并将其发送给服务器;

Step 5:dTest(params,CT,skS,pkR,Tw)由服务器运行。服务器收到用户发来的关键字陷门Tw,与所有加密的关键字密文输入算法进行比较,直到算法返回“yes”,将这个关键字相应的加密后的病历发送给接收者,接受者进行解密。

这样就完成了SCF-PEKS方案的实现,将其应用在日志关联取证中可以提高证据文件的安全性,并使其更加有效率。

3 结束语

日志关联技术是一种有效率的、可应用于网络犯罪侦查的技术,但目前的基于Apriori算法的相关方案都具有或多或少的缺陷。因此,本文在前人研究的基础上,运用了Apriori算法的改进版Fp-growth算法作为关联规则的建立算法,并使用带关键字搜索的公钥加密体制来建立安全信道,结合网络犯罪取证的实际情况提出一种新的改进方案,能够有效解决现实问题。下一步的研究方向是将此方案应用于公安基层的取证系统当中去,观察运行情况并逐步改进。

[1]陈爱莉,张焕国.一种支持计算机取证的取证系统的设计.计算机工程与应用,2003.

[2]许占文,王晓东.高效关联规则数据挖掘算法研究.沈阳工业大学学报,2009.

[3]殷联甫,任静,王志欣.计算机取证技术[M].北京:科学出版社,2008.

[4]国光明,洪晓光.基于日志挖掘的计算机取证系统的分析与设计[J].计算机科学,2007.

[5]Han J,Kamber M. Data Mining Concepts and Techniques.北京:机械工业出版社,2001.

学科建设:山西省“1331工程”重点学科建设计划经费资助(英文缩写为“1331KSC”)。

基金项目:2017年山西警察学院其他课题面向网络犯罪侦查的日志关联取证技术研究(2017yqt010)。

猜你喜欢

项集日志关联
一名老党员的工作日志
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
扶贫日志
“一带一路”递进,关联民生更紧
基于矩阵相乘的Apriori改进算法
雅皮的心情日志
不确定数据的约束频繁闭项集挖掘算法
奇趣搭配
游学日志
智趣