基于特征集构建的计算机取证模型研究
2016-05-30王永宏申永军
王永宏 申永军
摘要:计算机取证模型大致可以分为静态取证模型和动态取证模型两类。动态取证模型主要结合入侵检测技术,检测异常事件的发生,从而采集动态数据,对采集来的数据进行整理、归纳后并入证据库。静态取证技术是在事后取证,对涉事计算机设备进行分析处理,提取磁盘和移动存储设备的内容,对其进行分析归类,最后形成证据。本文主要结合事后静态取证技术提出一种基于证据文件特征集构建的取证模型,阐述了模型提出的目的和意义,分析了取证模型各模块的功能和实现方法,叙述了基于特征集构建的取证模型的取证步骤,最后介绍了皮尔森相似度算法在构建特征集模型中的应用。
关键词:计算机取证特征集模型皮尔森相似度算法
中图分类号:TP393 文献标识码:A 文章编号:1672-3791(2016)8(b)-0000-00
1 构建特征集模型的意义和目的
计算机取证技术的研究主要是为了保证电子证据的可信性和完整性,为此,取证专家们在研究过程中推出了一些计算机取证模型。一些常见的取证模型主要有:基于过程的取证模型、事件响应过程模型、抽象过程模型、综合数字取证模型、多维计算机取证模型(MDMF)、基于蜜罐技术和入侵检测的取证模型等。
利用计算机作为存储工具的犯罪案件在计算机犯罪中占有很大的比例,当前可供人们使用的存储设备多种多样,硬盘、U盘和可移动磁盘等都是最常用的存储工具。由于电子证据的易改变性,磁介质存储的数据很容易被修改或者删除。因此,基于磁盘的特性和文件系统的结构特点,数据恢复技术成为了静态取证的重要手段。计算机取证最大的困难就是取证过程中证据的真实性问题。由于电子证据的易改变性,数据很容易被犯罪分子删除或者改变,电子证据进行事后取证获取的很有可能是犯罪嫌疑人处理过的数据。为了改变静态取证中存在的这个问题,研究者们提出了动态取证的概念,利用入侵检测的机制,将入侵检测技术和计算机取证结合起来,形成了具有实时性、智能性、可扩展性的动态取证模型。传统动态取证系统由数据获取、数据挖掘、数据分析、证据鉴定、证据保全和证据提交等模块组成,各模块之间通过信息访问进行通讯,完成协同取证功能。
入侵监测模块进行系统监测,一旦发现非法入侵便及时报警。数据获取模块从文件系统中和网络数据包中获取文件,对文件进行提取和捕获。并将数据处理后存入数据仓库。数据挖掘模块对数据仓库的数据进行分析,找到与犯罪文件相关的数据文件,并且将文件的分析结果存入知识库,对数据文件的下一次分析起指导作用。最后,将分析过滤后的原始证据文件进行证据鉴定并且归类提交。
传统的动态取证模型大多是面向过程的取证,其最大的缺陷是不能保证证据的连续性,传统的取证模型将提取后的原始证据文件直接加以分析鉴定,并不对证据获取和入侵检测环节进行反馈,这就造成了证据链难以形成以及重要证据文件的缺失。
对文件系统的研究可以得出,文件系统的组织结构和日志文件的存在使得被删除的文件得到恢复成为了可能。但是由于文件系统的特殊结构和日志文件的记录方式,文件的删除后对文件系统结构的影响不尽相同,从而造成文件恢复的困难。例如Mac OS上的HSF+文件系统采用B-树来组织文件,进行文件删除操作时,文件系统现将删除后的文件记录写入日志文件,然后再由日志文件对文件系统进行更新,因此,日志文件的记录和文件系统显示删除后的内容完全一致,这对数据恢复没有任何帮助,删除文件后,文件系统的卷头、头节点、叶子节点均会发生变化,也只节点中文件记录前移,覆盖被删除文件,被删除的文件记录会完全消失。这时,被删除文件的类型和特征就成为文件恢复的可能因素,结合盘区文件存储的连续性特点,文件的恢复便成为可能。因此,如何通过构建文件的特征集,就成为本文研究的关键性问题。基于这个前提,本文提出了基于特征集构建的取证模型。
2 基于特征集构建的取证模型的提出
本文提出的基于特征值构建的计算机取证模型是为了解决原始证据文件获取方面的困难,以数据恢复等取证技术作为出发点,运用数据挖掘技术对以獲取的文件数据进行分析处理,得到原始证据的同时,构建异常文件的特征集合,形成特征集模型,并且将文件特征反馈给证据获取阶段所运用的核心——数据恢复技术,使得整个取证系统形成自学习的功能,从而更加精准地获取磁盘原始文件数据并且有效地挖掘原始证据文件之间的关系,形成证据链。取证模型如图1所示:
获取文件仓库:运用数据恢复等数据获取常用技术将本地磁盘或者移动设备的数据文件提取并保存在获取文件仓库,以待进一步分析认证。
异常文件库:对获取文件库中文件运用数据挖掘等方法进行分析,得到孤立点文件集合,并且归并为原始证据集合,以待证据鉴定。
特征集模型:分析异常文件库中文件特性,提取证据文件特征,将特征构建特征模型,并入特征集模型。特征集模型的主要作用是提供异常文件的特征,并且对证据获取阶段的相关技术提供支持和反馈。
本文将特征集定义为一个多元组 ,其中 为针对每个文件的不同特征值,每个文件可以选取n个有效地特征。特征的结构如下:
每个特征包含两个属性,name属性表示特征的名称,prior属性表示特征的优先级,这个属性值将在分析异常文件时确定。当特征集模型在数据恢复等技术中应用时,遵循以下原则:当文件判断为可疑文件待恢复时,优先考虑文件特征prior属性值较高的特征作为恢复依据。
3 基于特征集构建的取证模型的取证步骤
与传统的取证模型相比,本文所提出的取证模型的工作步骤主要是增加了特征集模块的构建工作以及对证据获取过程的反馈环节,基于特征集构建的取证模型工作步骤如图2所示:
图2 取证流程图
取证前准备阶段要保证取证环境的安全性和完整性,即待测设备和系统并未受到外界的破坏或者改变。随后可以通过入侵检测技术进行网络数据截取或者利用数据恢复技术对磁盘文件进行提取的方式构建数据仓库。接下来,对数据仓库中的数据应用数据挖掘技术进行分析,找出孤立点文件并入异常文件库。对异常文件库中的文件进行特征分析,得到文件特征属性并构建特征集。最后对异常文件库中的文件进行证据鉴定,形成原始证据,并对其保存、归类和提交。构建完成的特征集模型可以对数据获取阶段的入侵检测技术和数据恢复技术加以支持,从而提高文件获取的效率,并且保证证据的真实性和可信性以及证据链的构建。
4 基于皮尔森相关系数的文件特征相似度计算
对文件特征集的构建包括以下概念:
设备类型集 :文件所属设备类型组成的集合,包括本地磁盘( )、U盘( )、移动硬盘( )、光驱( )、其他存储设备( )。 ,其中 表示设备类型,分别赋值并且标准化为0.1、0.2、0.3、0.4、0.5。
文件类型集 :文件类型的集合,由于本文所研究对象为文本文件,所以文件类型包括.doc文件( ),.pdf文件( ),.txt文件( ),其他文本文件( )。 ,其中 表示文件类型,分别赋值并且标准化为0.1、0.2、0.3、0.4。
文件状态集 :文件在系统中存在的状态及来源组成的集合,文件状态包括一般文件( )、隐藏文件( )、加密文件( )、恢复文件( )。 ,其中 表示文件状态,分别赋值并且标准化为0.2、0.4、0.6、0.8。
最后修改时间集 :文件的最后修改时间与基准时间距离的集合, ,其中 为文件最后修改时间与基准时间的距离( )。根据案件基本发生时间推测出基准时间段,如果文件最后修改时间在基准时间段内,则设为0, 不在基准时间段内且 ,则设为0.3, ,则设为0.4。
特征值权重 :对于不同文件特征在相关度计算中所占权重不同,根据实验结果,设置上述特征集的权重分别为 , , , 。
定义 为要比较的文件对象,每个文件有上述4个特征,即
5结语
根据本文第四部分介绍的内容,利用皮尔森相关系数计算文件特征值之间的相似度得到文档的特征相似度系数。通过对特征相似度系数的比较,可以将特征差异较为明显的文档孤立出来,进而形成异常集,通过分析异常集中文件的特征属性的影响程度和出现频度确定name和prior属性,构建出特征集模型。
本文在传统静态和动态取证模型的基础上提出了基于特征集构建的取证模型,模型增加了特征集模块,这个模块的构建使得证据获取和分析过程形成一个闭环,建立起了自学习的系统,对静态取证中电子证据的完整性和真实性起到了一定的保障作用。
参考文献
[1]苟木理.面向Windows 8物理内存镜像文件的内存取证技术研究[D].重庆大学,2013.
[2]王连海.基于物理内存分析的在线取证模型与方法的研究[D].山东大学,2014.
[3] Shao J D, Rong G, Hai-Jie G U. Fast mining of distance-based outliers in metric space[J].Journal of Zhejiang University,2009,43(2).
[4] 黃斌,许榕生,邓小鸿.一种基于孤立点挖掘的计算机取证技术[J].江南大学学报:自然科学版,2009,8(2):131-134.
[5]Nassir Abdullah Nassir(那西尔).A new technique of outlier detection[D].中南大学,2012.