APP下载

计算机信息获取系统的设计与实现

2017-07-12孙丽霞石春菊

科学中国人 2017年23期
关键词:U盘浏览器文档

孙丽霞,石春菊

山东外事翻译职业学院

计算机信息获取系统的设计与实现

孙丽霞,石春菊

山东外事翻译职业学院

现如今利用计算机进行的犯罪事件正在不断地增加,因此计算机取证技术成为了人们逐渐研究以及关注的重点课题。计算机取证作为计算机领域以及法学领域的交叉科学,能够对各种计算机犯罪案件以及安全事故进行解决,本课题设计了计算机信息获取系统的模块结构,并对其关键技术的实现进行了重点研究。

计算机信息;获取系统;计算机取证

随着社会信息化的不断发展,利用计算机犯罪的案件数量也在不断的上升。近年来,利用网络进行的违法犯罪活动发展速度越来越快,仅金融犯罪案件就已经出现了200余起,其中最大一起造成了近2100万的经济损失。

目前,现有的技术难以满足新形势的需求,因此利用法律的力量对网络犯罪进行应对已经成为了十分重要的方式。同时由于国内取证机构长期使用国外软件,这也一定程度上对国家机密的安全问题造成了影响。本课题项目基于计算机取证,对于国内这一方面的空白有着十分重要的作用。

与国外的产品相比,本课题研究的系统具有以下特点:

(1)快速,根据预定任务,U盘能够快速的从嫌疑计算机上对数字证据进行获取。

(2)隐形,利用本系统能够在嫌疑人没有察觉的情况下对证据进行获取。

(3)支持各种即时通讯软件以及电子邮件取证。

(4)由于U盘具有读写方便的特点,同时与光盘相比,U盘还能够多次写入,且体积更小,容易携带。

一、系统总体设计

本课题研究的系统共分为两个部分,为后台服务器以及U盘客户端,后台服务器主要有两种功能,分别为取证定制以及证据分析,取证定制包含类型以及关键词两个方面的定制;而在证据分析当中则包含案件管理以及证据搜索。

U盘客户端主要是利用U盘做主要的数据获取设备,而快速信息提取系统的功能则主要包含有以下几个方面:

(1)利用U盘的自动播放功能实现U盘对证据进行可选择获取。

(2)基于IKEY的安全登录。

(3)磁盘备份。

(4)全盘加密。

(5)数字签名。

(6)实现文件名、关键词、WEB日志等搜索。

二、对常见文档的搜索

1.Lucene介绍

作为一种对文件当中所有文本进行检索的方法,全文检索能够利用计算机程序对文章的中的每一个单词进行扫描并建立索引,并且对该词汇在文章当中出现的位置以及次数进行指明。一旦用户能够根据索引进行查找,就可以利用检索的过程来进行查询。作为按照全文检索理论建立的软件系统,全文检索系统具有索引、增加索引等不同的功能。

作为全文检索引擎工具包,Lucene是全文检索引擎的架构,但并不是完整的检索引擎,它能够对完整的查询引擎、文本分析引擎进行索引。其目的在于为开发人员提供简单的工具包,从而实现更好的全文检索,或者将其作为全文检索引擎的基础。

2.对PDF文件内部文字的搜索

Lucene只能够直接处理文本,但在计算机当中还存在PDF等其他的文件格式,在对这些文件进行检索过程当中,需要将其转换成统一格式。如果这些文档中有些格式不公开或者是半公开的,缺乏外部操作接口,就需要逐一的进行解决。

PDF格式文件将文字、颜色等封闭在一个文件当中,如果想对其文本信息进行抽取,就需要解析其文件格式。PDFBox、Xpdf等是比较常见的解析工具。利用Xpdf能够实现对PDF的相关操作,作为开源项目,Xpdf还可以利用Java来对PDF当中的部分内容进行抽取。

3.WORD文本的抽取

WORD文档作为复合文档,是基于对象连接嵌入技术定义的文件系统结构,除了格式信息,WORD文档当中还有很多的附加信息。作为Apache软件基金会的开放源码库,Apache POI能够对Java程序提供出Microsoft Office格式的档案的读写功能。利用Apache当中的POI能够对WORD以及Excel文档进行抽取,POI项目能够提供对WORD、Excel进行访问的组件,并提供纯Java的解决方案。

要对WORD格式进行抽取,一般能够采用以下两种方法:

(1)利用POI,POI能够对WORD的文件格式进行直接访问。由于Lucene以及POI都是Apache的子项目,因此两者能够无缝连接。这种方法实施简单,只要对封装之后的POI包进行下载,就能够对其进行正确的配置,从而实现对WORD文本的抽取。

(2)利用COM-Java的方法,微软公司的WORD程序能够以COM的形式存在,如果能够对COM组件进行调用,就能够利用组件来对文本信息进行获取。一般来讲,Jacob是COM最为常用的组件,Jacob是对Java以及COM进行连接的中间件,但是其不能够对WORD文件进行直接的抽取,还需要对DLL等其他文件进行写入。

三、即时通讯证据获取

1.QQ工具的证据获取

作为一款即时通信软件,QQ支持在线聊天、文件共享等许多功能。QQ用户每天在线人数超过一千万,已经成为了目前最广泛使用的聊天软件之一。

针对QQ信息的提取主要是通过客户端的方式来进行获取,其中涉及到汉字编码转换、安装路径等多种问题。QQ正常登录之后,能够对本机上的聊天记录进行记录。而对QQ的取证主要就是对其聊天记录、群消息等数据库文件进行获取。

每一个用户的资料都会保存在QQ号码下的文件夹当中,其中,Ewh.db、MsgEX.db等是比较重要的文件,文件当中后缀为.db的文件都经过了算法加密。在MsgEX.db当中,保存着QQ聊天记录,利用VC++复合浏览器,则能够对其中的内容进行查看。

2.MSN的证据获取

作为微软网络服务,MSN是微软公司推出的及时消息软件,能够进行及时的文字聊天、视频会议等。MSN当中的信息主要是依靠明码发送的形式,并能够对对话历史记录进行保存,xml文件当中对其记录进行了全部的存放,“用户昵称+账号代码.xml”是其文件夹的名称,与此同时,还能够对用户接受的文件信息进行记录。因此,想要对MSN取证需要以下两步:第一,对存放历史记录的文件夹进行获取,第二,对MessageLog.xsl文件进行格式解析,通过对文件的读取,就能够对其历史记录当中的信息进行获取。

当然在xml文件当中,可能会同时存在多个节点,xml文档对象模型提供了标准的方法来对文档当中的信息进行操作。比如利用MSxml解析器能够生成DOM树结构,并对文档进行读取。根据xml文档内容对逻辑结构进行创建,文档本身能够包含其他的节点,我们通过解析器可以解析每个节点,并对需要的信息进行获得。

四、邮箱证据获取

作为优秀的国产电子邮件客户端,Foxmail在邮件接发时利用了安全套接层协议,严格的对传输数据进行加密,能够对数据的安全进行有效的保证。

对其邮件的获取,主要分为以下两个步骤进行实现:首先,将文件解析成为单个文件;第二,解析单个文件,对邮件当中的详细信息进行获取。在安装目录下,我们能够看到mail文件夹中对各账户的邮件信息进行了存放,其中in.box、out.box、sent.box以及trash.box分别对应为收件箱、发件箱、已发送邮件以及废件箱。

我们利用二进制查看器的方法能够对.box当中的二进制信息进行查看,不管是什么邮件,其开头都有16字节的特征信息,而在特征头后面则为邮件的内容。因此可以对每个邮箱文件进行相应的二进制扫描,将邮箱特征头写到全新的.eml文件当中,最终实现对全部文件的解析。

五、利用WEB浏览器采集历史数据

浏览器是能够对网页服务器当中的HTML文件进行显示,并使得用户与这些文件进行互动的软件。Internet Explore等是个人电脑当中最常见的浏览器,为了对网页访问的速度进行提高,该浏览器通常会利用累计式加速的方法,将访问过的网页在电脑当中进行存放,我们将该空间称之为IE缓存。用户在日后每次对网站进行访问时,IE都会对这个目录进行搜索,如果有已经访问过的内容,那么IE就不需要从网上直接下载,并直接从缓存当中进行调出,从而提高网站的访问速度,并为信息提取提供相应的来源。默认的IE是安装在Windows系统当中,此外还是很多用户的默认浏览器。而在对网页进行浏览的过程当中,IE会对历史记录进行保留,我们只要利用相应的工具就能够对其上网行为进行分析,从而对证据进行获取。

结束语

作为一门专业性、技术性极强的应用学科,随着信息产业的不断发展,计算机取证也给我国的司法工作人员提出了很大的挑战。通过一定的研究我们发现,取证工具会与机器学习、安全技术、数据挖掘技术等开发技术相结合。与此同时,网络协议的设计也需要考虑未来取证的需要。现如今,在实际的工作过程当中还比较缺乏适用的取证工具,但我国也正在投入巨大的人力、物力进行开发,相信通过不懈的努力,最终能够创造出实用的取证工具。

[1]许存芝.档案信息的采集[J].中国档案,2011(03)

[2]陈奇军.基于计算机网络的企业信息应用价值及收集策略[J].中国商贸,2011(12)

[3]纪兆辉.本体的查询与推理研究[J].微电子学与计算机,2011(10)

孙丽霞(1982-),女,汉族,山东乳山人,本科,讲师职称,主要研究方向:计算机软件设计与信息服务;

石春菊(1981-),女,汉族,山东乳山人,本科,讲师职称。

猜你喜欢

U盘浏览器文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
轻松编辑PDF文档
自动辨认插口方向的U盘
微软发布新Edge浏览器预览版下载换装Chrome内核
反浏览器指纹追踪
让U盘起死回生
Word文档 高效分合有高招
U盘“闹肚子”
浏览器