APP下载

基于大数据架构的电子数据取证技术研究

2022-09-07李海阳

信息记录材料 2022年7期

李海阳

(河南开合电子数据司法鉴定所 河南 郑州 450000)

0 引言

在大数据时代下,电子数据取证对象发生了巨大变化,从以往的独立物理实体拓展至IoT、虚拟主机以及云端应用等,这使得电子数据取证面临更大困难和挑战。所以,有必要对以大数据架构为基础的电子数据取证技术展开深入研究。在实际研究中,首先要充分掌握电子数据取证的内涵及发展历程,确定以大数据为基础的电子数据取证框架,了解新时期电子数据取证所面临的困境与挑战,在此基础上积极应用新技术支持电子数据取证工作,保证取证具有更高的安全性与准确性。

1 电子数据取证技术的概述

电子数据取证主要指的是通过计算机软件以及硬件技术,在和法律规范相符的基础上,对网络相关犯罪行为包括网络攻击、计算机入侵、欺诈以及破坏等进行取证、分析、保存以及出示的过程[1]。通过应用计算机实施犯罪的一些案件,往往犯罪嫌疑人会将计算机当中的犯罪证据毁灭,在此情况下,就可通过数据软件恢复所丢失或是删除的信息,而对所删除或者所丢失数据进行获取的全过程即为电子数据取证过程,涉及勘查现场、数据分析、数据追踪以及结果提交等方面。而电子数据取证技术,主要是专业人员严格依据法律要求,根据法定程序,通过多种技术对电子设备当中涉及的电子证据进行取证,所用取证技术主要包含数字时间、数据库、密码破译、网络电子、移动终端以及浏览器等。此外,取证期间可能还会用到一些计算机取证软件,像Encase、TCT等。只要是运用计算机实施的犯罪行为,势必会在互联网以及计算机当中留下一定痕迹,研究应用电子数据取证技术,主要目的就是对犯罪者在计算机当中所留下的痕迹信息进行精准辨别,同步加以提取,通过信息取证揭露犯罪者的犯罪事实。

电子数据取证产生于20世纪70年代,目前已经历了4个阶段,分别是1985年至1995年的婴儿期、1995年至2005年的儿童期、2005年至2010年的青春期以及2010年至今的新时期。在婴儿期,新出现的网络和刚刚普及的个人电脑引发了一系列计算机犯罪,此阶段取证人员尚不具备系统化、专业化的取证工具,大部分是基于经验,利用自行开发的取证工具完成取证任务。个人计算机、大型机、公司数据记录以及计算机辅助欺诈是该阶段主要的取证目标,同时此时期取证工作人员很少接受专业训练,一定程度上制约着取证工作高效开展。随后,DCFL、IOCE、ICAIS以及FACT等组织逐步成立,这些机构也开始为取证相关工作人员提供职业技能培训以及经验分享等。到了儿童期,互联网开始广泛普及,并迎来了信息爆炸时代,促使该时期网络犯罪也呈现出高速发展态势,此阶段的取证目标也开始从原本的个人计算机扩展至专业化领域,包括数据解密、网络入侵等,同时电子数据取证也逐渐演变成专业技术领域,衍生出ACES、look、FTK、Encase、Expert Witness等基于Windows界面取证工具以及HELEX、SMART、TSK等基于Linux的取证工具,研究领域也开始对内存取证技术以及网络取证技术等展开深入研究。青春期的取证目标体现出多样化特征,取证对象除了网络、文件系统,还涉及PDA、手机、手机游戏平台、网络社交系统、商业业务记录系统以及电子邮件等;而到了新时期,在物联网、大数据、云计算等新一代技术支持下,使取证对象范围进一步扩大,与此同时,很多国家开始从立法层面加大网络隐私保护力度,还涌现出诸多相关学术课程,电子数据取证技术相关的研究也进一步深入[2]。

2 基于大数据框架的电子数据取证

在大数据架构当中,其中心思想就是先通过数据源进行大量数据的收集,随后在数据处理模块当中接入相关数据,所构建的各类处理模块可对不同类型、不同格式的数据实现有效处理,还可将相关数据集中存储起来。相关处理模块可看作是master/worker机制,其中一个master能够为worker系统进行多个任务分配,在此过程中,master主要职责就是对各计算任务进行管理和协调,保证worker计算系统可正常运行,顺利完成任务。

综上所述,铁路道岔的运行和设备质量关乎着铁路运行的安全性与长效性,在道岔维修工作中应重点对连接零件、尖轨转辙部分、钢轨磨耗和道岔铺设问题进行分析研究,明确道岔设备维修养护工作的原则与重点。在此基础上,通过采用多种工作方式实现维修保养、做好重点项目的维修养护和保证铁路道岔设备的产品和服务质量几点措施,更加高质高效地做好铁路道岔设备维修工作。

以往在电子数据取证过程中,手机、计算机以及存储卡、U盘、移动硬盘等移动存储介质均属于重要取证对象,随着大数据技术的发展,使得电子数据取证对象发生一定变化,在原基础上增加了客户端虚拟主机、大数据系统、云备份、大数据库主计算机以及云客户端操作等,这种变化使得电子数据取证面临更大挑战[4]。

综上所述,7及9野方案优于5野方案,可使脊髓的最大受量下降,脊髓安全性更高;调强放疗脊髓保护区边界的不同勾画可统一,使主观差异性降低。

大数据取证系统属于高度复杂的大型系统,在该系统当中分布着成千上万个的硬盘驱动器,如果系统关机,将导致数据丢失,因此为使取证具有更高准确性,要求系统始终为开机状态。对大数据取证系统进行数据采集,主要方法包括以查询为基础的收集以及逻辑文件取证备份等。基于差异化的应用场景以及数据处理领域,大数据处理框架被划分为流式架构、传统大数据架构、unified架构、Kappa架构、Lambda架构等。立足管理层次角度分析,大数据主要包含存储层、应用层以及处理层。在其中,处理层主要面向存储层相关数据实现数据访问、采集、处理、分析等,具体可将大数据系统视作目前主流操作系统环境当中结合应用虚拟化技术的数据处理集群,该数据系统可根据不同用户差异化的需求为其提供多种支持服务,比如决策等。所以,以大数据框架为基础的电子数据取证主要可划分成物理资源层取证、系统层取证以及应用层取证,具体见图1。

在我国西南地区的深山野林里,生长着一种草本植物,它开着白色的小花,虽然看上去清新可爱,却也没什么特别之处。但是,如果下雨之后你再来看,便会发现原先白色的小花变得晶莹剔透,就像精心雕琢后的精美艺术品。你知道这种神奇植物的名字吗?

在大数据取证过程中,工作人员并非只是简单地在物理介质当中获得目标数据,而要从海量的数据及其跨站点的存储方式当中进行目标数据获取,在此过程中会面临一系列困难,而通过应用Hadoop技术能够对相关问题加以解决。Hadoop属于Apache基金会提出的一种框架解决方案,作为大数据电子取证技术的一种,具有非常广泛的应用。Hadoop相关系统具有非常高的可靠性,包含诸多大数据分层解决方案以及多元化工具系统。该系统编写中主要运用的是Java语言,因为Java语言属于高级语言,体现出跨平台性属性,所以能够满足多种差异化操作系统提出的运行要求。

3 大数据环境下电子数据取证的困境

在大数据架构下,电子数据取证发生巨大改变,取证要求也与之前有很大差异。在以往电子数据取证中,关键环节主要有:(1)计算机在含有潜在数据源情况下,从中移除存储设备,比如硬盘驱动器等;(2)计算MD5/SHA-1校验;(3)以获取全部的源数据,对目标展开物理收集等[3]。其实大数据取证主要是面向大数据系统,对其中涉及的各类电子数据证据加以识别、全面收集、科学分析并实现最终展示,主要目的就是以大数据架构为基础,从其中的应用程序、数据库以及分布式系统当中进行有用数据的收集。

3.1 取证对象面临更大的定位以及提取难度

对于系统层,在取证过程中其对象包括大数据分布式文件系统以及系统访问日志等,其中日志属于一个关键的证据来源,而目前云服务供应商会提供格式多样化的日志文件数据,并且相关格式规范也缺乏统一性,既有日志往往混杂着多个用户的数据,其中还有很多和取证工作没有关联的敏感或者是冗余信息。另外在大数据分布式文件系统当中,像部分HDFS、DFS将分割后的块文件通过数据块编号加以命名,单看文件名难以掌握文件类型以及具体的归属关系,由此使得涉案人员追溯以及案件分析判定面临较大困难。同时系统当中同时存在结构化、非结构化以及半结构化等数据,且部分云计算其数据格式具有独特性,这也增加着数据分析难度。

在大数据背景下,很多用户已经改变了互联网载体应用习惯,取证对象也从之前的计算机系统拓展至可穿戴设备、智能手机以及云端等多终端设备。另外,在传感器技术、嵌入式技术、云计算以及大数据等的发展过程中,IoT当中包含的各类信息传感设备,比如射频识别装置、全球定位系统、红外感应装置等,还有智能汽车等多类智能设备,无论是数量还是种类都日渐增多,其中所包含的电子数据更加多样化,所以也会出现更多新取证需求,使现有取证工作面临更多困境[5]。尤其是面对那些分布在各个角落的各种物联网传感器,像烤箱、洗衣机、摄像头、汽车等智能设备,单纯运用既有取证工具产品很难实现电子数据的高效、全方位提取与分析。此外,虚拟化技术应用中,如果用户完成VM释放,相应空间就会被收回,在频繁的资源回收以及再分配过程中,导致一些节点或平台当中所包含的数据变成易失性数据,此类数据有较大的提取及恢复难度。

3.2 数据分析面临一定困难

在大数据架构下,大量对涉网操作行为加以记录的数据逐渐从终端设备迁移至云端,像部分涉案人员会通过云端登录实现数据操作,或直接在网盘或云端当中存储数据。另外,随着大数据技术的发展,很多用户对于互联网载体的应用习惯也发生巨大改变,像一些涉案人员会以云存储的方式将手机内部的图片以及聊天记录等数据在网络中备份。在此背景下,通过应用层开展取证工作,电子数据取证对象将变成以大数据架构为基础的各类云端操作系统、云存储以及网盘等。而云存储技术以及网盘技术是以虚拟化技术为基础,将涉案数据存储在多个数据中心,有时候还会跨司法管辖范围,此时于应用层取证会使数据定位以及提取面临较大困难,取证人员往往要在云服务提供商的帮助之下完成取证工作。另外,云环境当中用户所应用的共享云基础设施其中的数据存储情况相对复杂,在对用户数据进行分离过程中也面临一定困难,往往会在证据收集环节掺入和用户无关的一些数据,这使得取证人员在证据收集中需要考虑怎样能够确保无关用户数据仍保持较高机密性,并思考如何只提取事件重构所需的电子数据,由此使取证工作面临巨大挑战。

3.3 取证对象更加多元化

2.企业与职业经理人的信息不对称。职业经理人的能力是私人信息,外部很难获得,所以企业在面试职业经理人或者通过猎头公司获得他们信息时,就存在信息不对称的现象,有时甚至出现猎头公司帮助职业经理人掩饰不符合企业要求的信息内容。这就使得企业在对人员筛选时,面临着较大的困难,所以只好通过考察职业经理人的学历、个人财富、职业背景等来减少风险。但是,这些方式不能从根本上解决企业对职业经理人真实信息的需求。

4 基于大数据框架的新电子数据取证技术

4.1 云环境电子数据取证技术

近年来,在大数据技术快速发展过程中,很多犯罪分子开始利用云服务器实施犯罪,主要是在当中搭建应用以及网站,并开展网络赌博、网络诈骗以及第四方支付等多种犯罪活动,要求执法人员快速锁定相关违法网站,全面展开取证任务,并要远程地对案件相关云服务器实现勘察取证,相关工作开展中存在诸多难题。在此背景下,逐渐衍生出云环境电子数据取证技术,该技术应用中主要是基于云基础设施对数字化的取证数据进行采集。此外,在该技术应用下,能对云服务器以及远程服务器实现取证,帮助调查人员以及取证人员便捷、迅速地对远程服务器当中涉及的基础信息、网站信息、网站链接信息、数据库信息等实现调查取证,并深层次地对数据重构展开分析。此外,还可在Windows平台应用下,针对网页邮箱以及网站等开展取证、出证以及存证等工作。取证工作中,可通过页面截图、实时哈希计算、屏幕录像、取证报告生成等方式开展,在取得证据文件之后,能够和第三方的电子数据存证云平台实现无缝对接,同步完成哈希值存证工作,在提出司法鉴定报告需求情况下,能通过网络在线进行申请提交,司法鉴定报告将由司法鉴定机构所出具,相关机构应具备法定资质[6]。

4.2 Hadoop电子数据取证技术

根据云南省2017年上半年的发电情况,即便在枯水期,统调机组中水电发电量为87.161 TWh,火电发电量为8.395 TWh,风电发电量为11.583 TWh,太阳能发电量为1.414 TWh。火电发电量不足水电发电量的10%。目前云南省内电力市场为月度市场为主,日前市场交易电量占比很小,价格也难以反映资源的稀缺程度。在现有情况下,如果普遍提高市场价格,会导致枯水期成交价格普遍提高。

4.3 可视化远程视频取证技术

针对跨区域犯罪,尤其是受害者分布于全国各地的电信网络诈骗等案件,通过应用大数据技术,可促使办案效率更高。通过可视化远程取证,避免办案人员长途奔波,并可规避提解在押人员涉及的执法风险。所谓可视化远程视频取证技术,其实就是在互联网技术应用下,结合应用打印机、电子签名、摄像头以及显示屏等多种辅助设备远程的进行视频取证,同步保存所获取的视频资料,这种证据获取技术可对远程办案面临的难辨认、难询问等问题加以解决。在此技术协作下实现远程办案,能使取证过程更加高效、便捷,并智能化地保留取证痕迹,取证结果能够自动化地传输,促使远程办案效率更高,并解决远程办案涉及的一系列问题。

可视化还包括将所提取的数据转为图形,促使分析人员通过观察与分析可视化图形洞察数据当中包含的各种潜在信息,通过数据可视化帮助工作人员深层次地分析海量复杂数据。同时,可视化能使取证人员对所提取的电子数据产生更直观的感受,其可通过观看交互式的图形界面,并和取证背景专业知识相结合,立足多个层面分析与理解所收集以及所提取的各种电子数据,并对不同电子数据之间存在的关联及数据内部包含的潜在因素进行深层次的收集和提取,从而发现更多具有隐蔽性的问题。未来电子数据鉴定人根据法律规定出庭将越来越普遍,在此过程中,要以可视且直观的方式在法庭当中呈现异构多元、抽象化的电子数据,并使数据分析结果更有力地成为呈堂证供,就需要运用可视化电子数据取证技术对其中涉及的问题加以解决。

4.4 层次化电子数据取证技术

随着数据增长速度不断加快,在新时期下开展电子数据取证工作有必要适当调整传统取证流程,层次化取证技术能够为此提供有效支持。在层次化取证模型当中,从上至下包含6个层次,分别是资源调度层、公共服务层、证据分析层、取证监管层、数据链路层以及物理层。对于层次化取证模型,其设计思想和OSI模型七层分层思想相类似,其中涉及的每层均发挥着独立性的功能,上层可对下层功能加以调用,而下层可为上层提供重要服务,上层和下层之间通过设置接口实现双向交流。

具体来说,物理层涵盖有物理主机、虚拟化设备以及服务器等,属于重要的证据供给来源;对于数据链路层,主要功能是获取相关证据;而数据监管层重点是全程记录与监督下方数据链路层以及物理层所做出的各项操作,同步自动化生成报告,保证相关数据具有更高有效性,其可当作重要的法律依据;对于数据分析层,主要任务就是分析以及处理各项数据;针对应用服务层,主要可将取证结果提供给办案人员;资源调度层能够有效保障系统运行的高效性。

5 结语

在大数据时代,越来越多不法分子开始运用多元化的技术手段实施犯罪行为,并具有更强的反侦察能力。在此背景下,需要积极研发并应用基于大数据架构的电子数据取证新技术,在技术支持下促进案件侦破,加大犯罪预防力度,并维护人民群众财产及生命安全,助力平安中国建设。