数据挖掘在网络取证中的应用与研究
2020-01-07黄士超
◆黄士超
数据挖掘在网络取证中的应用与研究
◆黄士超
(广州供电局有限公司 广东 510620)
云计算、大数据、移动通信、智能手机、平板电脑等计算机多媒体技术和智能设备的普及应用,即为人们提供了便捷,也助长了犯罪贩子作案方法和工具。许多犯罪分子利用智能手机、台式电脑、笔记本或平板电脑等进行通信交流,密谋策划和实施犯罪活动,因此公安机关或检察机关在办理案件时,不仅需要掌握传统的取证技术,还需要掌握网络取证技术。网络取证可以从缴获的电子犯罪工具中搜寻犯罪证据,利用这些犯罪证据为嫌疑人定罪、量刑,进一步维护社会治安和经济繁荣发展,目前网络取证技术经过多年的研究已经诞生了很多,比如高效截包技术、会话重建技术和专家识别系统等,都可以快速的识别网络犯罪证据,但是随着犯罪也更加狡猾,信息传播手段更加复杂、隐蔽性也大大的提升,因此为了能够更好地提高网络取证可靠度和可用性,本文提出引入数据挖掘技术,利用机器学习将犯罪证据关联在一起进行分析,为抓获犯罪分子定罪量刑作支撑。
网络取证;高效截包;会话重建;专家识别系统;数据挖掘
1 引言
随着云计算、大数据、4G通信等计算机技术的诞生,有力的提升了人类社会的信息化水平,目前人们进入到“互联网+”时代,实现了电子商务、电子政务、手机银行、在线旅游、智能学习平台,大大提高了人们工作、生活和学习的信息化、共享化,但是也为一些犯罪分子提供了可乘之机,许多的犯罪分子利用智能手机、微信、微博或QQ等社交多媒体平台,密谋犯罪活动,或者在网络上发布一些不利于和谐社会的犯罪言论,助长了犯罪活动的嚣张气焰[1]。
因此,公检法机关为了能够维护社会治安,惩治犯罪活动,开始研究从电子设备中获取犯罪证据,但是这些犯罪嫌疑人通常会采用隐蔽的会话暗语,也会在第一时间破坏电子设备,因此网络取证需要恢复这些设备或通讯会话,从而可以获取犯罪证据[2]。目前,互联网常用的网络取证技术很多,但是犯罪分子采用的技术也大幅度提升,隐蔽性、破坏性更强,亟须引入更加先进的数据挖掘技术,利用深度学习、BP神经网络、支持向量机、K-means算法等,从网络通信设备中挖掘有用的信息,以便能够准确地识别犯罪证据。
2 网络取证技术应用与发展现状分析
网络取证诞生于20世纪90年代末,一些网络防火墙等安全防御专家为了帮助公检法破案,将利用计算机多媒体设备进行犯罪的分子捉获定罪,开始从网络通信会话或电子设备中捕获、记录和分析犯罪证据[3]。网络取证作为一种全新的计算机应用技术,融合了数字证据的采集、整合、识别、分析、关联、应用等活动过程,可以准确揭示与犯罪活动相关的事实,旨在帮助公安机关抓获犯罪嫌疑人,并且为其定罪和量刑做辅助支撑[4]。网络取证涉及的设备多,取证过程充满复杂性和多样性,当前常用的技术包括高效截包技术、会话重建技术和专家识别系统等,详细描述如下。
(1)高效截包技术
犯罪分子利用互联网进行通信,传输的信息可以通过数据包承载,因此为了能够实时的监控犯罪分子电子通信活动,可以采取高效截包技术,该技术可以避免数据包丢失,从而损坏犯罪分子的活动,不利于进行协议分子,可以保证电子证据的完整性,目前高效截包技术已经引入了许多先进技术,比如将程序固话在硬件中,可以提高分析能力和处理速度,进一步提高数据处理性能。
(2)会话重建技术
会话重建是当前网络取证的一个关键技术,其可以重构犯罪分子通话时的器情景,将断续的、散乱无章的网络会话技术集成在一起,形成一条完整的犯罪通信记录证据。会话重建基于数据包重组技术,可以将截获的数据包逐层分析,利用TCP/IP协议进行数据重建,重新组合过程中可以获取更多的有力证据。
(3)专家系统
高效截包技术和会话重建技术适用于实时的获取犯罪证据的过程,但是由于许多犯罪证据均已成为历史信息,并且许多电子设备遭到破坏,因此需要重被破坏的电子设备存储器中获取犯罪证据就变得很难。人们提出利用专家系统,可以配合网络检测技术和深度包过滤技术,利用专家的经验知识从海量数据存储中恢复电子证据。目前典型的专家系统包括知识库和推理机,可以将原始电子证据信息进行处理和识别,从而可以基于规则推理系统检查电子证据的完整性。
3 数据挖掘在网络取证中的应用研究
目前,网络犯罪分子采取的技术更加隐蔽,比如加密数据等,一旦犯罪活动被公检法机关察觉,这些犯罪分子就会大肆破坏电子设备,将存储的信息删除。因此网络证据的恢复越来越困难,网络犯罪信息的关联性也越来越低。因此,为了能够使得犯罪证据更加完整,本文引入了先进的数据挖掘技术,利用回归分析、深度学习和关联分析算法,将电子信息证据集成在一起,提高犯罪证据的可用性和可靠性。
图1 基于数据挖掘的网络取证流程
回归分析能够有效地挖掘数据库中的属性值在时间特征产生的网络证据信息。回归分析可以将相关的数据项映射到函数上,这个函数是一个关于实值预测变量的,能够发现变量或属性之间的相互依赖关系,进一步发现数据的趋势特征,预测网络证据数据的时间序列,发现网络证据数据之间的特征关系内容,更好地实现数据分析与操作,保证网络证据信息的生命周期稳定。
卷积神经网络是一种多层次的前馈型人工神经网络,包括两个关键卷积层,分别是特征提取层和特征映射层,这两个层次的出现使得卷积神经网络特别适用于网络证据处理。特征提取层能够与输入神经元进行有效连接,获取输入网络证据信息,从而可以提取一些网络证据特征,并且确定特征在时间序列中的相对位置。特征映射层可以将提取的特征映射到一个平面上,在这个平面上每一个神经元都可以赋予相同的权值,经过训练和学习之后,卷积神经网络就可以得到一个良好的神经网络结构,可以更好地应用于网络证据特征处理[3]。
Apriori算法可以描述网络证据数据集中每一个数据项之间的关系,也即是如果某一个事件发生可能会引起其他事件一同发生,这种关系隐藏在数据中。经过多年的研究,Apriori算法已经得到了极大的改进,引入了许多先进的技术,比如遗传算法、梯度算子、模拟退火等,提高了关联规则发现的准确度和高效率,具有重要的作用和意义。
4 结束语
网络取证是破坏犯罪活动证据的重要环节,目前已有不少公检法机关和人工智能的学者进行了相关的研究。经过多年的发展,网络取证诞生了高效截包、会话重建、专家识别系统,这些网络取证技术适用于不同的场景。但是,由于犯罪分子的活动更加隐蔽,具有反侦察能力的犯罪分子还破坏了许多的电子设备,存储的信息也会被覆盖或破坏,不利于网络证据获取。因此本文提出引入数据挖掘技术,基于先进的算法可以将这些证据信息关联在一起,形成一个完整的证据链,帮助人们破获犯罪分子行动或定罪量刑。
[1]许学添,邹同浩.基于弱关联挖掘的网络取证数据采集系统设计与实现[J].计算机测量与控制,2017,25(1):123-126.
[2]侯欢欢.数据挖掘在计算机动态取证技术中的应用研究[J].数字技术与应用,2017(8):76-77.
[3]高辉.数据挖掘在计算机网络病毒防御中的应用[J].电子技术与软件工程,2017(10):216-216.
[4]周永杰.数据挖掘技术在计算机犯罪取证中的应用分析[J].数字通信世界,2018,161(05):117.