浅析深度学习在司法取证领域的应用
2019-12-16张席瑞朱容宇邹林
张席瑞 朱容宇 邹林
摘要:信息时代的高速发展,虽然极大地方便了人们的生活,但也催生出各式各样依托于计算机、网络的新型犯罪。在大数据背景下,电子数据司法取证面临着取证难、数据筛选效率低下等问题。本文以图像数据的筛选处理为例,介绍了如何利用深度学习技术针对性的筛选电子证据,提高司法取证的数据筛选效率。
关键词:深度学习;司法取证;图像识别
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)30-0284-02
1深度学习简介
1.1深度学习的概念
机器学习是一种实现人工智能的方法,而深度学习是机器学习中的一个分支,是一种让多层神经网络能够运行、训练的一系列新的结构和方法。
深度学习是机器学习研究中的一个新的领域,其目的在于建立模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像、声音和文本。
1.2优势
深度学习和传统机器学习相比有以下三个优点:
(1)高效性
例如前几年大热的AlphaGO,以深度學习技术为基础,轻松击败了顶级的人类棋手。这就是因为以人类的方式去评估、计算棋局的优劣,需要专业的棋手花费大量的时间进行计算,但影响棋局的因素数量多且复杂,即使花费了大量时间,也不一定准确。但利用深度学习技术,只要设计、搭建合适的框架,就可以节省大量的特征提取的时间,在较短时间内完成分析和预测。
(2)可塑性
与深度学习相比,传统算法也需要训练模型,但在针对不同需求进行模型调整时,两者的代价大不相同,传统算法的模型要调整很可能要对代码进行大改,甚至重写,成本极高;而深度学习模型只需要调整参数就能有效的改变模型,这使得它能以低成本的方式对模型进行细节和功能的调整。
(3)通用性
传统算法通常是针对某一类特定问题设计,针对性较强,但同时通用性很低;而深度学习可以通过学习来解决问题,同一个算法,对于不同的问题可以按照类似的方式做特征提取和学习,生成不同的模型,以满足多种需求。
1.3现状
深度学习极大地促进了机器学习的发展,受到世界各国相关领域研究人员和高科技公司的重视,语音、图像和自然语言处理是深度学习算法应用最广泛的三个主要研究领域。
以图像识别为例,深度神经网络的构建、计算机计算能力的提升、GPU技术的发展,使得训练数据的速度大幅增加,促进了图像识别技术的发展。现在的深度学习网络模型已经能够识别一般的自然图像。深度学习模型不仅大幅提高了图像识别的精度,同时也避免了需要消耗大量时间进行人工特征的提取,使得在线运行效率大大提升。
信息技术的高速发展虽然给大众带来许多便利,但也促使了不法分子违法犯罪的手段花样百出,为了打击犯罪、维护社会稳定,必须对违法案件进行司法取证,获取犯罪证据。
2司法取证简介
2.1司法取证的概念
司法取证是指有调查取证权的组织或个人为了查明案件事实的需要,向有关单位、个人进行调查、收集司法证据。具有调查取证权的国家机关有公安、检察院等。
司法证据包括书证、物证、证人证言、当事人的陈述、视听资料、鉴定意见、现场笔录、勘验、检查、辨认侦查实验笔录、电子数据等。其中电子数据在当今信息技术高速发展的社会背景下,重要性逐年提高。
2.2司法取证中的电子数据取证
电子数据取证的取证主体是具备计算机知识背景的侦查技术人员,取证对象是计算机系统或网络设备中的电子数据,取证环境是由电子设备所创设的虚拟空间。电子数据取证是指从电子数据中分析、提取出能够为法庭接受的、足够可靠和有说服力的电子证据的过程。电子取证包含各种电子数据,只要是以电子手段、仪器等方式获取到证据,都可以叫作电子取证。
电子数据取证不仅可以发生在虚拟空间,也可以发生在现实空间。计算机取证的对象包括计算机和依托于计算机系统的网络,还可以借助于各种电子仪器、设备,通过电子的方式进行取证。
2.3面临的问题
早期的取证工作面临取证软件单一,取证硬件落后,多依赖于人工操作的问题。电子数据的取证工作人员消耗了大量的时间对计算机进行人工分析,如查看涉案计算机的注册表,文件访问记录,网络链接的IP,手工进行相关数据的筛选等。
现阶段虽然取证设备软硬件配置和功能有较大提升,但在电子数据筛选方面效率低下仍是比较突出的问题。为了提升取证效率,加快案件侦破效率,必须对取证技术进行改进;而深度学习技术有着效率高、普适性强的特点,如果将其应用于电子数据取证,可以预见,能极大地提升电子数据取证的数据筛选效率。
3深度学习在司法取证中的应用
3.1电子数据取证中的图像识别需求
3.1.1工作模式
要明确电子数据取证中的具体需求,首先要了解电子数据取证的工作模式。以公安部门电子数据取证的工作模式为例。首先,公安部门在案件办理过程中发现需要进行电子数据取证时,将待检测的检材进行封存,然后向技术部门或有资质的取证实验室进行委托,将待检测的检材移交给技术部门或取证实验室。接收委托后相关部门或实验室对检材进行预检,如果发现检材存在损坏、故障、内容有误等不符合电子数据取证要求的情况时,就将检材退还给委托部门。若符合要求,则对相关的检材在只读状态下制作镜像或磁盘复制,然后对制作的镜像或复制磁盘进行取证分析,通常是进行相应的关键词搜索、数据恢复、相关电子邮件、图片、聊天记录等数据的筛选提取。最后,生成相应的取证报告提交给委托部门。
3.1.2需求分析
在上述过程中,最为困难的显然是对检材镜像的分析,目前市面上众多的取证分析软件大多通过数据分类、关键词查找等方式进行自动化数据筛选,但这些处理方式难以筛选图像数据,因此目前仍然使用大量人工方式进行筛选,这不仅效率低下,同时也越来越无法适应数据量大幅膨胀的当前犯罪形势。
电子数据取证的图像处理功能需求较为简单,就是在从嫌疑人处获取的证据源中找出含有相应违法证据的图像;以涉毒案件举例,办案人员需找出的涉案图像证据包括:含有毒品的图片、吸毒图片等,而需处理的图像数据少则数千,多则数万甚至数十万,以人力进行数据筛选显然效率不高,寻求自动化的数据筛选方式成为重要的需求。
深度学习在图像识别等领域已经有很多的应用,如果能将其应用到取证领域中,必将大幅减少取证操作中数据筛选的工作量。
3.2利用深度学习实现图像识别
图像识别是人工智能领域的一项重要研究,它以图像的主要特征为基础,对图像进行处理、分析和理解,使其可以识别同一类的不同图像。而深度学习旨在研究如何从大数据中学习知识并自动完成特征的提取与分类任务。它可以从原始的图像数据中提取出包含不同层级、语义的特征。
深度学习因其提取特征能力强、应用范围广等优点,在图像识别中得到广泛的应用,并提出了许多深度网络模型,例如:卷积神经网络(cNN)、循环神经网络(RNN)、深度置信网络(DBN)等。其中卷积神经网络(cNN)应用在物体检测、人脸识别、动作识别等图像识别领域效果显著。
本文选取了物体检测算法Faster R-CNN来实现自动化图像分类,它的基本原理是预先提取一系列较可能是目标物体的候选区域,之后在这些候选区域上进行特征提取、分类、位置精修,并训练,生成模型。
3.3基本流程
本方法是一種基于深度学习较高识别率的图像分析方法,用于生成图像分析系统,包括以下步骤:
(1)收集数据,建立常见物体数据集,将常见物体数据集按照物体类别分类成不同的分类常见样本,对各个分类常见样本再具体划分成不同的具体常见样本;
(2)对具体常见样本的子样本进行物体标注;
(3)针对特定的物体,建立特定物体数据集,将特定物体数据集按照物体类别分类成不同的分类样本,对各个分类样本再具体划分成不同的具体特定样本;
(4)对具体特定样本的子样本进行物体标注;
(5)对每一个具体样本结合目标检测算法进行模型训练得到物体专用模型;
(6)输入待识别图像样本,按识别方法使用上述模型对数据进行自动分类并输出结果。
3.4技术分析
上述的基于深度学习的图像分析方法,模型训练的基础是图像样本数据集,其构建的样本数据集包含常用物体样本集和特定物体样本集。
常用物体样本集即为常见物体分类,例如杯子、狗、背包、人类等类别;特定物体样本集即为此模型需识别的目标物体类别,例如毒品、香烟等;每个类别下有含有对应类别物体的图像样本,数量在数百至数千左右。将这两种数据集结合起来,即可生成针对特定物体的原始数据集,其中常用物体样本集的作用在于提高对非目标物体的识别率,减少误识率;特定物体样本集作用在于确定目标物体,即决定该数据集可以用来识别何种物体,例如特定物体数据集中包含:毒品、吸毒用具、制毒用具这三种类别的样本,那么该模型则可用于识别涉毒案件的图像。
模型训练与物体检测算法以算法封装的形式提供API接口给前端调用,模型训练完成后即可输入待检测图片进行物体检测并输出结果,其中图片中被找出来的物体即为该模型需要识别的目标物体。
4展望
国际文献资料中心IDC研究表明,数字领域存在着1.8万亿GB的数据。企业数据正在以55%的速度逐年增长。数据规模越大,处理的难度也就越大。在大数据环境下,想对海量数据做精确的筛选处理已经变得极为困难,有时不得不以部分精确度为代价换取数据处理速度的大幅提升。
许多案件中,电子数据证据的收集须耗费极大的时间、人力及物力,甚至不具有人工处理的可行性。如何在大数据时代下利用人工智能技术提高电子数据取证的效率是当下电子数据取证需要研究的重要课题。
随着人工智能技术的发展和司法取证技术的升级换代,两个领域的跨界融合必将更加迅速和全面,未来,人工智能必将成为司法取证领域的提升取证效率的关键技术,而对其进行前沿的研究和应用,则是各大取证装备研发厂商不可忽视的重点。