手机取证的中文短文本分类方法
2019-12-19徐红刘衍
徐红 刘衍
摘 要:手机取证是打击利用手机犯罪的重要手段,手机取证面对的主要技术问题之一是中文短文本分类。文章研究手机取证的中文短文本分类,简析文本分类的流程,探讨改进普通文本分类技术以适应中文短文本分类的需求,以及将BP神经网络应用于文本分类器的设计方法。
关键词:手机取证;中文短文本分类;神经网络
中图分类号:TP391 文献标志码:A 文章编号:2095-2945(2019)35-0134-02
Abstract: Mobile phone forensics is an important means to combat the use of mobile phone crime. One of the main technical problems of mobile phone forensics is Chinese short text classification. This paper studies the Chinese short text classification of mobile phone forensics, briefly analyzes the process of text classification, discusses the improvement of common text classification technology to meet the needs of Chinese short text classification, and applies BP neural network to the design method of text classifier.
Keywords: mobile phone forensics; Chinese short text classification; neural network
1 概述
最近幾年,伴随着移动互联网的迅猛发展,智能手机在我国得到了极大的普及。据统计显示,2018年我国的智能手机用户数量已达到了13亿。与此同时,手机厂商和移动应用开发商持续进行创新,不断拓展手机的功能,使得智能手机逐渐融入人们的日常工作与生活。
另一方面,不法分子利用手机进行违法犯罪的案件时有发生。为打击这类型的犯罪,公安机关需要通过手机取证来收集不法分子的犯罪证据。手机取证,就是对保存在手机中和案件相关的信息进行提取,获得具有法律效力的证据。这些信息包含多种数据,如手机通讯录,浏览器浏览记录,微信聊天记录,地理数据,手机通话记录等等。
就国内而言,通过手机得到的手机数据往往以中文短文本为主,而且数据量较大,形式不规则,内容关联关系较弱。这样的数据不可能依靠人工进行证据的分析,而只有依靠自动化方法来进行分析,而中文短文本分类就是这种方法的核心。
本文研究手机取证技术,分析中文短文本分类在手机取证中的实现,探讨将BP神经网络用作手机取证的中文短文本分类算法的实现方法。
2 手机取证与文本分类概述
2.1 手机取证过程
手机取证的过程可以分为以下几个阶段:
(1)证据保全
该阶段主要操作是:现场记录,记录当前手机的状态,如系统时间、图标、电量状况等;网络隔离,将手机与外部通信完全隔离,可通过将手机放入屏蔽容器等方法实现。
(2)证据获取
在该阶段可以采用物理获取、逻辑获取和手工获取的方法来提取手机中的数据。物理获取通过与手机芯片直接交互提取数据;逻辑获取将手机与计算机建立连接,通过软件工具提取数据;手工获取通过人工操作手机上的APP提取数据。
(3)证据分析
手机的原始数据提取出来之后,必须经过分析才能形成有效的证据。中文短文本分类是证据分析中重要的环节之一。
(4)生成报告
该阶段是手机取证过程的总结,报告的内容包括手机取证过程中的全部操作以及最后的结论。
2.2 文本分类
所谓文本分类就是将文本划分为不同类别。它包含训练和分类两个过程,具体步骤如下:
(1)预处理:文本往往是非结构化的,首先要对其进行预处理。
(2)文本表示:利用文本表示模型将文本转换为计算机可理解和计算的形式——向量。
(3)文本特征提取:文本转换为向量后,通过文本分类特征选择方法提取出最能表征文本含义的特征,并给特征赋予相应的权重。
(4)训练:将经过上述处理的训练数据训练分类器,分类器常用的分类算法有贝叶斯算法、K邻近算法和支持向量机算法。
(5)分类:将待分类数据完成上述处理后输入分类器得到分类结果。
3 手机取证中文短文本分类方法分析
从智能手机中提取的信息多以中文短文本为主,如短信息、通讯录、备忘录和聊天记录等,具有特征词稀疏的特点。短文本分类的原理和操作流程与普通文本分类相同,如果直接沿用普通文本分类方法,短文本分类的效果将会很差,因此需要根据短文本的特点加以改进。
3.1 对普通文本分类方法的改进
中文短文本特征词稀疏,按普通文本分类方法处理,会造成提取出的特征不明显,不利于分类器的训练和后续的分类。为使文本分类能应用于中文短文本分类,主要采取改进特征权重计算和文本特征扩展这两种改进措施。
(1)改进特征权重计算
(2)文本特征扩展
扩展文本特征是利用已有的人类知识进行特征扩展。一种简单的扩展方法就是借助词典,获得文本中特征词的解释,而解释语句中包含的词汇与特征词是逻辑相关的,所以可以用这些词汇扩展原来文本的特征。在实际应用中,维基百科词典常常被用来进行文本特征扩展。利用维基百科词典,得到对于中文短文本词汇的解释文本后,将解释文本转换成具有权值的向量,权值代表了原詞汇和文本的相关程度,选取与原词汇相关程度最高的部分特征词扩展到文本中。
3.2 基于BP神经网络的分类算法实现
分类器是文本分类的核心,它直接决定了文本分类的效果。BP神经网络在分类问题上有着广泛的应用,本文基于BP神经网络设计分类器以处理中文短文本的分类问题,具体的设计和实现方法如下:
(1)BP神经网络初始化
将经过上述处理的文本的向量作为神经网络的输入,将文本对应的类别作为神经网络的输出,以此建立BP神经网络的训练集。
BP神经网络采用输入层、隐含层和输出层的三层结构,输入层为k个节点,输出层为n个节点,k和n分别对应于文本向量的维数和文本类别数。根据Kolmogorov定理设置隐含层节点个数。隐含层和输出层各节点的激活函数选用Sigmoid函数。
初始化相关参数,设置包括学习率、最大迭代次数、误差范围E等参数,对BP神经网络连接权值矩阵赋随机值。
(2)BP神经网络训练
BP神经网络训练过程如下:
a.在训练集中选取一组数据作为训练样本;
b.将训练样本提供给BP神经网络,BP神经网络计算出隐含层、输出层的输出;
c.计算模型输出的总误差,再通过求导,计算各层的误差,根据误差对网络权值进行修正;
d.选取下一组训练样本,跳转至步骤b,直至全部样本都参与了训练;
e.如果BP网络全局误差小于E或者训练已达到最大迭代次数,则完成训练。
(3)BP神经网络预测
将待分类的中文短文本经上述处理成向量后输入训练好的BP神经网络中,BP神经网络就会将该文本对应类别输出。
4 结论
手机取证是打击手机犯罪必须的技术支撑手段。本文对手机取证进行了讨论,分析手机取证中的中文短文本分类技术,重点探讨了如何在普通文本分类技术通过改进以适应中文短文本分类的需求,以及如何将BP神经网络应用于文本分类器的设计。
参考文献:
[1]秦玉梅,孙奕.智能手机取证[M].北京:清华大学出版社,2014.
[2]张倩.基于半监督学习的中文短文本分类研究[D].西安:西安电子科技大学,2014.
[3]罗燕.基于维基百科的短文本处理方法[D].石家庄:河北师范大学,2016.
[4]赵小敏.手机取证概述[J].网络安全技术与应用,2005(12):79-80.
[5]王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845.