APP下载

关于电子邮件语言特征识别作者的研究

2019-03-20韩乐慷周钰晗樊昊东郭鹏王贤麟

西部论丛 2019年9期

韩乐慷 周钰晗 樊昊东 郭鹏 王贤麟

摘 要:电子邮件中的手写分析是一种非常具体的调查形式,可通过电子邮件的语言特征来识别作者。电子邮件的内容往往比较短,作者的语言风格比较明显。所以通过电子邮件的语言特征来识别作者具有一定的科学可行性,并且通过电子邮件语言特征识别身份的研究具有重要意义。本文建立了以逻辑条件顺序为基础的BP神经网络预测模型。

关键词:语言特征规划 作者识别 bp算法 误差反向传播 预测检验

1.电子邮件的语言特征的用途

在电子邮件中蕴藏了丰富的各类有用信息,是進行计算机分析取证的重要内容之一,它能为案件侦破提供一些有力的线索。为提高使用效率,人们经常使用各类电子邮件客户端(如Foxmail、Outlook Express、Microsoft Office Outlook等)来处理邮件。因此,分析各类邮件客户端所保存的邮件数据文件也是计算机分析取证的重要手段之一。

此外,由于电子邮件的作者所运用的语言特征不同,通过电子邮件识别作者是十分科学可行的。电子邮件证据在涉网案件侦办中的作用越来越重要。通过解读大数据时代海量电子邮件分析的挑战与机遇,提出了通过邮件各元数据信息的分析与挖掘、邮件关系分析和邮件行为分析,从而准确研判邮件联系人的关系、涉案人员及涉案人员生活规律的分析思路。

2.研究电子邮件的作者身份识别问题的背景

目前,国内外的研究人员主要从两个方面来研究电子邮件的作者身份识别问题。一方面是从物理信息(如电子邮件的头信息、IP地址等)来研究获取作者身份,但效果不尽人意。另一方面是试图通过研究邮件内容来识别作者身份。

3.关于电子邮件语言特征识别的分析

3.1文本处理

本文电子邮件语言特征的识别从表层上分析可以作为一类特殊的文本处理。作者识别需要利用实现作者识别。当然收集的有效文本越多,越具有典型性,就越有利于得到更准确的结果。按照一定的方法和原则排除无关因素,将作者的可能范围缩小到个人。关于作者的语言特征,主要通过词汇频率、特定词汇频率、标点、n-Gram字符串、特定语法特征、平均句长、作者的已有文档作为参考,由于作者的写作风格在一定时间内相对稳定,因此只要能挖掘出作者的语言特征就可以段落长度等特征的统计分析和经验评价来确定电子邮件的作者。

3.2 SVM算法

基于SVM的中文邮件作者识别算法研究:支持向量机(support vector machine,SVM)是一种建立在由统计学习理论导出的结构风险最小化原则基础上的机器学习算法。其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率,而且SVM的一个重要的优点是可以处理线性不可分的情况。

3.3邮件特征

格式特征:邮件的格式特征包括称呼语、问候语、敬语、签名、日期、电子签名、空行、空格、缩进等内外模式,格式特征的提取是通过提前识别标注和之后的统计计算得来的,在有这些格式特征出现的地方做好标注,就可以进行自动化统计,之后将对应的格式特征出现的权值标记为1,未出现的标志为0即可。

结构特征:中文邮件结构特征选取的是平均句长度、平均段长度、空行比率、空格比率、英文比率、数字比率、7种连续点号和7种点号与9种标号的比率。所有这些结构特征都是通过字符识别与统计计算得出的,很容易通过匹配统计的方法得到各种结构特征。

4.模型建立与求解

4.1模型一的建立。为了简化模型,我们首先考虑选取单个邮件作为样本

4.2模型一求解

第一步:网络初始化

给各连接权值分别赋一个区间(?1,1) 内的随机数,设定误差函数e ,给定计算精度值ε 和最大学习次数M 。

第二步:随机选取

随机选取第k 个输入样本以及对应的期望输出

第三步:隐含层计算

计算隐含层各神经元的输入和输出

4.3模型一检验

判断网络误差是否满足要求。 当误差达到预设精度或者学习次数大于设计的最大次数,则结束算法。 否则,选取下一个学习样本以及对应的输出期望,返回第三部,进入下一轮学习。

5.结束语

人类都有本能习惯性,总想保持某些个人的特性,每个人都有独特的行为方式,生物统计学特点等,而且都是潜意识的。我们可以通过提取电子邮件的各种特征,包括语言特征、头信息、结构特征和格式特征,自动地把邮件分类到预定的作者类别中,所以通过电子邮件的语言特征识别作者将成为计算机取证的科学而可靠的技术理论依据。

参考文献

[1] 滕桂法.中文电子邮件作者身份识别技术研究[D].北京师范大学,2005.

[2] 马建斌.中文Web信息作者同一认定技术研究[D].河北农业大学,2010.