APP下载

基于卷积神经网络和KNN算法的笔迹性别识别

2020-02-22盛思远赵洋洋

科技创新导报 2020年25期
关键词:笔迹卷积神经网络

盛思远 赵洋洋

摘  要:基于笔迹的性别识别在取证分析中具有重要意义。但是目前的笔迹性别识别的智能算法大多是在笔迹空间进行直接分类,笔迹中包含大量无意义信息,分类准确率不高。本文通过将笔迹空间转化为笔迹相似度空间,通过Mnist数据集训练卷积神经网络得到数字识别模型,然后用自制带性别标签的数据集进行测试并计算得到表现字迹风格的两种数据集。进一步基于KNN算法,对字迹进行性别识别,综合两种数据集得到的预测结果,测试准确度能达到74%。

关键词:卷积神经网络  KNN算法  性别识别  笔迹

中图分类号:TP391.41                      文献标识码:A                  文章编号:1674-098X(2020)09(a)-0112-04

Abstract:Gender recognition based on handwriting is of great significance in forensic analysis. However, the current intelligent algorithm of handwriting gender recognition mostly classifies directly in the handwriting space, which contains a lot of meaningless information, and the classification accuracy is not high. In this paper, we convert the handwriting space into the handwriting similar space, by training the convolutional neural network in the Mnist data set to obtain the digital recognition model, and then test the self-made data set with gender label and calculate the two data sets that show the handwriting style. Furthermore, based on KNN algorithm, gender recognition of handwriting was carried out, and the test accuracy reached 74% based on the prediction results obtained from the two data sets.

Key Words: Convolutional neural network; KNN algorithm; Gender recognition; Handwriting

對笔迹的性别识别在调查取证分析中有重要的意义[1],笔迹中包含的因素主要可以分为两类,一是对已有字体进行模仿,二是在模仿过程中形成个人的风格。理论上来说每个人的笔迹都有个人不同的风格,因此从笔迹中获得各种信息是理论可行的,一些专家学者提出了笔迹的动态特征研究方法[2]。目前,大部分对于笔迹的分析都是基于图像识别的原理,通过卷积神经网络对图像的特征值进行识别和操作,例如基于梯度的识别算法GLBP[3],准确率可以达到70%,基于多层卷积网络的模式识别算法,准确率可以达到71.9%。直接对笔迹图片进行识别操作的方法,造成算法的应用空间范围在整个图片上均匀分布,计算过程中输入数据的复杂度较大,计算结果的准确度不高。另一方面,由于缺乏统一规格的中文离线签名数据库,在训练过程中,很难充分训练[4]。

本文提出了一种在识别之前进行空间转换的思路,将笔迹图片先行识别,利用训练好的卷积神经网络得到笔迹图片对于真值的相似度向量集,再利用KNN算法预测笔迹的性别,在准确度上有较大的提升。

1  相似度向量的提取

为了提取笔迹的相似度,我们利用Mnist数据集训练一个4层卷积神经网络,然后利用此网络计算自制数据集训练组对照真值的相似度。

1.1 用于识别数字的卷积神经网络

Mnist数据集由6万个训练样本和1万个测试样本组成,每个样本为单张手写数字图片和对应的数字标签,规格为28*28的灰度。卷积网络由两个卷积层两个池化层和两个全连接层组成。本文使用基于Tensorflow2.0的keras框架,搭建计算模型,激活函数和损失函数选取如表1。

模型的最终输出为10位One-hot形式,对训练得出的网络利用测试样本进行检测,数字识别准确率达到97.8%,将此模型当作标准网络计算相似度向量。

1.2 差异度与相似度向量的计算

由于Mnist数据集中,没有性别标签,因此我们需要自建数据集获得字迹和性别之间的关系,每个样本必须是同一个人的字迹,包括0~9十张图片和对应的数字标签。利用已经训练好的网络辨识图片得出Ont-hot类型的结果Aij,Rij∈10*10。我们把训练的结果写成一个10*10的矩阵形式,其中Rij表示第i张图片训练的One-hot形式的结果上第j个位的输出。然后将A减去单位矩阵I得到结果矩阵R,由于R的每一个元素都代表着样本测试距离Mnist字迹风格的偏移,因此R代表了样本字迹的风格。

R中每一列表示书写数字的字迹对某一个数字的倾向,因此将R纵向都加得出差异度向量M,Mj=Σi|Rij|。

R中每一行表示书写某个数字时与Mnist字迹相比的偏差,因此将R横向相加得出相似度向量N,Ni=Σj|Rij|。

研究中,把每一人的字迹与对应的性别标签当作一个样本,为了保证样本对于性别的敏感性,我们选取了500组样本,300组作为训练集,200组作为测试集,两种性别各半。为了防止年龄文化程度等因素的干扰,我们直接从同一年级的学生作业中扫描得出样本。

2  基于KNN的字迹性别识别

KNN网络是一种K近邻算法,当训练样本较多时,有很好的准确度,我们分别从字迹的错误倾向和字迹相似度两个方面,利用KNN网络对字迹进行性别识别。其中,度量空间我们选用欧氏距离,并在K近邻中取平均权重。

2.1 实验结果

在计算中,由于我们选取了欧式距离和平均权重,K近邻算法只有一个超参数K,我们简单的进行穷举式的超参数优化,计算不同的K值情况下,性别的预测结果。利用差异度向量样本集进行训练和测试,得到的最高准确率在K=12时出现,为68%;利用相似度向量样本集进行训练和测试,得到的最高准确率在K=11时出现,为70%。将两种测试集的预测结果加权平均到一起,得到的最高准确率在K=11时出现,为70%,准确度随K的变化如图1。

2.2 优化分析

将两种测试集的测试结果平均到一起,预测的结果并没有显著改变,说明差异度向量和相似度向量中的每一个都可以完全代表样本的字迹风格,因此单独使用一个测试集,经过优化就可以达到相同的准确效果。

在这里,我们猜测,某些人的字迹有明显的性别倾向,如果使用这些人的字迹作为训练集,应该能更好表示字迹的性别特征。基于此,我们利用循环的将每个样本放入测试集进行计算,将预测成功比率高的300个样本当作新的训练集,同时引入额外制作的测试集(样本数量300,性别比1:1),同样利用KNN,发现准确率在K=10时达到了74%,比基于局部特征的算法[5]高出4个百分点,比基于 GMM 的算法高出6.43个百分点。准确度随K的变化如图2。

由此可见,有些字迹的风格有明显的性别倾向,而有些字迹的风格与性别关系不大,因此选用随性别变化明显的字迹作为训练集更能体现字迹的性别倾向,识别的效果更好,验证了我们的猜测。

2.3 算法进化

在实际应用中,这样选取样本的代价过高,因此我们使用一种算法进化的方式。首先我们随机选取300个样本作为训练集,每加入一个测试集,若预测成功,则以一定概率p代替据此测试样本距离最远的训练样本,被代替的样本加入测试集的末尾,循环迭代。本文最终可以达到2.2中得到的准确度,当p=0.15时,迭代次数最小,为12000左右,本质上是一种随机梯度下降的算法。

3  结语

目前对于笔迹的性别识别的研究,准确度依然无法达到一个令人满意的程度。可能由于一部分人的笔迹所包含的特征与性别的关系不大,而与其他一些诸如体质、性格等因素相关。因此基于卷积神经网络的特征提取和KNN的模式识别,在笔迹的性别识别中有很大的优越性。但是由于KNN算法的限制,训练样本数量不能过大,因此在训练集中笔迹的风格可能不完备,无法识别测试样本的某些特征,造成特征的缺失和疏漏,一定程度影响了准确率。因此,需要继续优化算法对特征的识别,提高准确率。

参考文献

[1] 刘维达,卜巍,邬向前.基于深度学习的笔迹性别识别[J].智能计算机与应用,2017,7(3):135-137.

[2] 陈晓红.司法笔迹鉴定[M].北京:科学出版社,2018.

[3] Nesrine Bouadjenek, Hassiba Nemmour, Youcef Chibani. Age, gender and handedness prediction from handwriting using gradient features[C]// International Conference on Document Analysis & Recognition. IEEE, 2015.

[4] 賈昊丽,程永强,李志磊.区间模糊相似性度量的离线签名验证[J].计算机工程与应用,2019,55(18):122-126.

[5] N Bouadjenek, H Nemmour, Y Chibani. Local descriptors to improve off-line handwriting-based gender prediction[C]// Soft Computing & Pattern Recognition. IEEE, 2015.

[6] 殷亚博,杨文忠,杨慧婷,等.基于卷积神经网络和KNN的短文本分类算法研究[J].计算机工程,2018,44(7):193-198.

猜你喜欢

笔迹卷积神经网络
大卫的漂流瓶
巧克力能否去除桌上的油性笔笔迹
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
笔迹泄露大秘密
论书写速度变化笔迹鉴定
笔迹鉴定过程中的心理偏差及其控制