APP下载

基于动态特征的电子签名笔迹分类识别研究

2020-04-08黄飞腾郝红光陈维娜孙佳艺史文韬张璐野王子夫

现代计算机 2020年7期
关键词:训练样本电子签名笔迹

黄飞腾,郝红光,陈维娜,孙佳艺,史文韬,张璐野,王子夫

(1.中国人民公安大学刑事科学技术学院,北京100038;2.公安部物证鉴定中心,北京 100038)

0 引言

随着无纸化办公的普及,电子签名的应用越来越广泛,电子签名笔迹真伪纠纷随之产生,相比于纸质签名笔迹,由于电子签名的书写条件、书写心理状态等发生了较大的改变,仅依靠传统的笔迹检验方法难以得出准确的结论,因此,一些专家学者提出了电子签名笔迹的动态特征研究方法[1]。笔迹的动态特征是指,书写运动过程中各个物理量的大小和变化,如时长、作用力、速度等[1]。这些动态特征在传统的纸质签名中不易获取,但是在电子签名笔迹中,可以通过解析软件获取,为量化检验提供条件。目前,在国内外笔迹检验领域,主要是利用电子签名设备获取时长、速度、压力等动态特征的量化数据,对这些数据进行分析、比对,探究电子签名笔迹动态特征的稳定性[2-3],并利用动态特征数据区分摹仿签名与真实签名[4-6]。笔迹检验领域的研究主要是逐个进行人工分析比对,依靠专家经验得出最终的鉴定结论,对于大量的检验、样本的比对则需要耗费笔迹检验人员大量的时间、精力,而且效率较低,成本高。

随着计算机技术的不断发展,许多专家、学者开始研究利用计算机技术对电子签名笔迹进行辅助检验,并取得了一系列的成果[7,8]。通过计算机辅助检验可以对大量样本进行初步筛查,缩小范围,为检验人员在实际案件检验中提供帮助。本文以中文电子签名笔迹为研究对象,尝试利用机器学习算法来研究动态特征,创造性地结合多种监督学习算法构建分类模型[9,10]对不同人的电子签名笔迹进行分类识别,方法易于理解,操作简单易行,识别正确率高,具有可行性。

1 实验部分

1.1 软硬件设备

数据采集设备,智创PPL398S2型手写板。设备参数:分辨率 5080LPI;采点率 300PPS(非插值);误差(边缘)0.5mm;压力感应2048级(非插值)线性技术;笔ID号64BIT;笔尖为高摩擦双材料。

数据采集软件,ZCSignDemoV2.2,解析出电子签名笔迹的采集位点数量、每个采集位点的坐标与压力值。

数据分析软件,MATLAB,用于分类识别。

绘图软件,Origin2018,绘制图表,展示实验结果。

1.2 样本采集

选取30名在校大学生作为志愿者,其中男性志愿者 15名(M1-M15)、女性志愿者 15名(F1-F15),详细信息见表1。

表1 30名志愿者的基本信息

按照签名笔画数将签名分为简单、一般、复杂三种类型签名,详见图1至图3、表2。保持电子签名板与水平面夹角为0°,志愿者在柔和的自然光线下,保持坐姿在板上进行书写练习,熟悉书写条件与书写环境后以正常速度分别书写相同的简单、一般、复杂签名各100次,签名笔迹如图1-3所示。其中,80次作为训练样本,20次作为测试样本。为了防止手臂肌肉疲劳,每书写20次休息一次,每种签名样本3000份,共计获取样本9000份,提取的签名样本原始数据,如图4所示。其中,序号表示采集位点,一个位点表示1/300s,X、Y表示位点的坐标,范围为150至1600点位,相邻两个点位的实际长度为3.57×10-5m;Z表示位点的压力值,范围为0至2048级,1级等于9.8×10-4N。

图1简单签名

图2一般签名

图3复杂签名

图4签名样本数据

表2实验采集的签名类型

1.3 数据预处理

通过对原始数据的分析获取书写时长与力度变化数据,如图5-图7所示。

图5简单签名“王宁”的书写力度变化(M1)

图6一般签名“孙佳艺”的书写力度变化(M1)

图7复杂签名“黄飞腾”的书写力度变化(M1)

采集位点数除以300可以得到以秒为单位的时长;将书写时长、书写力度变化图中的峰数量(书写笔画数)以及每一笔画的平均书写力度作为特征进行分类,如表3所示。

表3预处理后的数据

2 结果与分析

对简单、一般、复杂三种类型的签名样本,分别运用KNN、DA、RF、SVM算法构建分类模型,使用MATLAB 的 KNN.fit、ClassificationDiscriminant.fit、TreeBagger、fitcecoc函数,各自调整到合适的参数实现分类,并统计训练集(Training Set)、测试集(Test Set)正确率(Accuracy/%),分类时间(Time)

2.1 简单签名

四种分类模型对简单签名分类的实验结果,如表4,图8所示。

表4四种分类模型对简单签名的分类结果

表4记录了3000份简单签名样本在四种分类模型下的分类正确率、分类时间。每种模型的训练样本数为2400,测试样本数为600。KNN模型的训练样本正确率为87.4%,测试样本的正确分类数为505,错误分类数为95,正确率为84.1%,分类时间为0.87s;DA模型的训练样本正确率为75.5%,测试样本正确分类数为468,错误分类数为132,正确率为78.0%,分类时间为1.28s;RF模型的训练样本正确率为99.8%,测试样本正确分类数为544,错误分类数为56,正确率为90.7%,分类时间为1.88s;SVM模型的训练样本正确率为94.1%,测试样本正确分类数为524,错误分类数为76,正确率为87.3%,分类时间为6.75s;其中,测试样本分类正确率最高为90.7%,最低为78.0%;分类时间最长为6.75s,最短为0.87s。

图8简单签名的分类正确率与时间

由图8可以看出,四种模型都取得了较高的正确率,SVM分类时间较长,其余均较短;RF模型分类正确率最高,KNN模型的分类时间最短。

2.2 一般签名

四种分类模型对一般签名分类的实验结果,如表5,图9所示。

图9一般签名的分类正确率与时间

表5记录了3000份一般签名样本在四种分类模型下的分类正确率、分类时间。每种模型的训练样本数为2400,测试样本数为600。KNN模型的训练样本正确率为85.3%,测试样本的正确分类数为492,错误分类数为108,正确率为82.0%,分类时间为0.92s;DA模型的训练样本正确率为81.7%,测试样本正确分类数为466,错误分类数为134,正确率为77.7%,分类时间为1.28s;RF模型的训练样本正确率为99.8%,测试样本正确分类数为549,错误分类数为51,正确率为91.5%,分类时间为2.15s;SVM模型的训练样本正确率为98.4%,测试样本正确分类数为512,错误分类数为88,正确率为85.3%,分类时间为7.01s;其中,测试样本正确率最高为91.5%,最低为77.7%;分类时间最长为7.01s,最短为0.92s。

由图9可以看出,四种模型都取得了较高的正确率,SVM分类时间较长,其余均较短;RF模型分类正确率最高,KNN模型的分类时间最短。

表5四种分类模型对一般签名的分类结果

2.3 复杂签名

四种分类模型对复杂签名分类的实验结果,如表6,图 10所示。

表6四种分类模型对复杂签名的分类结果

图10复杂签名的分类正确率与时间

表6记录了3000份复杂签名样本在四种分类模型下的分类正确率、分类时间。每种模型的训练样本数为2400,测试样本数为600。KNN模型的训练样本正确率为99.9%,测试样本的正确分类数为509,错误分类数为91,正确率为84.8%,分类时间为0.75s;DA模型的训练样本正确率为75.5%,测试样本正确分类数为483,错误分类数为117,正确率为80.5%,分类时间为1.11s;RF模型的训练样本正确率为99.8%,测试样本正确分类数为560,错误分类数为40,正确率为93.3%,分类时间为1.99s;SVM模型的训练样本正确率为94.1%,测试样本正确分类数为539,错误分类数为61,正确率为89.8%,分类时间为6.43s;其中,测试样本正确率最高为93.3%,最低为80.5%;分类时间最长为6.43s,最短为0.75s。

由图10可以看出,四种模型都取得了较高的正确率,SVM分类时间较长,其余均较短;RF模型分类正确率最高,KNN模型的分类时间最短。

综合表4-表6,图8-图10,选取书写时长、书写笔画数以及每一笔画的平均书写力度作为特征,在本研究中的四种分类模型下,不同类型的签名对分类效果影响不大,即便是传统意义上认为较难鉴定的简单签名也取得了较好的分类效果。其中,RF模型分类正确率最高对三种样本的分类正确率都超过90%,KNN模型用时最少,对三种样本的分类时间均低于1s。

3 结语

本研究通过获取电子签名笔迹的动态特征数据,并解析出时长、笔画数、每笔平均书写力度作为特征,结合鉴别分析、K近邻、随机森林、支持向量机算法构建分类模型,取得了较理想的实验结果。研究结果表明,随机森林分类器正确率最高,用时最短;尽管不同类型的签名笔画数不同,但是对实验结果的正确率影响不大,这些分类模型不仅适用于传统意义上的特征较多、较易鉴定的复杂签名,也适用于特征较少、不易鉴定的简单签名。本研究在一定程度上论证了运用机器学习算法构建分类模型对电子签名笔迹的分类识别具有可行性,为电子签名笔迹的计算机辅助检验提供了一种简单易行、识别精度高的新思路。

猜你喜欢

训练样本电子签名笔迹
手写电子签名的发展及概念分析
电子签名笔迹在法庭科学检验中面临的问题与现状
套摹电子式电子签名笔迹鉴定问题分析
伪造笔迹的研究
巧克力能否去除桌上的油性笔笔迹
人工智能
电子签名
基于小波神经网络的网络流量预测研究
浅议摹仿签名笔迹鉴定