基于SVM模型的电子签名笔迹动态特征检验的研究
2022-07-13纪舒怀
纪舒怀
(中国刑事警察学院,辽宁 沈阳 110035)
随着时代发展、科技进步,电子签名广泛应用在各个行业,由此衍生的电子签名笔迹检验案件也越来越多。目前国内在电子签名笔迹检验方面,大多数鉴定专家是采用传统签名笔迹检验方法进行鉴定,对检材与样本笔迹特征比对进而根据鉴定专家主观经验进行同一认定。但随着法治的不断完善,法庭审判对于各类证据的科学性要求不断提高,近年来,法庭科学鉴定专家开始推动基于专家经验的检验鉴定向更加客观的量化检验方式转变。电子签名笔迹相对于传统签名笔迹,除了具备传统签名的静态特征,同时能够准确提取书写压力、书写速度等动态特征,且笔迹可以以数据的形式进行储存,这对于电子签名笔迹量化检验提供了更好的条件,也引发了广大文检工作者对电子签名笔迹进行计算机自动比对的试探。
国外的学者对于电子签名计算机自动比对研究较多,在相关的研究中Chandra S[1]等学者在2020 年利用随机森林、贝叶斯等计算机机器学习算法对电子签名设备提取到的笔迹数据进行运算进而对电子签名笔迹进行分类识别,正确率可达90%,对检验电子签名笔迹真实性起到辅助检验作用。但国外的相关研究对象多以英文、德文为主,这些外文的结构比中文要简单,更容易实现自动比对,且对中文电子签名笔迹自动比对的研究很少,目前也没有成熟的方案。因此本实验将以中文签名作为研究对象,针对本实验特点,本文将采用利于处理小样本且善于解决非线性二分类问题的SVM 算法进行机器学习,为电子签名笔迹自动比对提供一种新方法。
一、电子签名笔迹机理与SVM 模型概述
(一)电子签名笔迹机理
电子签名笔迹指的是书写者使用手指或者电磁(容)笔在电磁(容)触摸屏上书写形成的运动轨迹。[2]当笔尖或手指开始移动时,输入设备能获取书写过程中的书写数据信息,电磁屏设备如数位板和数位屏能获取书写时长、二维坐标、书写压力、书写速度和书写加速度等矢量信息。电子签名笔迹与传统签名笔迹在本质上是相同的,都是通过笔迹反映书写者的书写习惯与书写技能,只是两者的书写介质不同,传统签名笔迹书写介质是纸张,而电子签名笔迹书写介质是触摸屏或数位板。由于电子签名笔迹不仅可以通过坐标记录笔迹的外型概貌,还可以通过数位板记录动态特征数据,如书写速度、书写压力等特征,因此,电子签名笔迹具有一定的检验优势。我们在研究电子签名笔迹时,应从传统笔迹特征出发,结合电子签名笔迹特有的特征优势,重点对动态特征进行分析,从整体上把握电子签名笔迹的特点与规律。
本文主要针对电子签名笔迹动态特征进行分析研究,电子签名笔迹动态特征如书写压力、书写速度等可以看作是随时间变化的物理量,因此可以将其看作是一种信号,进而可以采用信号分析法对电子签名笔迹动态特征进行分析,使电子签名笔迹量化结果更加准确与科学。
(二)SVM 模型概述
支持向量机(Support Vector Machine,SVM)最早在1964 年由Vapnik 和Cortes[3]提出,是在分类与回归分析中分析数据的监督学习与相关的学习算法。它是采用监督学习的方式对数据进行二分类的一种判别模型,即通过决策函数判别各个样本之间的差别。SVM 一般作为线性分类器,但是在引入核函数之后,也可以进行非线性分类。常见的核函数包括线性核函数、多项式核函数、sigmoid 核函数以及RBF(径向基函数)核函数等[4]。其中RBF核函数不仅可以处理非线性问题,而且无论小样本还是大样本,高维还是低维等情况,RBF 函数均适用,需要确定的参数也较少。因此,本文选择RBF当作SVM 的分类核函数。
SVM 数据处理原理如下:
式中ϖ—决策面的权重系数,g(x)—非线性映射函数,b—阈值
为了最小化结构风险,最优分类超平面应满足以下条件
引入非负松弛变量ξ_i,这样分类误差就在一个规定的范围内。因此,优化问题就被转变为
式中c—惩罚因子,控制模型的复杂程度和泛化能力
引入拉格朗日算法,优化问题被转换为对偶形式
本文,引入RBF 核函数
式中g—核函数参数,控制输入空间的范围
上述优化问题转变为
二、实验
(一)软硬件设备
数据采集设备:和冠(Wacom)数位板;和冠(Wacom)感压笔(型号pro pen2)。
数据分析软件:Movalyzer 电子签名笔迹动态特征分析软件,用于记录在数位板书写产生的数据信息;MATLAB(R2017b 64-bit win64),用于构建SVM 模型,对特征进行分类识别。
(二)样本收集
选取一名书写者以坐姿正常速度在手写数位板上书写其姓名“李永”50 份,再选取5 名与“李永”书写水平相近的书写者,在熟练使用数位书写板后大量练习临摹检材笔迹,每人以坐姿进行临摹书写50 份样本。将书写的电子签名笔迹样本录入Movalyzer 软件中,导出每份笔迹的压力与速度数据,标好序号,以便后续分析。
(三)特征提取
对本人与他人书写样本的压力数据和速度数据分别进行特征提取,将每组数据看作待检测信号进行计算,压力和速度分别被提取的特征包括5 个:检测信号小波包3 层分解系数的低频能量值;检测信号的最大值;检测信号的平均值;检测信号的峰值因子;检测信号的标准差。共计10 个特征。
(四)建立SVM 模型与运行过程
SVM 分类问题取决于两个重要参数c 和g,这将影响SVM 的分类性能。为了提高模型的预测性能,在模型建立过程中引入了网络格式搜索法(GS)对两个重要参数进行优化,[5]同时避免了模型的过度学习和欠学习的现象发生。[6]为进行参数寻优,采用5 倍交叉验证法得到训练集最高验证准确率为适应度函数。当达到最高验证准确率时,所得到的c 和g 为最佳参数。GS 中,以0.5 为间隔进行全局搜索,c 和g 的范围均是(2-10,210)。对本人与他人书写样本的压力数据和速度数据分别进行特征提取,压力和速度分别被提取的特征包括5 个:小波包变换3 层系数分解的低频能量值;检测信号的最大值;检测信号的平均值;检测信号的峰值因子;检测信号的方差。因此,压力数据和速度数据共提取10 个特征值。压力与速度数据每类选取42 组数据进行训练,8 组进行测试,共84 个训练集,16 个测试集。本文分别建立两个SVM 模型,一个为SVM 符合度的回归预测模型,以训练集中本人书写样本数据为参考,将测试集中的样本数据进行符合度的回归预测;另一个为SVM 分类模型,用于区分测试集中本人书写与他人摹仿书写样本数据。具体运行过程如下:
1.SVM 符合度回归预测模型运行过程。(1)输入样本压力与速度数据,规定训练集输入、训练集输出、预测集输入和预测集输出。(2)进行数据预处理,加快网络收敛速度,使用MATLAB 中“mapminmax”函数进行矢量归一化、特征值归一化处理以加快网络收敛速度。(3)参数寻优,网格数搜索开始。(4)选择回归预测分析最佳的SVM 参数c 和g,利用回归预测分析最优参数建立的回归预测模型进行SVM 网络训练。(5)相对误差计算,得出符合度回归预测结果。
2.SVM 分类模型运行过程。(1)输入样本压力与速度数据,规定训练集输入、训练集输出、预测集输入和预测集输出。(2)进行数据预处理,加快网络收敛速度,使用MATLAB 中mapminmax 函数进行数据归一化处理以加快网络收敛速度。(3)参数寻优,网格数搜索开始。(4)选择最佳的SVM 参数c 和g,利用最优参数建立的分类模型进行SVM 网络训练。(5)预测数据输入,得出分类结果。
三、结果与分析
通过SVM 模型对84 组压力与速度数据进行训练,得到最优参数c=0.75786;g=0.43538;MSE(均方误差)=0.35454,其中MSE(均方误差)是预测值和真实值之差的平方的均值,用来评价数据的变化程度,MSE 越小说明该模型描述实验数据具有更好的精度。再对16 组测试集数据进行测试,得出测试集中本人书写样本与他人摹仿样本相比训练集本人书写样本符合度结果。
统计得到的五位摹仿书写人与李永本人书写的8 组测试集结果中,书写人1-5 的8 组测试集样本符合度平均值结果在44.43%-57.42%,均低于60%;“李永”本人书写样本在5 次测试当中8 组测试集样本符合度平均值结果在73.37%-89.59%,均高于70%。五名书写人测试集样本平均符合度与李永本人书写测试集样本符合度如下图。
测试集平均符合度
通过SVM 分类模型对五位摹仿书写人与李永本人书写的训练集动态特征数据进行运算,得到最优参数c=588.1316;g=0. 027225;CV Accuracy(最高验证准确度)=90.4762%。最后对测试集数据进行运算,得出分类识别结果(见下表),统计得到5 名书写者与李永本人笔迹数据SVM 分类正确度(见下表)。由统计表明显可见,运用SVM 分类器对测试集数据分类识别测试正确度在75%以上,最高正确度为93.75%,平均正确度为85%。
SVM 分类正确度统计表
四、结论
利用Movalyzer 动态分析软件导出的电子签名笔迹动态特征数据信息结合机器学习中的SVM 算法模型,可以有效地分类识别出本人书写的电子签名笔迹与他人摹仿书写的电子签名笔迹且正确度可高达93.75%。并可以通过SVM 回归预测模型计算出各书写样本与本人书写样本符合度数值,本人书写样本符合度可达到80%左右,他人摹仿书写样本符合度在50%左右,且该模型MSE 仅0.35,模型效果较好。该方法很好地弥补了鉴定人在检验电子签名笔迹案件时仅从二维图像信息选取特征的局限性,引入了三维动态特征的定量分析,可以更精确、更高效地解决一些复杂疑难的电子签名笔迹案件。但本文仍存在一些需要改进的地方,如收集样本数量较少、书写条件较为单一、分类器模型以及核函数的选择可以进一步优化。相信在完善之后,会继续提高电子签名笔迹自动识别的准确度,从而建立一套更加客观、系统的电子签名笔迹检验量化方法。