笔迹量化鉴定与统计学分析的研究综述
2023-04-17李双双杨旭陈晓红
李双双,杨旭,陈晓红
(1.华东政法大学刑事法学院,上海 200042; 2.司法鉴定科学研究院上海市司法鉴定专业技术服务平台司法部司法鉴定重点实验室,上海 200063; 3.南京警察学院刑事科学技术学院,江苏南京 210023)
笔迹鉴定是司法鉴定领域和计算机领域的重要工作。 如今,笔迹鉴定检验人员仍然运用传统的技术方法并根据相关经验对笔迹的书写人作出判断。 关于笔迹鉴定有效性和可靠性的争论由来已久,传统上用来证明笔迹可变性和个性的基本原则受到了挑战和批判[1-2]。 与此同时,基于计算机的笔迹鉴定系统开始了个体识别的研究,并尝试在司法鉴定领域开展应用。 然而,目前计算机离线笔迹验证系统是基于静态(离线)二维图像的测量,而图像本身很容易被伪造,因此此类笔迹验证系统判断摹仿笔迹的能力较弱。 此外,这一领域的研究往往集中在缺乏规模和多样性的数据集上,致使由此训练出来的系统鲁棒性不能满足实践应用需求。 以上这些缺点阻碍了计算机技术在笔迹鉴定中的应用。
随着科技的快速发展,计算机图像处理技术、光学、统计学等学科为笔迹特征量化研究提供了可利用的技术和方法,笔迹特征的统计分析能够客观反映笔迹检验结果,科学评估笔迹鉴定意见是笔迹鉴定的发展方向之一。 目前,笔迹量化鉴定与统计分析研究主要集中在计算机笔迹个体识别与笔迹鉴定两个领域。 计算机笔迹个体识别系统主要可分为两种类型:在线笔迹个体识别和离线笔迹个体识别,离线笔迹个体识别系统处理书写完成的静态图像,而在线笔迹个体识别系统处理从采集硬件实时获得的数据。 笔迹鉴定的任务与离线笔迹验证最为接近。 本文针对笔迹特征量化、笔迹特征数据分析以及基于似然比模型评估笔迹鉴定意见准确性与可靠性的研究进行梳理和总结,并对笔迹量化鉴定与统计学分析研究在司法鉴定领域面临的问题以及未来的发展方向进行讨论。
1 笔迹特征量化方法
本文中笔迹特征的量化是指以测量的方法检测笔迹,并以数据形式表示特征的大小和变化。
1.1 在线笔迹动态特征的量化
书写时间、书写速度与加速度、书写压力、执笔倾斜角度、字的大小、抬笔次数等是常用的在线笔迹动态特征,由数字化采集设备直接测量或计算得出。 为构建更能丰富反映书写运动特点的特征集,研究人员进一步细化在线笔迹的运动学变量:在书写速度与加速度分析中,由采样点X/Y轴坐标计算得出线速度、线加速度、角速度与角加速度[3],由加速度的时间导数得出变加速度(也称为“跃度”)[4];在分析书写时间时,将书写时间分为笔画持续时间与空中时长[5],有研究人员还通过计算从零到峰值速度的时间与笔画持续时间的比率来反映书写运动效率[6]。 这些细化的运动学变量的数值与变化有助于分析书写运动的具体情况。
在笔迹鉴定中,研究在线笔迹动态特征的一个重要目的是确认和验证离线笔迹中基于形态特征预测的书写运动。 可用的方法有建立在线笔迹动态特征数值与纸质笔迹静态特征相对值的相关性[7-8],为分析纸质笔迹的动态变化提供依据。 HECKEROTH等[9]发现笔迹鉴定检验人员在电子签名与纸质签名中关于笔迹真实性的结论并不存在显著差异,表明电子签名在笔迹识别中是可行的。 虽然之后HECKEROTH 等[10]发现电子签名和纸质签名在签名大小与书写压力上存在明显差异,但这种影响受书写区域与手写笔的限制,因此这些不同并不代表书写行为明显不同。
1.2 离线笔迹特征的量化
离线笔迹特征的量化是通过分析来自扫描仪或数码相机转化形成的二维静态图像文件来实现的,过去多数研究关注离线笔迹的形态特征,多种多样的量化方法已经或正在开展,可归纳为特征赋值与特征测量两种。
1.2.1 特征赋值
在笔迹鉴定中,可用的离线笔迹形态特征多种多样,概貌、布局、写法、运笔等均是常见的形态特征,主要依据检验人员对特征的认知进行分类描述,并按照一定的标准对分类结果设定等级与赋值,用数字的大小来表达笔迹特征的表现程度,在一定意义上量化了笔迹特征数据,但这种特征赋值方法具有很强的主观性,且分类标准因人而异,得到的特征数据不够客观。 于彬[11]提出在笔迹鉴定检验人员根据专业知识与经验积累对笔迹特征赋值的基础上,通过数据建模的方式求得每个笔迹特征指标的权重值并形成量化系统,以量化特征数值来增加赋值结果的可靠性,但此法仍无法有效排除人为因素的干扰。 特征赋值的方法一般用于无法测量的主观感受或判断,常用于社科类研究中,且具有一定的意义。 这种方法虽然表现为数值形式,但是实质上仍然是专家的经验, 存在较大的主观性,并未完全解决笔迹特征客观量化的问题。
1.2.2 特征测量
运用几何方法测量笔迹形态特征,是离线笔迹形态特征量化研究有所进步的表现。 卫燕茹等[12]手工测量了纸质上笔迹的布局、 字行方向等特征,为笔迹鉴定检验人员评判特征价值提供了较为客观的依据,但人为测量偏差仍是一大难题。 借助仪器设备测量笔迹形态特征为笔迹鉴定的量化研究提供了科学方法,如在文检仪下测量字符的长度与角度[13],再如测量笔迹图像字符大小、字符间距[14]与笔画长度[15]等宏观笔迹特征,均是简单快捷的形态特征量化方法。 但以上测量方法为手工测量,测量结果因人而异,基于此,研究人员考虑对笔迹图像进行预处理,分析二值化的笔迹图像,并进行自动化的特征测量。 MARQUIS 等[16]采用Visilog 1 Xpert 6.11 软件自动提取二值化笔迹图像中字母“O”的轮廓,用轮廓的点与质心间的长度以及该直线与横轴的夹角来表示该点的轮廓特征向量,经傅里叶分析后用于精确描述字母的外形特征;此后,该团队[17]还对字母“a、d、o、q”的形状进行分析,为多变量统计模型提供了测量数据。 王相臣等[18]借助Matlab 软件测量二值化笔迹图像中字与字之间的质心距离来确定字间距数据,实现了字间距特征的量化。秦晔[19]使用计算机技术自动标记笔迹的字符布局特征、字符间分布特征、字符形状特征等,并通过软件程序量化标记的特征数据,这是探索笔迹智能化检验的路径,但受限于图像处理的标准化水平与笔迹特征数据库的规模,在实践中尚不足以承担鉴定任务的应用。
此外,从立体空间角度来看,笔迹是三维的,笔痕深度是笔尖作用于纸张使之变形的程度,反映了笔力轻重。 利用精密仪器观测笔画压痕,结合计算机技术获取笔画各采样点的压痕深度值,也是离线笔迹图像特征的一种量化方法。 研究人员通过大量的实验,探索了笔迹三维信息提取分析仪检测获取的笔画压痕在区分摹仿签名笔迹与摹本签名笔迹书写压力特征[20]、认识书写纸张与衬垫条件变化对签名笔迹压痕影响[21]、分析速度变化笔迹书写压力变化规律[22]、比较同一人运动前后签名笔迹与临摹签名笔迹差异[23]等中具有可行性,为辅助笔迹检验提供了客观依据;但该技术的扫描系统灵敏度高,测量精度达微米级,实验中对书写材料有着严格要求,若纸张褶皱,观测的笔画压痕数据可能存在偏差。 一些笔迹三维形貌测量仪器也可以测量、分析笔画各采样点的凹痕深度数据[24]和笔画的角度、宽度[25],这些仪器与方法为笔迹检验提供了更多维度、更为多样化的特征信息,是对现有笔迹鉴定特征体系的一种有益补充。
1.3 离线笔迹伪动态特征的量化
笔迹的形成是一个物理过程,书写运动中作用力、书写速度与加速度等物理量的大小和变化是笔迹形成过程中运动变化状态的表现[3,26],即压力与速度的作用形成了笔迹动态特征的具体征象。 从离线笔迹图像中挖掘笔迹动态信息是笔迹鉴定研究的新角度,但由于其最终以静态图像的形式呈现出来,无法实时获取压力与速度信息,实践中多从墨迹浓淡、笔画粗细、笔画线条质量、连笔多寡以及纸张正面与背面的凹凸程度等方面定性推断书写压力与书写速度的变化[26-29],为初步认识并预测笔迹动态信息积累了经验。 但这些方法更多的是基于主观经验判断,检验结果易受笔迹鉴定检验人员视觉感知与主观认知的影响,若笔迹鉴定检验人员能力不足或认知存在偏见,所得结果的可靠性将大打折扣。
开发和建立检测、提取离线笔迹动态信息的工具与方法是笔迹鉴定的迫切需要,是笔迹鉴定从定性分析向定量测量逐渐转变的关键阶段。 在近期的研究中,研究人员提出了“相对动态特征”的概念,即在静态笔迹图像中恢复笔迹的书写轨迹,并按照书写轨迹的顺序获取笔画宽度、灰度、弧度等信息。因为其与在线笔迹的动态特征不同,不是实时提取的信息,但是反映相对的书写顺序,所以称为相对动态特征[3]。 为了区别于在线笔迹的动态特征,也有研究人员将这类特征称为“伪动态特征”,从静态笔迹图像的灰度级、笔画宽度、运笔走势等方面恢复书写时的运动信息,在计算机笔迹个体识别中使用较多[30-33]。
1988 年,AMMAR 等[34]将签名图像的灰度信息作为一种伪动态特征用于离线签名鉴定,需要注意的是,这里所提到的伪动态特征是二维图像的灰度变化分布,有别于上文所提到的“伪动态特征”。 也有研究借助文检仪捕获签字笔油墨对红外光的吸收反射图,利用灰度分析量化笔画的灰度,但书写压力所致的灰度值变化的区分度并不明显[35]。 周鹏等[36]提出精确定位签名笔迹立体形态特征区域的特征提取算法,以区分不同区域笔迹的灰度差异。
基于书写机理与书写经验可知,书写压力、书写速度影响笔画的粗细,在一定程度上笔画的宽度反映了书写的动态信息,是离线笔迹特征的另一重要内容。 但受不同书写工具等因素影响,形成笔画的宽度本身就不一样,因此单纯的笔画宽度值无法真正反映书写习惯,而利用笔画宽度斜度[30]、笔画宽度变化率[32]可间接反映书写速度/加速度特征。笔画弧度反映了运笔走势与方向特征,运笔走势与方向的变化必定引发书写速度的改变,故笔画弧度是认识书写速度的一个重要参考依据。 研究人员多从笔画行笔[37]或端点[32,38-39]两个方面认识书写时的动态变化,得到反映笔画动态变化的特征向量,这在计算机笔迹个体识别中研究较为常见。 以笔画为研究对象的笔迹特征提取方法不依赖于文本,只要两份笔迹包含相同笔画就可适用;但若样本字数太少,可利用的笔画不多,将不利于发现真实的特征。
总体来看,目前基于笔画灰度、宽度、弧度提取离线笔迹特征的研究取得了一定的进展,但在对特征数据的统计学分析方面仍然有待加强,需要进一步构建笔迹特征量化比较分析的方法体系。 此外,目前这些研究多处于实验阶段,这是由于笔画灰度、宽度、弧度是一种精细信息,实验研究设置的条件十分理想化,使用的承受纸张基本是平整干净的。而实际笔迹鉴定工作中遇到的纸张可能发生污损、折叠等变化,其承载的笔迹动态信息也必然发生变化,实验所得结果与规律是否可用于实际工作仍有待进一步的探究。 但笔迹的量化鉴定不能始终停留在实验研究中,走向实践是其最终目标,将实验研究向实践应用研究发展,提高方法的使用效率,这应是今后研究人员与检验人员共同思考、相互合作的现实问题。
2 笔迹特征数据分析方法
2.1 描述性统计
2.1.1 频数分析
“频数”又称为“次数”,在笔迹检验中,频数分析是对某种笔迹特征出现次数进行的研究,以查看特征的基本分布情况,是一种常见的特征统计分析方法。 频数与总数的比值为频率,频率反映了该特征对总体水平的作用程度,用于量化笔迹特征的价值,在离线笔迹形态特征分析中应用普遍[40-42]。研究人员还注重特征组合在笔迹检验中的作用,将多个单一特征的出现频率相乘得到特征组合的出现率,以反映书写习惯的特定性[43],相较于单一特征的频数分析,组合特征的频数分析结果说服性更强,但各特征是否具有独立性尚未明确。 频数分析为初步分析笔迹特征提供了数据基础,笔迹样本的充分性、代表性影响分析结果的准确性,若研究中笔迹样本数量不足、代表性不强,所得结果可能存在误差,建立充足的人群笔迹特征数据库是一种有效的解决方法。
此外,特征出现频率在DNA 证据研究中有非常广泛的应用,这是基于DNA 生物模型的理论已经非常明确和成熟,不同基因座之间是独立的。 由于笔迹特征之间并非是统计学意义上的独立变量,恰恰相反,很多传统形态学证据,如笔迹、指印等,特征变量之间往往是相关的。 因此,在笔迹鉴定中,仅仅评估特征的出现频率可能并不能发挥非常强大的作用。
2.1.2 统计量的计算
在笔迹特征分析中,经仪器设备或计算机技术采集的原始数据是笔画中各采样点的信息,数据庞大且繁杂,而笔迹检验是对组合字(如签名)、单字、偏旁部首、笔画的具体征象进行分析与比较,为快速获取有价值的信息,需用简洁的统计量来描述庞杂的特征数据,常用的统计量有均值、标准差、方差、极差、最值、变异系数等。 特征均值用于分析书写运动的整体情况[5,20-24,36,44];标准差用以描述某具体特征数值与均值的标准距离, 以衡量均值的代表性,是常用的统计量[5,23,36],其次是方差[22]、极差[24]、最值[24];变异系数因消除了均值不同和度量单位不同对多组数据比较的影响,比较结果更为客观,目前在笔迹检验中逐渐得到关注与应用,多用以分析同一人书写笔迹的稳定性[44]与不同人书写笔迹的变异性[4],但其缺点是若均值接近于零,微小的波动也会对变异系数造成巨大影响,造成精确度不准等问题。 因此,分析笔迹特征时,应根据特征数据的具体情况选择相适应的统计量。
2.2 相关性分析
笔迹鉴定中相关性分析有两个目的:一是确定两份或多份笔迹的相似程度,二是分析书写因素与笔迹特征的相关关系。 前者的变量为笔迹特征数据,后者的变量有笔迹特征数据、书写因素,其中笔迹特征数据在统计分析中是一种数值变量,书写因素则是分类变量。 在笔迹鉴定中,常用于表述笔迹相关性的方法有相关系数的计算、相似性度量。
2.2.1 相关系数的计算
相关系数是用以度量变量之间相关程度的统计指标,Pearson 相关系数、Spearman 相关系数、Kendall 相关系数是三种常用的相关系数。 Pearson相关系数在笔迹特征的统计分析中使用较多,用于比较两份笔迹的稳定性与变化性[4,44],进而分析笔迹的相关性。 实验研究笔迹特征时,为保证结果的可靠性,通常会收集大量笔迹样本,两两计算得到的相关系数十分庞大,为简化数据、选择有效的相关系数,有研究[45]选取相关系数最大值作为待检验样本与参考样本之间的相关系数,有研究[24]则使用平均相关系数来量化书写人与某一书写条件下笔迹特征的相关性,两种选择均具有合理性。 虽然使用Spearman 相关系数、Kendall 相关系数分析笔迹相关性的研究尚不普及,但因其通用性强,应逐渐得到笔迹鉴定检验人员的关注。
2.2.2 相似性度量
将笔迹特征视为特征向量,每个特征下有多种具体表现,作为特征向量中的维度,在样本笔迹较少的情况下,以某特征来确定两份笔迹相关性时,可以通过计算两个N维特征向量的距离来实现。两份笔迹之间的测量距离越大,是同一人书写的可能性越小;反之,距离越近,越有可能来自同一书写人,通常认为与参考笔迹距离最小的待检验样本是同一人书写,这就是笔迹的相似性度量。 目前此法在计算机笔迹个体识别中应用普遍。
距离度量方式是鉴别笔迹相似性准确率的重要影响因素,常用的度量方式有欧式距离、曼哈顿距离、卡方距离、余弦距离。 欧式距离是最简单的距离度量方法,即两点间的实际直线距离,在低维的笔迹特征数据中其适用效果较好[37,46]。 曼哈顿距离与卡方距离的鉴别率与采用的特征有关[47],在沈洁等[48]的研究中,曼哈顿距离比欧式距离获得更好的鉴别率;而在古孜丽塔吉·乃拜[49]的研究中,卡方距离是鉴别率最好的距离度量方法。 余弦距离通过计算两个特征向量方向夹角的余弦值来衡量两份笔迹的差异大小,更加强调方向上的差异性,在高维的笔迹特征数据距离度量中应用频繁[39,50]。 此外,因马氏距离考虑了笔迹特征之间的联系程度与差异性,在计算机笔迹个体识别中也具有较好的鉴别率[51-52]。
在笔迹特征数据较多的情况下,不同维度的特征出现率不同,这时需要考虑笔迹特征之间的差异,通过对特征数值赋予不同权重可以改进计算方法。 研究表明,使用加权的距离度量方式比使用不加权距离度量方式的鉴别效果更好[53-54],即加权距离度量可以提高笔迹鉴别的正确率。
2.3 差异显著性检验
在笔迹鉴定中,利用统计学方法验证不同笔迹之间的特征是否存在显著差异,实质上是判断笔迹差异是抽样误差引起的还是本质差别造成的,这是进行笔迹鉴别的依据。在不同情形下形成的笔迹,其笔迹特征只有存在显著差异时,才能据此进行笔迹判别。t检验与方差分析是常用的差异显著性检验方法,目前在笔迹特征数据分析中已逐渐得到应用。
2.3.1t检验
t检验用来验证两类笔迹中特征均值是否存在显著差异,包括单样本t检验、独立样本t检验、配对样本t检验。 单样本t检验比较样本均值与总体均值之间的差异,通常用于判断所选笔迹样本是否具有代表性;独立样本t检验判断从两个不同总体中抽取的两个样本的均值是否存在显著差异,是组间差异分析的一种方法,多用于比较分析不同身体状态或精神状态对笔迹变异的影响[55-57];配对样本t检验的样本数据是通过观测相同人群两次得到的,是组内差异分析的一种方法,通常用于判断同一人在不同条件下书写的笔迹是否具有明显差异。
目前,研究人员更多关注某一书写因素变化对笔迹特征的影响是否存在显著差异,因此配对样本t检验在笔迹鉴定中应用较多,用于分析不同时间书写的笔迹[58]、患病前后形成的笔迹[59-61]是否存在明显变化。使用配对样本t检验时,特征指标多为两组数据的均值差,通常通过与数值零对比,来分析书写因素变化对笔迹特征的影响。
使用t检验的前提条件是数据符合正态分布,而并非所有的笔迹特征数据都符合正态分布。Wilcoxon 带符号秩检验也是均值差异检验方法之一,黄飞腾[44]在分析坐姿与站姿笔迹的书写时长、书写速度、平均压力差异时,因数据不满足正态性,便通过Wilcoxon 带符号秩检验来判断改变书写姿势对笔迹动态特征的影响。 因此,分析笔迹特征数据差异性时,应根据数据的分布情况来选择合适的检验方法。
2.3.2 方差分析
当比较三组或三组以上笔迹的特征均值是否具有显著差异性时,需要使用方差分析,包括单因素方差分析、双因素方差分析、多因素方差分析。 单因素方差分析可以比较一种书写因素变化对多组笔迹特征数值的影响,而双因素方差分析可比较两种因素变化的影响,多因素方差分析则可比较三个及以上书写因素变化的影响。
单因素方差分析要求多组笔迹样本之间控制其他不相关书写因素,保证没有其他因素对结果产生影响,以准确检验不同组别笔迹的显著性差异,在实验研究中使用较多[62-65]。 而实际上笔迹通常会受到多个因素影响,双因素方差分析与多因素方差分析在判断多个因素对笔迹特征数据的影响时,可进一步分析究竟几个因素产生了显著影响、是否为几个因素之间的交互作用对笔迹特征数据产生了显著影响。 如SLAVIN 等[6]通过双因素方差分析考察了书写人的年龄、书写时的视觉条件对在线笔迹动态特征的影响,发现两种书写因素变化在笔迹动态特征中存在交互作用,老年人书写笔迹时更依赖外部视觉刺激;类似的,还有MOHAMMED 等[66]判断签名风格与签名行为对笔迹动态特征的影响。 可见,双因素方差分析与多因素方差分析在笔迹特征数据差异性分析中更普遍、更实用。
总体来看,描述性统计因原理简单、计算方便,在笔迹特征统计分析中应用普遍,在实践中也常作为一种参考依据。 而相关性分析与差异显著性检验多用于分析在线笔迹动态特征,离线笔迹中使用较少,且尚未应用于实践。 实际上相关性分析与差异显著性检验在笔迹特征的统计分析中更具现实意义,是笔迹鉴定走向科学的有效依据,这需要加强笔迹鉴定量化的实践探索,更需要研究人员将实践探索转化为实践运用。
3 笔迹证据价值评估
3.1 似然比模型概述
基于笔迹特征量化与分析得到的鉴定意见的准确程度与可靠程度需经科学评估才有可能用于实践,一种方法是利用似然比(likelihood ratio,LR)模型评价笔迹鉴定意见。 从21 世纪初,国外法庭科学便展开了将LR 模型用于笔迹鉴定的研究[67-68]。在笔迹鉴定中,LR 是认定检材笔迹与样本笔迹为同一人书写的概率(控方假设)与否定同一的概率(辩方假设)的比值,其中分子量化了检材笔迹与样本笔迹的相似程度,分母量化了检材笔迹与样本笔迹在人群中分布的典型性[69]。 传统笔迹检验方法多偏重笔迹特征的相似性,忽略了特征的典型性,对于两份笔迹,如果发现不了其笔迹特征明显不同,通常即认为是同一人书写,方法存在一定的缺陷,得到的鉴定意见容易引起质疑。 基于LR 模型得到的数值用来客观评估笔迹特征对鉴定意见的相对支持强度,评估方法更有逻辑性,有助于化解笔迹鉴定意见科学性不足的问题。
LR 模型可分为评分LR 与基于特征的LR。 在笔迹鉴定中,评分LR 是基于检材笔迹与样本笔迹的相似性度量值来计算LR,将多变量特征减少为单变量特征,实现了数据降维,减少了运算量;特征LR 则直接将概率分配给多变量特征来计算LR,保留更多笔迹信息,但操作复杂。 目前,评分LR 方法因具有数据降维与模型简单的优势,在评估司法鉴定证据中普遍存在[67,70-71],笔迹证据价值评估也多为此法。
3.2 LR 模型的计算方法
利用LR 评估笔迹鉴定意见时,笔迹鉴定检验人员的任务是计算LR 值,LR 中分子与分母的概率值源于笔迹样本数据库和LR 统计模型,主观赋值法[72]、特征频率统计法[73]、多变量LR 模型法[16,74]是三种常用的统计计算方法。 无论LR 是否基于数据库来分配,主观赋值法都可以量化LR 的分子与分母,该方法具有很强的主观色彩,MORRISON 等[75]认为对于主观判断生成的LR 的分子与分母,必须经过校准与检验来减少认知偏差的可能性,LR 的取值应以相关数据、定量测量与统计模型为依据。特征频率统计法与多变量LR 模型法基于大规模的数据进行训练与验证,得到的LR 评估方法更具合理性与适用性。 在笔迹鉴定中,特征频率统计法通常假定笔迹特征是独立的,减少了待估参数的个数,实际上笔迹特征之间存在某些相关性,这意味着单变量特征不足以用于证据评估,可能会产生极端的证据价值,为了更好地评估证据,有必要进行多变量数据评估[76]。TARONI 等[77]使用多变量LR 模型法计算LR 值时,发现相较于单变量LR 模型,前者在女性群体中正确分类率上升,这是因为多变量LR 模型考虑了更复杂、更详细的字符轮廓形态特征。LINDEN 等[68]认为多变量LR 模型应考虑同源与非同源变异性的不同建模,以减少较差背景数据对模型性能的影响。 此外,MARQUIS 等[16]通过多变量数据设计LR 模型时,还计算了对数似然比(loglikelihood ratio,LLR),根据LLR 的正负指向性表示对笔迹鉴定意见支持性,这也是评估笔迹鉴定意见的一种科学方法。
3.3 LR 模型的性能评估
基于LR 模型评估笔迹鉴定意见时,LR 模型系统的性能决定了检验结果的准确性,因此有必要对系统性能进行评估,常见的性能评估指标有CLLR(LLR 消耗)、RME(rate of misleading evidence,证据误导率)、EER(equal error rate,等错误率)。CLLR是准确性的主要指标,可分为CcalLLR、CminLLR,CcalLLR用于判断证据的标准化程度,是判别能力的指标[78];RME 用于表示精确度[76],CminLLR可分为RMED(支持辩方假设的错误率)、RMEP(支持控方假设的错误率),通过计算RMED、RMEP 可得知所使用鉴定方法的错误率,这是评估笔迹证据不可缺少的指标[68,71,76],因为多伯特(Daubert)准则要求鉴定人在出具鉴定意见时报告鉴定方法的错误率[79],以保证结果是准确可靠的。 EER 是判别能力的主要指标,是错误认定率和错误否定率相等时的错误率,EER 值越小,系统性能越好。 此外,研究人员常结合图形来评价LR 模型的计算结果,常见图形有直方图、Tippett 图、DET图、ECE 图,前三种图形均可反映LR 模型的识别力,ECE 图则可反映LR 模型的识别力与区分力[80]。
目前,基于LR 模型的笔迹自动识别系统的验证已存在部分成果。 CHEN 等[78]基于LR 模型建立笔迹自动识别系统,在使用伪动态特征区分Sig-Comp2011 中签名笔迹真伪时,结果显示该系统相较于其他参赛系统更具识别力,证据误导率更低,这表明利用LR 模型评估笔迹鉴定意见具有较好的可行性。但应注意的是,基于LR 模型评估笔迹鉴定证据时,样本数据库与特征统计数据会影响系统的性能[16,76]。下一步应不断扩大笔迹样本数据库以及笔迹特征的种类与数量,以增强LR 模型系统的有效性与可靠性。
4 结语
当前,国内外笔迹量化鉴定和统计学分析的研究主要围绕以下几个方面:笔迹特征量化为笔迹鉴定提供了客观的数据支撑,统计学分析为笔迹鉴定提供科学系统的方法,基于贝叶斯框架的证据价值评估有助于科学表达证据的不确定度。 目前,国内外笔迹鉴定实践主要依靠专家经验判断,笔迹量化鉴定的研究虽然取得了丰硕成果,但这仅仅是个开始,要将科学研究应用于法庭科学实践,学者和科研人员仍需付出更多的努力。 首先,科学研究需要不断接受真实数据的检验,并对系统进行完善和修正,特征选择影响模型性能,选择特定的、有效的笔迹特征尤为重要,这在很大程度上需要一个具有代表性的数据库,因此建立多样化、普适的笔迹样本数据库是未来研究的一个重点;其次,拓展认识笔迹特征的途径,挖掘笔迹的动态与静态信息,需要依靠科学技术充分提取可靠的、客观的数据,这是笔迹鉴定检验人员与科研人员需要考虑的现实问题;最后,量化、分析笔迹特征并评估笔迹证据的技术与方法涉及庞大的学科知识体系,研究人员需要熟悉多学科交叉研究工具和方法,这对笔迹鉴定检验人员也提出了更高的要求,如何让笔迹鉴定检验人员信任、熟悉新的方法和手段,也是新技术在笔迹鉴定应用中需要着手解决的问题。