基于贝叶斯判别分类的笔迹检验定量分析
2016-07-25相淑珍
相淑珍
(天津公安警官职业学院,天津 300382)
基于贝叶斯判别分类的笔迹检验定量分析
相淑珍
(天津公安警官职业学院,天津300382)
摘要应用多元统计分析方法中的贝叶斯判别分析理论对笔迹检验中选取的笔迹特征进行量化处理,从而建立起评价的函数模型,定量地分析笔迹检材与样本的符合程度,迅速、科学、准确地得出鉴定结论,对提高笔迹检验的鉴定质量和检验的综合能力起到了很大的作用,更有利于文检技术人员出庭作证。
关键词贝叶斯判别分析; 笔迹特征; 定量分析
0引言
随着科技的进步和发展,对笔迹检验鉴定工作提出了更高的要求。为迅速、科学、准确地进行笔迹检验,应用数理统计等数学方法,建立数学模型,定量、科学地研究笔迹检验中的问题,应用有关的数学原理和方法对笔迹特征加以量化,已经被越来越重视并得到深入地开展分析研究,对提高笔迹检验的鉴定质量和检验的综合能力起到了巨大的作用。
马克思曾经说过:“任何一门科学只有充分利用了数学才能够达到完美的境界”。在笔迹检验中引入数学方法,用数学方法来解释笔迹检验中遇到的一些问题,对笔迹检验非常有意义。本文应用多元统计分析方法中的贝叶斯判别分析理论对笔迹检验中选取的笔迹特征进行量化处理,从而建立起评价的函数模型,定量地分析笔迹检材与样本的符合程度,得出科学、准确的鉴定结论,为文检技术人员出庭作证提供重要的量化依据。
1笔迹检验
笔迹检验是文件检验的一个重要内容,文检技术人员运用笔迹检验技术对与案件有关的文件物证进行科学分析,发掘被检文件物证所蕴含的信息,为认定文件物证笔迹是否为某一嫌疑人所书写提供证据。
笔迹检验研究的对象是各种书写文件上的笔迹,笔迹是个人书写技能和书写习惯通过书写活动外化成的文字符号的形象。每个人的笔迹不尽相同,各具特色,同一人的笔迹和不同人的笔迹都可以通过检验进行鉴别。笔迹检验中认识同一个人或区别不同人的书写习惯是通过研究笔迹特征来实现的,笔迹特征能够反映一个人的书写技能和书写习惯。在笔迹检验中,最为关键的是对被检的笔迹材料反复分析,挖掘出笔迹材料中能够反映书写人书写技能和书写习惯的笔迹特征,保证所选的笔迹特征有一定的广度和深度。在选择笔迹特征时,可以从整体到局部、从宏观到微观,去发现和运用笔迹特征。同时,笔迹检验要依据笔迹检验的科学原理,按照分别检验、比较检验、综合评断等基本程序对被检材料实施检验,保证鉴定结论的正确。
2贝叶斯判别分析方法
2.1贝叶斯判别基本思想
贝叶斯判别分析方法是现代统计学的一个重要分支,它的基本思想是:假设对研究的样本对象已有一定的认识,即可应用先验概率分布来描述这种认识,然后对先验认识作一些修正后,得到后验概率分布,它是基于后验概率分布对被检测数据对象进行统计推理分析的方法。贝叶斯方法的特点在于利用了先验分布,由于有了这个先验分布,所以不需要很大的样本也可以得到很好的概率估计值,这是贝叶斯方法的优点。
将贝叶斯统计分析思想用于判别分析方法中,这就是贝叶斯判别分析方法,它是一种常用的判别分析方法,它提供了一种简单而又强大的有指导分类方法。贝叶斯理论使用的数据可以来源于主观的直观判断或是经验数据,也可以来源于间接的资料信息。它假定的参数是一个未知的随机变量,不再是一个未知的常数,它可以将主观信息和客观信息用一定的数学公式进行估计。
2.2贝叶斯判别原理
使用统计语言来描述贝叶斯判别分析时,令U={A1,A2,…,An,C}是随机变量的有限集合,其中A1,A2,…,An是属性变量,类别变量C的取值范围是C={C1,C2,…,Cm},ai是属性Ai的取值,那么xi={a1,a2,…,an}属于Cj类的概率可以由贝叶斯定理表示为:
对于给定的模式X,我们通过计算全部的隶属类Cj的后验概率P(Cj|X),依据P(Cj|X)的最大值来判断出输入归属在哪一类,通常我们应用这个方法构造一组多个评判函数g(X),而对于每一个评判函数来说,它们分别对应其评价判别规则,定义如下:
当且仅当对于所有的i=1,2,…,I,i≠j全部满足gj(X)>gi(X),再进行评价判别X隶属于Cj类别,gi(X)为第i类的评判函数。
3实例分析
贝叶斯判别分析方法能够利用输入变量和与之对应类别信息建立相应的判别函数,然后将观测值代入分类对象的判别函数,再根据计算结果判断其隶属于哪一类别。将贝叶斯判别分析应用于笔迹检验中,就是利用收集到的已知嫌疑人样本类别的数据进行分析,判断笔迹检材与笔迹样本的归属关系,即确定检材与哪一个样本属于同一类。利用贝叶斯判别分析对笔迹检验进行定量研究,首先确定判别变量和赋值,其次建立贝叶斯判别模型,最后对贝叶斯判别模型进行检验。
笔迹检验是通过对被检材料的笔迹特征进行认真、系统的分析研究,发现两份笔迹的书写习惯是存在内在联系还是有本质的不同,在选用特征时不能偏爱某些方面的特征而忽视另一方面的特征,要从实际出发对能暴露书写人习惯的方方面面的特征都注意挖掘和使用,对每个特征字的结构、搭配比例、笔顺、运笔的弧度和交叉笔画的角度,以及起、收笔的细小动作特点和笔痕、笔压都要注意挖掘。经过多年的实验和研究结果表明,经常选取的笔迹特征主要有:特征字笔画的角度、笔画的长度、笔画的宽度、字迹的大小、书写速度、用笔压力、字间距、搭配特征、连续性等。对于能够测量的笔迹特征,我们可以通过使用测量工具获得数据,如笔画的角度、笔画的长度、笔画的宽度、字迹的大小、字间距等;而对于用笔压力、搭配特征、连续性和书写速度等无法通过测量获得数据的笔迹特征,我们可以对特征指标进行定性数据转化,从而实现从定性到定量的转化,即将这些特征设定几个级别的评价集,然后由文检人员根据鉴定经验对其赋予不同的数据,得到定性指标评价集量化标准(见表1)。
表1 定性指标评价集量化标准
经过对各个笔迹特征的测量和定性分析后,我们就可以得到对样本笔迹特征的分析数据,X1,X2,…,X9分别代表选取的笔迹特征,即特征字笔画的角度(X1)、笔画的长度(X2)、笔画的宽度(X3)、字迹的大小(X4)、书写速度(X5)、用笔压力(X6)、字间距(X7)、搭配特征(X8)、连续性(X9)等,Y代表嫌疑人编号,本案有2名嫌疑人。
通过对样本笔迹特征进行测量和分析后获得的数据(见表2)。
经过推导得出Bayes判别函数:
表2 嫌疑人样本笔迹特征数据
Bayes判别函数1为:
y=106.52x1-2 224.69x2+1 267.48x3+
2 712.35x4-51.29x5-360.00x6+
9 027.64x7-146.36x8-213.93x9-9 572.82
Bayes判别函数2为:
y=103.83x1-2 296.76x2+1 376.16x3+
2 810.55x4-46.14x5-371.84x6+8 989.10x7-
146.91x8-211.95x9-9 858.55
对检材特征字笔画的角度(X1)、笔画的长度(X2)、笔画的宽度(X3)、字迹的大小(X4)、书写速度(X5)、用笔压力(X6)、字间距(X7)、搭配特征(X8)、连续性(X9)等笔迹特征进行测量和赋值,得到如下数据(见表3)。
表3 检材笔迹特征数据
最后将检材中特征字笔迹特征数据代入已推导出的Bayes判别函数1和Bayes判别函数2中,判断笔迹检材与笔迹样本的归属关系。即将上表中的检材笔迹特征数据代入上述两个判别函数中,经计算得出:y1=6 427.74>y2=6 298.33,由此可以判断出检材应与1号嫌疑人归属为一类。
4结论
应用贝叶斯判别分析方法进行笔迹检验,方便、快捷、准确,可以在对样本笔迹特征统计分析的基础上对检材与样本的归属关系作出判断。突破了笔迹检验定性分析的局限,将定性分析与定量分析有机结合,做出符合客观实际的推断结论。值得注意的是,对笔迹检验进行定量分析时要加深对检材和样本笔迹特征的认识,提高各相关特征量的质量,选用相对稳定的笔迹特征进行定量分析,以确保定量分析中各种数据的准确率,从而获得正确的分析结果。
参考文献
[1]贾玉文.文件检验学教程[M].沈阳:辽宁人民出版社,1998.
[2]于秀林,任雪松.多元统计分析[M].北京:中国统计出版社,1999.
[3]任若恩.多元统计数据分析[M].北京:国防工业出版社,1997.
[4]肖云茹.概率统计计算方法[M].天津:南开大学出版社,1994.
[5]相淑珍.集对分析方法在笔迹检验中的应用[J].山西警官高等专科学校学报,2012(4).
[6]相淑珍.应用多集模糊模式识别方法评价笔迹样本特征质量[J].广州市公安管理干部学院学报,2011(2).
(责任编辑陈小明)
基金项目天津市2012年度哲学社会科学规划项目“基于数学方法的文件检验定量研究”(TJFX12-061)。
作者简介相淑珍(1963—),女,天津人,教授。研究方向为文件检验。
中图分类号D918.92