千万人级数据库下相似异源指纹出现情况及排位关系研究
2024-01-19李硕韩文强李康杨俊罗亚平
李硕,韩文强,李康,2,杨俊,罗亚平
(1.中国人民公安大学侦查学院,北京 100038; 2.浙江警察学院刑事科学技术系,浙江杭州 310053)
指纹是传统的痕迹物证之一,是实现人身识别的一项重要手段,在侦查破案及司法审判中发挥着重要的作用,曾被誉为“证据之首”。 然而自20 世纪90 年代以来,随着多伯特(Daubert)证据规则的提出,以及部分国家指纹鉴定错案的发生,指纹证据的科学性开始受到质疑,影响了其使用效力[1]。
人类指纹各不相同的特定性是指纹鉴定人员进行指纹检验鉴定的基础,但指纹的特定性仅是针对整枚指纹而言,对于指纹的局部区域,却仍有可能存在两枚指纹极度相似的情况,将其称之为相似异源指纹。 尤其是对于犯罪现场遗留的指纹,质量通常较差且不完整,往往只能反映出指纹的局部区域或少数的特征组合,导致在应用指纹自动识别系统(automatic fingerprint identification system,AFIS)进行指纹查询比对时,候选队列中更易出现较为相似的相似异源指纹。 如果指纹鉴定人员对其没有正确的认识,不仅会加大指纹鉴定工作的难度,甚至还会增加错误鉴定的风险。 其中,最著名的案例之一就是发生于2004 年的马德里爆炸案,当时美国联邦调查局(Federal Bureau of Investigation,FBI)错误地将犯罪现场提取的指纹认定为AFIS 候选队列中与其极其相似的美国人布兰德·梅菲尔德(Brandon Mayfield)的指纹,在FBI 错误认定两个月后才由西班牙警方推翻这一结论。 在此期间,不仅造成了大量的侦查资源浪费,还使指纹鉴定的科学基础及其可靠性等问题受到了质疑。 后来,美国司法部检察长办公室(Office of the Inspector General,OIG)在给出的案件报告中强调,导致当时FBI 出错的一个核心原因就是两枚指纹具有高度的相似性——两枚来源不同的指纹在局部区域存在10 个二级特征在位置、方向以及间隔纹线数等方面一致,这是一件极其罕见的事情[2]。
在AFIS 大规模使用之前,指纹鉴定人员进行指纹检验的样本大多来源于侦查线索,数量规模往往较小,最多仅有几百或几千枚候选指纹可供比对,检验过程中出现相似异源指纹的可能性较低。但是,随着AFIS 的广泛应用,指纹检验模式发生了根本性的变革。 随着信息化手段的不断丰富,目前犯罪现场遗留的指纹更多应用于大规模数据库查询比对,结合AFIS 检视嫌疑人线索。 也就是说,现在一枚现场指纹通常需要与存储在大规模数据库中的数亿甚至数十亿的指纹图像进行比对,在这种情况下,指纹检验鉴定工作中发现相似异源指纹的可能性将远高于AFIS 大规模应用之前[3],相似异源指纹带来的检验鉴定风险将不断被放大。
相似异源指纹问题是指纹检验的边界问题,能否对其进行正确的认识,是准确区分同异源指纹和作出正确鉴定意见的关键。 一直以来,众多专家学者都对相似异源指纹问题进行了探讨。 2001 年,罗亚平[4]发现指纹三角、外围区域的细节特征分布相似情况较为常见,这需要指纹检验人员在相似的指纹特征中找出本质的差异。 2004 年,国际刑警组织欧洲指纹识别专家组明确指出了相似异源指纹带来的风险[5]。 2011 年,李彦雷等[6]讨论了两枚纹型、纹线流向一致,在中心区域存在8 个特征完全相符的高度相似异源指纹的鉴定问题。 LANGENBURG等[7]在2012 年进行了一项包含5 对相似异源指纹的鉴定能力测试,在指纹鉴定人员进行的788 次相似异源指纹鉴定中,共出现23 次错误鉴定(占比2.9%)。LIU 等[8]在2015 年进行了5 对“疑难”指纹的鉴定测试,27 名指纹鉴定人员中有3 人(占比11.1%)错误地认定了一对相似异源指纹。 2020 年,由艾乐[9]进行的一项指纹鉴定能力测试中,127 名指纹鉴定人员对5 对相似异源指纹鉴定正确率为80%,其中的一对相似异源指纹正确率仅为45%。2021 年,KOEHLER 等[10]进一步对相似异源指纹的错误识别率进行探究,研究发现,125 家指纹鉴定机构对两对相似异源指纹进行鉴定的假阳性率分别为15.9%和28.1%。 2021 年,LI 等[11]对大容量数据库中指纹质量对相似异源指纹出现情况的影响进行了探讨。但是截至目前, 几乎没有相关研究表明AFIS 多久会提供一次会误导指纹鉴定人员的相似异源指纹,当上述问题还未被系统研究时,更无法提出相似异源指纹检验鉴定风险的解决对策[12]。
因此,本研究选取指纹中最具代表性的斗型纹中心区域,对其在千万人级指纹数据库中的相似异源指纹出现情况开展研究,旨在探究相似异源指纹的出现频率、相似程度及排位关系等问题,阐明大规模指纹数据库中相似异源指纹带来的检验鉴定风险,对指纹鉴定理论进行有效补充,进一步提高指纹鉴定人员对于相似异源指纹的认识,规避错误鉴定的发生。
1 材料与方法
1.1 材料
本研究以斗型纹中心区域为研究对象,在千万人级数据库中发送指纹查询,在候选对列中检视相似异源指纹与查找同源指纹。 斗型纹中心区域花纹结构复杂、纹线流向多变,属于所有指纹区域中特征组合最复杂的区域之一。因此,以斗型纹中心区域为研究对象开展研究,实验结果具有较强的代表性。
在实验开始前,研究人员采集了50 名在校大学生的十指指印卡,从中搜集了257 枚斗型纹样本。为保证实验样本的均匀分布,根据斗型纹的细分标准,又从257 枚斗型纹样本中分别选取了清晰无变形的短斗、中斗与长斗各20 枚,共计60 枚斗型纹作为实验样本来开展实验研究。 其中,短斗、中斗与长斗的具体分类标准[13]如下:短斗,上下中心的垂直距离小于2.5 mm;中斗,上下中心的垂直距离大于等于2.5 mm,小于等于5 mm;长斗,上下中心的垂直距离大于5 mm,如图1 所示。 随后,研究人员将60 枚斗型纹扫描成尺寸为640×640 的500 dpi 的标准格式图像,并将其作为实验样本,用于下一阶段在AFIS 中进行指纹查询。 本实验选用的指纹系统为北大高科PU-AFIS 4.0 指纹系统,指纹比对算法采用了系统中北大1+北大2 的融合算法。实验开始前,在系统中已建立好数据库规模为一千万人的指纹数据库,用于开展实验研究。
图1 短斗、中斗与长斗的分类方法
1.2 方法
研究人员将每枚指纹样本图像同时录入样本指纹库与现场指纹库,对录入样本库的指纹样本应用系统自带的特征提取算法进行细节特征自动提取并保存,对录入现场库的样本指纹进行人工标注。 实验人员最开始标注斗型纹的上下中心,并勾选斗型纹的纹型,随后标记斗型纹中心区域最中心的20 个细节特征点,并在系统中发送指纹查询,浏览排名前100位的候选指纹队列,检视相似异源指纹与查找同源指纹。 随后将标注特征数量依次递减,特征删减规则按距指纹中心位置由外向内,每删减一个特征发送一次查询,直至最终剩余6 个特征点。 最终,每枚样本指纹共计查询15 种不同特征数量的特征组合,在1500 枚候选队列指纹中检视相似异源指纹与查找同源指纹,60 枚斗型纹共检视与查找了90 000 枚指纹候选队列。 本研究所用指纹查询界面如图2 所示。
图2 指纹查询界面
1.3 相似异源指纹标准
相似异源指纹标准是相似异源指纹研究的前提与基础,但截至目前,指纹研究领域还暂无专门针对相似异源指纹的评价标准。 因此,本研究参考目前《法庭科学指纹特征分类规范》(GA/T 1533—2018)对相似异源指纹的评价标准进行了明确定义,按不同的指纹相似程度,将相似异源指纹具体划分为高度相似、中度相似以及低度相似三种相似标准。其中,高度相似异源指纹标准确立为:局部区域纹线流向一致,存在8 个及以上二级特征位置、方向、间隔纹线数完全相同,不存在显著差异。中度相似异源指纹相较于高度相似异源指纹,适当放宽限制,具体标准确立为:局部区域纹线流向一致,存在7 个二级特征位置、方向、间隔纹线数完全相同,不存在显著差异,或存在8 个及以上二级特征位置、方向、间隔纹线数大致相同,其中允许存在一处差异。低度相似异源指纹相较于中度相似异源指纹,再次适当放宽限制,具体标准确立为:局部区域纹线流向一致,存在6 个二级特征位置、方向、间隔纹线数完全相同,不存在显著差异,或存在7 个二级特征位置、方向、间隔纹线数大致相同,其中允许存在一处差异,或存在8 个及以上二级特征位置、方向、间隔纹线数大致相同,其中允许存在两处差异。 具体的相似异源指纹标准如表1 所示。
表1 相似异源指纹标准
2 结果
2.1 相似异源指纹出现情况
实验共对900次指纹查询的90 000枚候选队列指纹进行了相似异源指纹检视。 最终,共找到474枚符合标准的相似异源指纹,其中高度相似异源指纹52 枚,中度相似异源指纹122 枚,低度相似异源指纹300 枚。 部分不同相似程度的相似异源指纹示例如图3 所示。 根据实验结果统计,所有的60 枚样本指纹均能在指纹候选队列中找到与其对应的相似异源指纹。 在900 次指纹查询中,相似异源指纹的出现率约为52.7%,其中高度相似异源指纹出现率约为5.8%,中度相似异源指纹出现率约为13.6%,低度相似异源指纹出现率约为33.3%。
图3 部分相似异源指纹示例
此外,通过实验发现,不同类型斗型纹的相似异源指纹出现数量显著不同,短斗样本的相似异源指纹的出现数量远远高于中斗和长斗,不同类型斗型纹的相似异源指纹数量如图4 所示。
图4 不同类型斗型纹的相似异源指纹数量结果
2.2 同源指纹出现情况
同源指纹是指与指纹查询样本来源于同一个手指的样本指纹,AFIS 应用的核心目的就是在大规模样本数据库中检索到嫌疑人现场遗留指纹的同源指纹样本。 对于实验过程中发送的900 次指纹查询,在系统给出的前100 位候选队列中共查找到同源指纹503 次,同源指纹出现率约为55.9%。 当对同一枚指纹样本标注不同数量的特征时,同源指纹的排位情况也不尽相同,同源指纹的具体出现率如图5 所示。 当对现场指纹标注20 个特征进行指纹查询时,其同源指纹在前100 位候选队列中的出现率高达96.7%,随着标注特征数量逐渐减少,同源指纹在候选队列中的出现率也逐渐降低。 当标注特征数量减少到11 个时,同源指纹出现率已不足50%,仅为38.3%;当标注特征数量减少到6 个时,同源指纹出现率仅为8.3%。
图5 不同标注特征数量的同源指纹出现率
通过进一步对同源指纹排位的具体情况进行分析,将同源指纹的排位大致分为以下5 种情况:(1)排名第1 位;(2)排名第2~10 位;(3)排名第11~50 位;(4)排名第51~100 位;(5)未出现在前100 位候选队列中。 不同标注特征数量的同源指纹具体排名情况如图6 所示。 由此可见,随着特征标注数量的减少,同源指纹不仅在候选队列中的出现率逐渐降低,并且出现的同源指纹的排前率也逐渐下降。当对现场指纹标注20 个特征进行指纹查询时,其同源指纹在前10 位的排前率为94.8%;当现场指纹标注特征数量减少到12 个时,同源指纹在前10 位的排前率为74.2%;当现场指纹标注特征数量减少到8 个时,同源指纹在前10 位的排前率为66.7%。
图6 不同标注特征数量的同源指纹具体排名情况
2.3 同异源指纹排位关系
实际工作中,当大量的相似异源指纹在指纹候选队列中的排位在同源指纹之前时,无疑会大大提高指纹检验鉴定的风险。 因此,本研究对同源指纹与相似异源指纹排位的先后关系进行了深入探究。实验将60 枚指纹查询样本同时录入了指纹系统的现场库与样本库中,在发起指纹查询的同时可以同时得到同源指纹与相似异源指纹的排位情况。 当在指纹查询前100 位候选队列中检视到相似异源指纹时,大致会出现以下几种排位情况:(1)同源指纹与相似异源指纹同时出现,同源指纹排位在相似异源指纹之前;(2)同源指纹与相似异源指纹同时出现,相似异源指纹排位在同源指纹之前;(3)同源指纹没有出现,仅出现相似异源指纹。 当进行指纹查询时,由于上述的第一种情况指纹鉴定人员先检视到的是同源指纹,相似异源指纹带来的干扰较小;当出现上述后两种情况时,指纹鉴定人员在候选队列中首先检视到的是相似异源指纹,如果对其没有正确的认识,会带来较大的检验鉴定风险。
本研究对实验中查询到的474 枚相似异源指纹与其同源指纹排位情况进行统计分析,符合上述第一种情况,同源指纹排位在相似异源指纹之前的有367 枚;符合上述后两种情况的指纹共计107 枚,其中相似异源指纹排位在同源指纹之前的有85枚,候选队列中仅出现相似异源指纹的有22 枚,具体的占比统计分析如图7 所示。
图7 同源指纹与相似异源指纹排位关系统计
3 结论
随着AFIS 数据库规模的不断扩大,在指纹检验鉴定工作中必然会遇到越来越多的相似异源指纹。正确认识相似异源指纹在大规模指纹数据库中的相似程度、出现频率及其与同源指纹之间的排位关系,对指纹鉴定人员规避错误鉴定的发生有着重要的作用。实验结果表明,相似异源指纹在当前指纹数据库中具有较高的出现率,且存在部分排位远高于同源指纹排位的情况。 实验过程中共检视到474 枚相似异源指纹,查找到503 次同源指纹。所有的60 枚指纹查询样本在系统候选队列中均找到了不同相似程度的相似异源指纹。平均每次查询时,相似异源指纹的出现率约为52.7%,同源指纹的平均出现率为55.9%。 随着指纹特征标注数量逐渐减少,同源指纹的出现率与排前率不断下降,且存在22.6%的相似异源指纹在候选队列中的排位在同源指纹之前或队列中没有出现同源指纹,这将会给指纹检验鉴定工作带来一定的风险。
本研究以相似异源指纹为研究对象,结合当前的大数据时代背景,阐明了大规模指纹数据库带来的相似异源指纹检验鉴定风险,对指纹鉴定理论进行了有效补充,有助于进一步提高指纹鉴定人员对于相似异源指纹的认识,从而规避鉴定错案的发生。此外,限于相似异源指纹研究的较高复杂性与巨大工作量,本研究仅选取了个别具有代表性的指纹区域开展研究,存在一定的局限性。 在未来,相似异源指纹研究还有待扩展至更多的指纹区域,并结合案件现场条件进一步对大规模数据库中的相似异源指纹检验鉴定风险进行探讨。