APP下载

居民身份证指纹图像采集质量影响因素分析

2020-11-20王秋爽赵航肖立山

警察技术 2020年6期
关键词:指纹图居民身份证共线性

王秋爽 赵航 肖立山

1. 公安部户政管理研究中心 2. 湖南省公安厅

引言

居民身份证登记指纹工作开展以来,已经制发登记指纹信息居民身份证(以下简称“指纹证”)5亿余张。随着指纹证发放数量的累积,社会各用证部门和单位也逐步试点使用指纹比对核验设备进行“人证一致性”验证,指纹证即将在社会上广泛使用,这对指纹图像采集质量提出了很高要求。

为全面认识、掌握并提高各省的居民身份证指纹图像采集质量,更好地满足指纹证社会应用需要,有必要对指纹图像质量的影响因素进行定性和定量的分析。

一、居民身份证指纹图像采集质量影响因素的定性分析

根据指纹学和指纹比对技术相关研究,影响指纹比对应用效果的主要因素是指纹图像的采集质量。从2013年开始,公安部第一研究所组织有关专家针对证件指纹图像质量评分规则、方法、工具进行了专门的研究[1-4],提出评价证件指纹算法的关键指标为注册失败率、等错误率、错误拒绝率为某值下的错误接受率、响应时间等技术指标,并基于此评价体系提出指纹图像质量的评分方法和工具。本文基于上述评分工具的评分结果,通过对某省16,496,113个居民身份证指纹图像进行全量统计,根据专家经验法判定影响图像质量的主要因素有采集季节、被采集人群、采集设备、采集指位等4类。

(一)采集季节因素的影响

某省的指纹图像质量明显受季节因素影响很大,五月至十月的指纹图像质量均值普遍高于全国均值,也高于冬季的十一月至二月。

(二)被采集人群的性别、年龄、民族因素的影响

被采集人群在16至25岁年龄段的指纹图像质量最好,26至45岁年龄段的指纹图像质量次之,46岁以上中老年人的指纹图像质量再其次,小于15岁未成年人的指纹图像质量最差。被采集人群性别、民族因素对指纹图像质量没有明显影响。

(三)采集设备类型、使用期间、使用次数因素的影响

某省的采集设备类型包括光学型和电容型两种,为了比较两种设备类型与指纹质量的相关性,均选取对应设备使用期间和采集人次的四分位数进行比较。总体来看,电容型设备的质量评分普遍高于光学型,但采集质量没有光学型稳定。

通过对某省所有类型采集设备的使用期间和采集人次统计,指纹图像质量均值和方差,与使用期间的长短呈现出明显的负相关,与采集人次的多少呈现出轻微的负相关,即使用时间更长的设备采集的指纹图像质量更低。

(四)采集指位因素的影响

采集指位因素对指纹图像质量的影响非常明显,从拇指到小指的指纹图像质量依次降低。

二、居民身份证指纹图像采集质量影响因素的定量分析

采用多元线性回归方法对某省居民身份证指纹图像质量评分进行定量分析,回归方程用于解释在指纹图像质量评分结果中,各种影响因素对评分的定量影响程度。

(一)多元线性回归

研究一个因变量、与两个或两个以上自变量的回归,称为多元线性回归,是反映一种现象或事物的数量依多种现象或事物的数量的变动而相应变动的规律,是建立多个变量之间线性或非线性数学模型数量关系式的统计方法。

多元线性回归方程如下:

其中:Yi: 因变量;X1i~Xki: 自变量;β0~βk:回归系数,μi:误差,i: 样本数,1,2,...,n; k:自变量个数。

(二)为什么用多元线性回归分析

多元线性回归分析是一种广泛使用的定量分析工具,线性依赖于其未知参数的模型比非线性依赖于其未知参数的模型更容易拟合,产生的统计特性更容易确定,其回归结果便于评判和解释。

对多元非线性回归模型求解的传统做法,仍然是想办法把它转化成标准线性形式的多元回归模型来处理。因此多元线性回归分析对于非线性关系同样适用,回归结果的可决系数R2用于参考,但用于解释因变量的影响因素依然适用。

(三)指纹质量数据及图像样本

结合上一部分对指纹图像采集质量影响因素的定性分析结论,本文对某省15,016,845个指纹图像进行了统计和整理,选取多个影响因素的自变量,得到用于分析导致指纹图像质量降低原因的样本数据。

(四)实验过程

1. 筛选对指纹评分影响大的自变量并采用逐步回归法进行回归

多元线性回归的平方和分解公式为:

其中,SST:总平方和;SSR:回归平方和;SSE:误差平方和。

由上式可知,理想中的多元线性回归模型既需要有尽可能低的误差,又需要有尽可能少的自变量。因此,筛选自变量采用一元线性回归的方法,选取可决系数R2>0.01,在指纹质量评分低于平均值的区间筛选出19个对指纹评分影响大的自变量。

通过对筛选后的变量进行线性回归,可以得到第一次回归结果。

?

2. 判断回归结果是否出现多重共线性

采用观察回归结果的异常点并结合相关系数的方法来判断回归结果是否出现多重共线性。T检验的显著性水平一般取0.05。

观察表2得到的回归结果发现,可决系数R2较高,但是存在自变量X17、X18的回归系数T检验的P值大于0.05,也就是T检验不显著的情况。初步判定存在多重共线性问题。

如果多个变量之间存在较强的共线性,则它们的回归系数是不确定的,且回归系数的方差会很大,也就是回归结果不确定。因此,需要采取多种方法减轻或消除多重共线性问题。

经观察相关系数矩阵发现,多个自变量之间存在很强的相关性。

3. 降低或消除多重共线性

为了降低或消除多元线性回归中的多重共线性影响,本文采用计算自变量关联矩阵的特征值和特征向量,以及加入L2范数惩罚项的岭回归方法,剔除自变量并优化最终回归结果。对于岭回归过程采用生成并观察岭迹图来选择超参数alpha的方法。基本原则为:

(1)各回归系数的岭估计基本稳定;

(2)不存在有明显不符合常理的回归参数,岭估计的符号要合理;

(3)回归系数没有不合实际意义的绝对值;

(4)残差平方和增大不多。

根据以上原则,最终确定岭回归超参数alpha=10-5。

4. 得到最终回归结果

通过多次处理并明显降低了多重共线性的影响后,最终得到在指纹评分区间内的回归结果。该结果共包括27个自变量,回归的可决系数R2相对较高,且均通过了F检验和T检验,证明该回归结果较稳定,且能够明确地定量解释导致指纹图像质量降低的主要因素。

?

?

(五)实验结论

通过对某省居民身份证指纹图像采集质量数据的多元线性回归分析发现:

(1)与指纹质量评分负相关的因素主要是采集开始时间距现在天数,即采集器启用的越早,指纹质量评分会逐步降低。

(2)在采集设备方面,与指纹质量评分负相关的因素主要是采集设备厂商编码和采集设备型号。采集设备厂商编码是一个9位的数字串,按认证通过时间颁发,从小到大;采集设备型号与采集设备厂商相关[5]。也就是说随着采集设备厂商编码逐步增大,指纹质量评分会逐渐降低。与指纹质量评分正相关的因素是采集设备类型,依次为未知、光学、电容三类。正相关说明电容和光学相比能取得更好的指纹质量评分。

(3)从被采集人角度来看,与指纹质量评分负相关的因素主要是采集年龄≤10岁、采集年龄≥36岁且≤45岁、采集年龄≥66岁的人群。这三类人群的指纹采集数量越多,质量评分越低。

(4)体现季节因素的采集时间,与指纹质量评分负相关的主要是11月份、12月份采集的指纹数量,即这两个月采集的指纹数量越多,质量评分越低。

(5)从采集指位来看,与指纹质量评分负相关的因素主要是右手的拇指、中指、无名指、小指和左手的中指、小指。

三、提升指纹图像采集质量的方法和建议

通过对上述某省居民身份证指纹图像采集质量的主要影响因素进行分析,可以提出几点改进相关工作的方法和建议:

(1)指纹采集设备最早启用时间,是导致指纹图像质量降低的主要影响因素之一。为保持较高的指纹采集质量,建议有条件的单位及时更换启用时间较早的采集设备。

(2)指纹采集设备厂商编码的大小代表设备厂商通过认证时间的先后。分析结果表明早期通过认证的指纹采集设备厂商,其设备采集的指纹图像质量较高。因此,建议后续认证通过的设备厂商提升产品质量或改进现有服务。

(3)被采集人群年龄在“≤10岁”、“≥36岁且≤45岁”、“≥66岁”这三个区间的指纹图像质量较低,需要在办证时予以重点关注,可采用一些提高指纹采集质量的方法,例如保持手指湿润、增加采集次数等[4]。

(4)指位对指纹采集质量有一定的影响,建议尽量避免采集对指纹质量造成负面影响指位的指纹。

四、结语

本文通过定性和定量分析的方法,对某省居民身份证指纹图像采集质量的影响因素进行研究。其中,采用多元线性回归的方法可以整体统计和评估居民身份证指纹图像质量数据的现实情况,较为明确地找出导致指纹图像采集质量降低的主要因素。

本文采用的方法也适用于评估其他省份的居民身份证指纹图像采集数据。

猜你喜欢

指纹图居民身份证共线性
芦荟药材化学成分鉴定及UPLC指纹图谱分析
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
身份证丢失或被盗将即时失效
异地办理居民身份证需要多长时间?
群众居民身份证丢失后如何到公安机关挂失申报?
建立居民身份证丢失招领制度有什么规定?
沉香GC-MS指纹图谱分析