基于深度卷积网络的非接触式掌纹识别与验证
2023-01-16许赫庭木特力甫马木提阿力木江艾沙努尔毕亚亚地卡尔库尔班吾布力
许赫庭,木特力甫·马木提,阿力木江·艾沙,3,努尔毕亚·亚地卡尔,3,库尔班·吾布力,3
(1.新疆大学信息科学与工程学院,新疆 乌鲁木齐 830046;2.新疆大学图书馆,新疆 乌鲁木齐 830046;3.新疆大学新疆多语种信息技术重点实验室,新疆 乌鲁木齐 830046)
0 引言
在社会和科技不断发展的大时代背景下,身份鉴别技术的准确性和安全性逐渐引起人们的关注.而实用性恰恰是身份鉴别技术不可忽视的一部分.生物特征识别技术正好具备这几种特性,因而它在近几年身份鉴别技术的研究中变得十分热门,其中掌纹识别所具有的便捷性和稳定性更是当下人们所需要的,所以掌纹识别成为广大学者的研究热点之一.掌纹拥有更丰富且稳定的纹理信息,它的采集方式更便捷且廉价.此外非接触式掌纹的采集方式非常卫生,它无接触的采集方式受到人们的广泛认可和喜爱,被更多人所接受.掌纹特征具有很强的分类性,该特征十分稳定,纹理信息又十分丰富,所以非接触式掌纹研究更具价值和意义.
相较于传统方法,卷积神经网络的深度卷积层在特征提取方面有着更好的表现.文献[1]用在ImageNet上进行过预训练的AlexNet提取深层特征,然后用Hausdorff距离进行匹配;Svoboda等[2]将一种判别式的损失函数引入到掌纹识别中,并使用Siamese网络进行训练,目的是区分两个掌纹图像是否来源于同一个人;Tarawneh等[3]使用了3个模型(VGG16、VGG19和AlexNet)提取掌纹图像中的深层特征,最后送入SVM进行分类;Zhang等[4]使用Inception-ResNetV1模型,通过中心损失和交叉熵的组合来计算损失;Matkowski等[5]提出了EE-PRnet,该模型用于提取掌纹特征,它是一种端到端的识别模型;陆展鸿等[6]针对接触式掌纹ROI的提取,提出了一种U-Net的神经网络结构.
目前国内外对非接触式掌纹的研究相对较少.这是由于非接触式掌纹图像的不确定因素(如采集设备、光照、手掌姿势、采集距离、采集角度等)较多.本文提出使用深度卷积网络来提取非接触式掌纹特征的识别方法,该方法的识别性能更好,更具鲁棒性.
1 相关模型和数据集介绍
1.1 本文使用的模型
1.1.1 ResNet
He等[7]提出的残差网络(ResNet)解决了随网络深度增加而导致梯度消失和梯度爆炸的问题.ResNet荣获了2015年ImageNet比赛分类任务上的冠军,准确率达到了95.51%,且计算效率远超VGG.ResNet在结构方面做出了创新,引入了残差模块(Residual Block),如图1所示,该模块减少了网络参数,同时增加了网络的非线性表达能力.图1(a)用于更深层次的网络中(50层以上的ResNet).本文使用的ResNet18的残差模块如图1(b)所示.
图1 ResNet中的两种残差模块
1.1.2 DenseNet
2016年,Huang等[8]提出了DenseNet,该模型是对ResNet中旁路通道思想延伸,它提出了一种密集连接的思想,如图2所示.在Dense Block中,每一层的输出都连接到后续层,让后面的层能更好地复用前面层的特征.DenseNet改善了整个网络中的梯度和信息流,更易于训练.此外Dense Block还具有正则化的效果,它有效地降低了小数据集过拟合现象的发生.
图2 密集模块结构
1.1.3 MobileNetV2
MobileNetV2[9]属于轻量级网络,是对MobileNetV1的改进.MobileNetV2的创新点是引入Inverted Residual Block(如图3所示)和ReLU6(如图4所示).
图3 倒残差模块
图4 ReLU6函数图像
InvertedResidual Block是先升维再降维,其结构像柳叶,两边宽中间窄.值得注意的是Inverted Residual Block中使用的卷积操作是Depthwise卷积.Depthwise卷积是从Xception网络发明而来的.它首先对每个通道都进行各自卷积的操作.所以有多少个通道就用多少个过滤器.在得到新通道的特征图后,再对这些新通道特征图进行标准的1×1跨通道卷积操作降维,这样大大减少了计算量.
1.1.4 RegNet
RegNet[10]的基本结构主要由3部分组成:stem、body和head,如图5所示.其中:stem是一个包含bn和relu的普通卷积层,卷积核大小为3×3,步长为2,卷积核个数为32.body由4个stage堆叠,每经过一个stage都会将输入特征矩阵缩为原来的一半.每个stage又由若干个block堆叠而成,每个stage的第一个block中存在步距为2的组卷积(主分支上)和普通卷积(捷径分支上),剩下的block中的卷积步长都是1,两种block见图6.head就是分类网络中常见的分类器,由一个全局平均池化层和全连接层构成.
(a)网络;(b)主体;(c)阶段i
(a)步长为1;(b)步长为2
RegNet分为RegNetX和RegNetY,两者的区别在于RegNetY在block中的Group Conv后接了个SE(Squeeze-and-Excitation)模块.
1.1.5 Siamese Network
Siamese Network是1993年Bromley提出来的,当时用来验证美国支票签名.孪生网络是神经网络框架的一种.它包含有两个分支.这两个分支具有相同的结构而且共享参数.但这两个分支有着不同的输入,这两个分支最终的输出会被连接,并通过距离度量的方式计算这两个分支输入的相似度.Taigman等[11]将该网络用于人脸的验证.
本文提出的Siamese Network网络模型见图7.该模型由两部分组成,第一部分是特征描述器,有两个参数共享的DenseNet网络构成,见图7(a);第二部分是决策网络,见图7(b),它由两个全连接层构成.决策网络的输入是特征描述器提取到特征差值的绝对值.
1.2 评估所使用的数据集
IITD数据集[12]的全称为IIT Delhi Touchless Palmprint Database(Version 1.0),IITD数据集用非接触式的设备采集,且在室内稳定的环境下进行的,采集的对象是学校里的学生和工作人员,一共采集了230人的左、右手掌,即460个手掌,采集要求志愿者在规定呈像区以不同的手姿变化获得7张图片,志愿者均来自12~57岁年龄组.图8是IITD数据集中不同手掌的4幅ROI图像,用于非接触式掌纹的识别.图9是IITD数据集中掌纹原图像,用于非接触式掌纹的验证.
图8 IITD数据集掌纹ROI图像
图9 IITD数据集掌纹原图像
Tongji数据集[13]的目标是建立一个大规模的、公共的、高质量的数据集.此数据集总共收集了300人志愿者的掌纹图像,共600个不同的手掌,每个手掌有20张,总共12 000幅图像.其中的志愿者192人男性,108人女性,年龄均在20~50岁之间.图10是Tongji数据集中不同手掌的4幅ROI图像.
图10 Tongji数据集掌纹ROI图像
MPD数据集[14]的全称是Tongji Mobile Palmprint Dataset.该数据集由手机的内置摄像头采集,包含了400个手掌,每个手掌40张.图11是Tongji数据集中不同手掌的4幅ROI图像.
图11 MPD数据集ROI图像
2 实验部分
2.1 实验设置
由于非接触式掌纹数据集较小,又考虑到减少训练时间,本文使用迁移学习的思想,将在ImageNet上预训练好的模型参数迁移至本文所使用的卷积神经网络模型中.
由于IITD数据集每个掌纹的实际数据参差不齐(一般每个手掌有5~7张),为了卷积神经网络能更好进行识别训练,本文从IITD数据集中统一选取了每类包含有6张图片的手掌,共299个手掌,1 794张手掌图像.其中每个手掌4张用于训练,2张用于测试.对于Tongji和MPD数据集,本文选取了全部的数据.其中Tongji共12 000张图片,600个手掌,每个手掌20张图片,其中16张用于训练,4张用于测试.MPD数据集共400个手掌,共16 000张掌纹图像,每个手掌有40张,其中32张用于训练,8张用于测试.
Siamese Network的特征描述器和决策网络在IITD数据集上的训练是分开的.特征描述器DenseNet的训练任务是识别,使用的是IITD原图像,共460个手掌,2 601张掌纹图像.训练好后特征描述器冻结该模型参数,再对决策网络进行训练.此次验证使用的是IITD数据集2 601张原图像,并不是掌纹ROI图像,因为后续非接触式掌纹验证系统使用的也是掌纹原图像(用小米10手机拍摄的,不限定环境和手势).该网络首先利用DenseNet网络提取两张掌纹图片的特征,特征维数为1×1 024.然后将两幅掌纹图像的特征作差,并取绝对值,形成新的特征向量:维数还是1×1 024,并打上标签(用以表示是否来自于同一类别).在决策网络训练的过程中,随机从训练集里选取两幅非接触式掌纹图像,若其来自于不同类别(负样本),则标签为0,否则为1(正样本),同时将正负样本的比例置为1∶1.
本文实验的配置如下:CPU处理器为Intel(R)Core(TM)i5-8300H @ 2.30 GHz;运行内存为16 GB内存;显卡为NVIDIA GeForce GTX 1060;Python版本为3.7.此外本文使用了Pytorch(1.7.1)深度学习框架对卷积神经网络模型进行构建,选取交叉熵损失和Adam优化器对参数进行优化更新.经过实验,本文选取了最适合非接触式掌纹的学习率为5×10-5.为了更好地提取特征,将非接触式掌纹图像进行了缩放,卷积神经网络的输入统一为224×224像素大小的图片.通过数据增强的方式对数据集进行扩充,将随机旋转、翻转、平移和裁剪等应用于动态补偿不同图像中手掌特征的差异.
2.2 实验结果与分析
2.2.1 不同结构CNN的识别结果
不同结构CNN的识别结果见图12—14.从图12—14可以看出,RegNet在Tongji、MPD两个数据集上的收敛速度明显快于另外3个网络.RegNet在3个数据集上的识别率均最高(见表1).
图12 不同网络在IITD上识别率随迭代次数变化关系
图13 不同网络在Tongji上识别率随迭代次数变化关系
图14 不同网络在MPD上识别率随迭代次数变化关系
表1 不同结构CNN在不同数据集上的识别率 %
2.2.2 与现有方法识别性能的对比
本文提出用深度卷积网络提取非接触式掌纹特征的方法在3个数据集上均有较好的识别效果,见表2—4,实验证明了本文方法的有效性.
表2 IITD数据集现有方法对比 %
表3 Tongji数据集现有方法对比 %
表4 MPD数据集现有方法对比 %
3.2.3 Siamese Network非接触式掌纹验证方法
验证不同于识别,验证只是通过生物特征来判断是否为已存有个体的身份.这只是一个二分类的问题,即输入的生物特征跟目标特征是否属于一个类别.在验证问题中,通常会计算输入特征与目标特征之间的相似度,并根据实际的训练情况设置一个阈值.当相似度高于阈值时,表明二者是属于同一类的,匹配成功,反之是不同类别,匹配失败.验证问题一般使用等误率(Equal Error Rate,EER)作为评判标准,EER越小,表明系统的验证性能越好.通过对阈值的调整,使得FAR等于FRR.此时的FRR和FAR称为等误率EER.
错误拒绝率(False Rejection Rate,FRR)的计算公式为
(1)
错误接受率(False Acceptance Rate,FAR)的计算公式为
(2)
其中:TTP(True Positive)是正样本正确预测的个数;TTN(True Negative)负样本正确预测的个数;TFN(False Negative)是正样本错误预测的个数;TFP(False Positive)是负样本错误预测的个数.
本文提出的Siamese Network非接触式掌纹验证方法在IITD数据集上进行了训练和验证.验证结果EER为3.461 4%,EER图见图15.
图15 随机取样时的EER图
导致EER较大的原因:IITD数据集中单类掌纹的样本数太少(只有5~6张),为了提高实用性,并没有使用掌纹ROI图像,而是使用原图像进行训练.
本文根据该非接触式掌纹验证方法,实现了一个非接触式掌纹验证系统,该系统可用于验证智能手机拍摄的掌纹图像.使用小米10手机采集掌纹图像进行了验证,具体实验结果如图16所示.在IITD数据集上选取的阈值为0.65,即相似度大于0.65则判断这两个图像来源于同一手掌,低于0.65则为不同手掌.实验说明该系统对自然场景下的掌纹图像有较好的验证结果,且对光照和手姿态具有一定的鲁棒性.
图16 小米10手机拍摄掌纹图片的验证结果
3 结束语
本文提出使用深度卷积网络来提取非接触式掌纹特征的识别方法,并选用了ResNet、DenseNet、MobileNetV2和RegNet 4个较为流行的卷积神经网络模型,在IITD、Tongji和MPD 3个非接触式掌纹数据集上做了识别性能的评估实验.结果表明,RegNet提取非接触式掌纹特征的性能最好,且较传统方法有所提高.还运用迁移学习的思想,在一定程度上提高了在小数据集上的识别率,缩短了训练时间.提出的基于Siamese Network的非接触式掌纹验证方法,可以对智能手机在自然场景下采集的掌纹图像进行验证,对光照和手姿态具有一定的鲁棒性.