联合DD-GAN和全局特征的井下人员重识别方法
2021-11-12孙彦景张年龙董锴文程小舟侯晓峰
孙彦景,魏 力,张年龙,云 霄,董锴文,葛 敏,程小舟,4,侯晓峰
(1.中国矿业大学 信息与控制工程学院,江苏 徐州 221116;2.徐州市智能安全与应急协同工程研究中心,江苏 徐州 221116;3.安徽马钢罗河矿业有限责任公司生产技术部,安徽 合肥 231562;4.中钢集团马鞍山矿山研究院股份有限公司选矿及自动化研究所,安徽 马鞍山 243000;5.无锡沃爱思科技有限公司,江苏 无锡 214125)
矿井安全保障对实现国家安全生产起着非常重要的作用。但由于井下光线昏暗不均,人工监控误操作较多,监控视频数据杂乱不便管理等原因,导致对作业人员监控不及时、不到位,从而频频引发矿井安全事故。这也对井下人员安全监控提出越来越高的标准和要求。目前,井下人员监控研究大多仅止步于检测阶段[1-2],缺乏对个人身份的分类和识别,在井下安全监控应用方面仍具有局限性。而行人重识别(person Re-IDentification,Re-ID)技术作为计算机视觉领域的热门研究课题,可根据行人的穿着、体态、发型等信息来解决跨摄像机下的行人身份识别问题,可与行人检测、行人跟踪相结合,应用于视频监控、智能安防等领域。因此,将Re-ID技术应用到井下视频监控中来解决井下作业人员的身份识别问题,对煤矿的安全智能化生产与管理具有实际意义。
行人重识别任务主要包括特征提取和相似性度量两个步骤。传统的Re-ID方法为先手工提取图像特征,如颜色、HOG[3]、SIFT[4]和LOMO[5]等,再利用XQDA[5]或KISSME[6]来学习最佳的相似性度量。但这种手工特征描述能力有限,而且在数据量较大的情况下图像间的相似性度量也不易计算。近年来,随着深度学习的快速发展[7],以卷积神经网络(Convolutional Neural Network,CNN)为代表的深度学习方法在Re-ID中得到广泛的应用,许多基于深度学习的行人重识别方法相继被提出。文献[8]利用CycleGAN学习在不同摄像机图像中具有不变性的稳定特征表示,以根据摄像机间的风格差异生成不同的训练样本,但若将该方法应用到大型监控网络中则会耗费大量的时间。文献[9]在基于卷积神经网络的行人重识别模型中引入级联抑制策略,使网络能够逐级挖掘出各种潜在有用特征,但该模型在特征融合时计算容量大,运行速度较慢。文献[10]提出一种基于特征变换的跨模态行人重识别方法来实现红外样本下的行人检索,但是红外图像会导致颜色纹理等细节特征信息缺失,所以红外样本不足以提供行人重识别所需的信息,从而对行人重识别的性能改善不大。此外,在公共安全监控领域中,文献[11]将检测与重识别相结合来解决多摄像机监控视频的无标注问题。因此,在Re-ID任务中,由于目标不同,网络的侧重点也不同。虽然现有的Re-ID方法在一些公开数据集中已取得较好的性能,但在实际应用场景中,针对特定的任务需求,需要对网络进行重新部署和调整,使其架构和参数更适用于需要进行的具体任务。
以煤矿巷道为研究背景,考虑到煤矿井下环境复杂,没有自然光照明,仅依靠照明设备使得图像光暗不一,而且离照明源的距离不同,图像的亮度也不同,造成图像光照不均匀,从而导致人员与背景很难区分,人员的身份识别率较低。针对以上情况,笔者提出一种联合双鉴别式生成对抗网络和全局特征的井下人员重识别方法,将生成对抗网络(Generative Adversarial Network,GAN)应用到井下行人重识别任务中,解决目前极难实现的井下作业人员身份识别问题,为煤矿安全生产监控打下坚实基础。
1 方法概述
笔者提出的联合双鉴别式生成对抗网络和全局特征的井下人员重识别方法主要由图像预处理和行人重识别两部分组成。整个系统的流程图如图1所示。首先,在图像预处理阶段,利用双鉴别式生成对抗网络(Dual-Discriminator Generative Adversarial Network,DD-GAN)对井下低照度、光照不均的图像进行增强,将增强后的图像通过行人检测器生成候选行人数据库;然后,在行人重识别阶段,利用基于全局特征描述的井下人员重识别网络(Global Feature Network,GFN)提取待查询行人与候选数据库中行人的特征,并进行相似度计算,以预测待查询行人的身份标签;最后,根据相似度排序结果得到与查询目标匹配的人员身份。
图1 联合DD-GAN和全局特征的井下人员重识别方法流程示意图
2 双鉴别式生成对抗网络
采用生成对抗网络的深度光照增强方法[12]相较于其他图像增强模型[13],不依赖精确匹配的训练图像对,在低照度和亮光照图像空间建立非配对映射,不仅可节省大量的训练时间,还能得到清晰的高质量图像。而在煤矿井下的行人重识别问题中,清晰的行人图像对识别网络性能的影响至关重要。因此,受深度光照增强方法[12]的启发,面对煤矿巷道中光线昏暗、光照不均匀、行人外观信息不明显等问题,采用双鉴别式生成对抗网络(DD-GAN)进行图像增强,为后续行人重识别任务提供更显著的外观特征。DD-GAN的网络框架如图2所示,主要包括生成器和鉴别器。生成器用于对低照度图像进行增强,鉴别器用于对增强后的图像进行真假判别。然而,和一般使用生成对抗网络进行图像增强的方法不同[14],DD-GAN采用双鉴别器结构——全局鉴别器和局部鉴别器,该结构不仅可以同时学习到对全局低照度图像和局部光照不均匀图像的处理能力,而且可以平衡全局和局部的光照变化,使增强后的图像亮度更加均匀,从而避免增强后的图像产生伪影。
图2 双鉴别式生成对抗网络框架
2.1 DD-GAN生成器
在DD-GAN中,生成器采用U-net[15]网络架构,如图2所示,由特征提取和上采样两部分构成。在特征提取部分包括卷积和最大池化操作,虽然每经过最大池化图像的尺寸会大幅度减小,但由于每一层卷积处理的图像尺寸减小,不仅在很大程度上减少了需要训练的参数,而且可以获得不同尺度的特征图。在上采样部分,通过反卷积完成不同尺寸的图像复原,最终输出增强后的图像。最重要的是由于特殊的U型结构,位于前端的特征提取部分可与后端的上采样部分进行相同尺度的特征融合,使网络获得更好的特征提取能力,以最大程度地保留原图像中的特征信息和分辨率。
生成器的数学模型可表示为xf=G(Ix),Ix为输入的真实低照度图像,xf为增强后图像,G为生成映射函数。为了最大限度地保留原始图像本质信息,在生成器初步获取增强图像的基础上,在真实低光照图像中选取固定大小的局部图像区域对其进行增强。利用在ImageNet[16]上预先训练的VGG-16[17]模型对真实低照度图像和增强图像进行特征提取,用自特征保留损失(Self Feature Preserving Loss)[12]来约束真实低照度图像与增强后图像之间的距离。全局和局部真实低照度图像的自特征保留损失分别如下:
(1)
(2)
其中,Ixpatch表示在真实低照度图像中选取的局部图像块,xfpatch表示与Ixpatch对应的增强图像块,φi,j表示通过VGG-16的第i个卷积模块中的第j个卷积层提取的特征,Wi,j和Hi,j表示VGG-16提取特征的维数。将i设置为5,j设置为1。
2.2 DD-GAN鉴别器
考虑到矿井下视频监控所捕获的行人图像可能面临全局低照度或局部光照不均匀的问题,所以DD-GAN的鉴别器同时采用全局鉴别器和局部鉴别器,如图2所示。其中,全局鉴别器用于提高全局低照度图像的自适应能力,并在全局范围内改善光照强度;局部鉴别器通过在增强后图像和正常亮光照图像中随机选取局部小块进行真假判别,从而增强模型对光照不均匀图像的认知能力,在局部范围内改善光照。鉴别器均采用典型的二分类卷积神经网络模型,由卷积层、池化层和全连接层组成。此外,为了避免模型在训练过程中产生梯度消失和爆炸现象,在每个卷积层之后加入批量归一化(Batch Normalization,BN)层,并使用LeakyRelu作为激活函数。图像输入鉴别器后,先进行特征提取,再通过全连接层将特征汇总,最终通过输出值来判别真伪。
DD-GAN中的鉴别器D根据生成器G的输出结果和对比图像(真实亮光照图像)来定义损失函数,以计算增强后图像的光照真实性,并对其真实程度进行判别。对于全局鉴别器,采用相对鉴别器损失函数[18]和LSGAN损失函数[19]计算图像间的差异。全局鉴别器和生成器的损失函数分别如下:
(3)
(4)
其中,xr表示正常亮光照图像,其标签设置为1;xf表示增强后图像,其标签设置为0;DRGAN为相对鉴别器损失[16]:
(5)
其中,C表示鉴别器网络,σ表示sigmod函数。DRGAN(xr,xf)表示xr更为真实的概率,DRGAN(xf,xr)表示xf更为真实的概率。DRGAN在给定的正常亮光照图像下估计它们比增强后图像具有更高真实性的概率,从而引导生成器网络去合成比真实亮光照图像更为真实的增强图像。
对于局部鉴别器,从增强后图像和真实亮光照图像中随机选取固定大小为32×32的5个像素区域作为输入,学习如何判断局部图像块的真伪性,并采用LSGAN损失函数[19]计算图像间的光照差异。局部鉴别器和生成器的损失函数分别如下:
(6)
(7)
2.3 DD-GAN模型训练
在DD-GAN中,通过训练大量的图像使网络获得处理低照度图像的能力。整个训练过程如图2所示,首先选取一组图像,包括一张真实低照度图像和一张非配对真实亮光照图像。训练时,将真实低照度图像输入生成器,经过一系列操作输出增强后图像,根据损失函数计算输出图像与给出的亮光图像的差异,并对生成器的参数进行调整。与此同时,增强后图像(块)与真实亮光照图像(块)输入全局(局部)鉴别器进行判别。鉴别器提取图像特征,通过损失函数计算增强后图像与真实亮光图像之间的光照差异,并反馈给生成器,使生成器不断改善。改善后的生成器所增强的低照度图像比上一次处理的更加逼真,从而使得鉴别器也进一步调整判别能力。反复这一过程,生成器与鉴别器经过相互对抗,最终达到平衡,得到一个参数最佳的生成器G*,能够将任意一张井下低照度图像转换为一张高质量亮图,为后续的井下人员重识别任务提供更显著的特征信息。
3 基于全局特征描述的井下人员重识别网络
在DD-GAN的基础上,井下低照度图像的亮度得到均匀提升,使得人员与背景更易区分。因此,为了保证识别的准确率和速度,将井下人员重识别看作多分类问题,设计一种基于全局特征描述的井下人员重识别网络(GFN),以人的衣着、配饰、体态、姿态等全局信息为研究对象,让网络提取图像的全局特征,并利用行人的身份标签(ID)来监督识别模型的训练过程,使其最终能够提取出更具有判别力的行人身份特征。虽然井下同一工种人员着装较相似,但由于具体工作场景和工作要求的不同,在配饰以及衣着细节等方面也会存在一些差异,可以利用领口、袖口、腰带、裤腿以及佩戴装备等细节信息进行区分。井下人员重识别网络以ResNet-50[20]作为骨干网络,对在ImageNet[16]预训练的模型进行改进,如图3所示。首先,在平均池化(Pooling,Pool)层后面加入全连接(Fully Connected,FC)层,通过将2 048维特征向量降到1 024维来减少冗余信息所造成的误差,提高识别精度;然后,加入批量归一化(Batch Normalization,BN)层来降低网络对初始化权重的不敏感性,从而加快网络训练速度,使其快速收敛;最后,再次加入全连接层,通过整合前端具有类别区分性的归一化特征信息以完成分类任务;此外,在训练和测试阶段分别采用随机擦除[21]和k互近邻重排序[22]方法,来进一步提高重识别的鲁棒性和准确度。
图3 基于全局特征描述的井下人员重识别网络框架
3.1 随机擦除
在煤矿井下的行人重识别场景中,监控图像中的行人有时会被其他物体遮挡,从而影响人员身份识别的准确度。为了提高识别模型对遮挡的感知能力,通常会在训练样本集中手动加入一些遮挡图像,但这不仅浪费时间精力,而且不能满足实际场景的数据需求。为了提高模型的鲁棒性,使用随机擦除(Random Erasing,RE)[21]方法,以一定概率对训练样本集中的图片进行擦除,来增加训练集中遮挡图像样本的数量。对于样本集中的某张训练图片I,被选中并擦除的概率为pe,在被选中的图像中随机选择一块矩形区域Se进行像素擦除。假设被选中的训练图像大小为S=W×H,随机擦除的区域大小为Se=We×He且We/He∈(r1,r2),则re=Se/S为擦除区域的面积比。为了确定随机擦除的矩形区域Se,在初始化过程中,在图像I中随机选择一个点P(xe,ye),若xe+We≤W且ye+He≤H,则选择区域Ie=(xe,ye,xe+We,ye+He),作为擦除的随机矩形区域;否则,继续寻找点P,直到选出符合条件的区域Ie。将初始参数值pe设置为0.5,r1设置为0.3,r2设置为3,0.02 图4 采用随机擦除的图像样例 在井下人员重识别网络中,将每一个行人当作分类问题的一个类别,每次输入一张样本图像,用行人的身份标签(ID)去监督网络的训练过程。训练时,井下人员重识别网络输入尺寸为256×128的图像,对其进行特征提取,并输出每个人员的判别身份表达f:1×1×C。其中,C表示训练集中总的ID数量。最后,采用softmax函数和交叉熵损失来预测人员身份标签: p=softmax(f) , 其中,pi为第i类ID的预测概率值,qi为pi对应的真实值,y为每个输入图像的ID,C表示训练集中总的ID数量。训练完成时,便可得到重识别模型R*。 在重识别阶段,给定一张待查询人员图像Iq和候选人员图库G={Igi|i=1,2,…,M},直接加载重识别模型R*来提取待查询人员图像的特征fq和图库中候选人员图像的特征fgi(fq、fgi均为1×1×2 048维的特征向量),根据欧式距离计算图像间的相似度dE=((fq-fgi))1/2,从而得到初始排序列表L(q,G)={Ig1,Ig2,…,Igi},距离越小,排序越靠前。 考虑到在煤矿井下人员重识别任务中,行人图像容易受到视角、相机分辨率等因素的影响,如果某个待查询人员图像与图库中的非配对图像极度相似,则仅依靠欧氏距离难以区分出图像间的相似度差异,从而导致错误匹配的行人图像可能出现在初始排序列表靠前的位置,而正确的候选行人图像却排在靠后的位置。为了解决该问题,采用k互近邻编码重排序(Re-Ranking)[22]方法对欧氏距离初始相似度排序列表L(q,G)={Ig1,Ig2,…,Igi}中的相似度进行重新排列,来进一步提高井下人员的识别准确度。对于给定的待查询行人图像和候选人员图库,为每个行人提取外貌特征和k互近邻特征,再分别计算图库中每个行人与待查询行人的欧式距离dE和杰卡德距离dJ,将dE和dJ结合起来作为最终距离。因此,通过Re-Ranking方法去除列表中的错误匹配,并添加遗漏的正确匹配,对相似度较高的人员图像进行正确的重排序,从而得到最终的排序结果L*(q,G),根据L*(q,G)中排名第一的人员图像即可判断待查询图像与图库中的候选行人图像是否匹配。 由于煤矿井下处于一个光线暗淡的特殊场景中,现有的Re-ID公开数据集,如Market1501[23]和MSMT17[24]数据集,无法完全满足井下低照度特殊环境的需求。在Market1501和MSMT17的基础上进行筛选与扩充,挑选出其中与井下图片亮度较为类似的行人图像,并在此基础上添加大量煤矿井下行人图像,构建出新数据集——Miner-CUMT。其特点为:① 由10个摄像头捕获的2 000个行人的63 852张图像,其中训练集包含1 000个行人的28 394张图像,测试集包含1 000个行人以及干扰物的31 110张图像,查询集包含1 000个行人的4 348张图像;② 覆盖包含煤矿井下的多个真实场景,光照变化范围较大;③ 摄像机拍摄角度差异大,具有多样化的人员目标和背景信息;④同一身份行人至少在两个摄像机图像中出现,并扩充同一行人在不同摄像头中的样本数。 Miner-CUMT数据集样本示例如图5所示。以“1991_c9s3_003560_03.jpg”为例,图像命名遵循以下规则:① “1991”表示每个人员的身份标签;② “c9”表示9号摄像机;③ “s3”表示摄像机中的第3个视频序列;④ “003560”表示c9s3的第003560帧图像;⑤ “03”表示第003560帧图像中检测到的第3个人员。 图5 Miner-CUMT数据集样本示例 (1)DD-GAN网络实验设置。在Pytorch深度学习框架中,实现双鉴别生成对抗网络DD-GAN,其中选取800张真实低光照图像和800张真实亮光照图像作为训练样本,150张井下低照度图像作为测试样本。在训练过程中,所有的训练样本均调整为大小为600×400的PNG格式图像,网络迭代次数设置为200,采用Adam优化器来优化网络的权重参数,批量大小为32。在前100次迭代过程中,学习率设置为0.000 1,在后100次迭代过程中,学习率逐渐线性衰减至0。 (2)井下人员重识别网络实验设置。在Pytorch深度学习框架中,实现基于全局特征描述的井下人员重识别网络。在训练时,以Miner-CUMT训练集中的图像作为输入,将训练图像的大小均调整为256×128。为了增加训练图像的多样性,对其进行随机裁剪和水平翻转。网络迭代次数设置为50,采用小批量SGD优化网络参数,批量大小设置为128,dropout设置为0.5,初始学习率设置为0.1,网络迭代40次后学习率变为0.01。整个训练过程在3块NVIDIA 1080Ti GPU上大约花费2 h。 为了验证DD-GAN具备更好的增强效果,分别通过DD-GAN、Retinex-Net[13]以及Deep Photo Enhancer[14]对低光照图像进行处理,结果如图6所示。从图6中可以看出,Retinex-Net和Deep Photo Enhancer都出现了颜色失真的问题,处理后的图像会有一些杂色斑块。此外,Retinex-Net增强后的图像不仅亮度没有得到充分的提升,而且出现了伪影。而Deep Photo Enhancer处理后的图像出现了严重的过度曝光现象。相比之下,笔者采用的DD-GAN增强网络产生的图像,整体处理效果要优于其他方法,不仅没有出现颜色失真现象,而且光照得到均匀提升。 图6 光照增强效果对比 采用行人重识别任务中常用的平均(识别)精度均值(mAP)和前k位命中率(Rank-k)两个评价指标来评估重识别网络的性能。mAP反映所检索的人员在图库中的所有正确图片排在结果队列前面的程度,是一种能够全面衡量行人重识别算法性能的指标;而Rank-k表示重识别的排序结果中,前k名识别正确的概率。k越小,说明排序结果中识别正确的置信度越高。因此,Rank-1指标的高低能够最直观地表示重识别方法的性能好坏。 为了验证DD-GAN在文中的井下人员重识别网络方法中的优越性,分别在Miner-CUMT数据集上对加入DD-GAN和未加入DD-GAN的井下人员重识别网络模型进行测试,测试过程中均采用欧氏距离对行人特征进行计算。实验结果如表1所示。由表1中数据可知,井下人员重识别网络在引入DD-GAN图像增强方法后达到了89.7%的Rank-1准确率和64.2%的mAP值,特别是mAP值相较于未加入DD-GAN的重识别模型提高了5.5%,这说明通过DD-GAN对低照度下的行人图像进行预处理,可以为行人图像的特征表达提供更精确的行人信息,从而提取出更加有判别力的行人图像特征。 表1 基于DD-GAN的行人重识别性能对比 % 此外,为评估GFN网络中随机擦除(RE)和重排序(Re-Ranking)这两种数据增强方法的有效性,文中提供了表2中不同方法在Miner-CUMT数据集上的性能对比。其中GFN+None表示GFN中没有添加RE和Re-Ranking;GFN+RE表示GFN中只添加了RE;GFN+Re-ranking表示GFN中只添加了Re-ranking;GFN+RE+Re-ranking表示GFN中同时添加了RE和Re-Ranking,即文中方法。由表2可知,在GFN网络中添加RE和Re-Ranking两种数据增强方法后,Re-ID性能都有显著的提升。如表2中,GFN基础网络的Rank-1为87.2%,mAP为58.7%,最终同时加入RE和Re-Ranking后(文中方法),Rank-1达到了92.5%,mAP达到了78.3%。这不仅证实了同时在井下行人重识别网络中使用随机擦除和重排序方法的有效性,还进一步说明文中方法可以准确地进行井下人员重识别。 表2 不同数据增强方法间的重识别性能对比 % 为了方便进一步观察井下人员的重识别结果,图7展示了以欧氏距离作为距离度量方法得出的相似度前10名可视化结果。边框图像表示需要查询的行人匹配正确的人员和匹配错误的人员。由图7可看出,可视化识别结果中排名前10名图像基本可实现正确识别,从而证明笔者所提方法在很大程度上改善了煤矿巷道低照度场景下的人员重识别性能,为煤矿的智能化管理提供了可靠的技术支持。 图7 重识别可视化结果 为了进一步验证笔者所提出的联合DD-GAN和全局特征的井下人员重识别方法在实际场景中的有效性,选取在煤矿巷道中实地拍摄的若干组视频用于验证,如图8所示。具体步骤如下: 图8 联合DD-GAN和全局特征的井下人员重识别方法在煤矿巷道场景下的应用 步骤1 获取不同摄像设备拍摄的视频流v0,v1,…,vn。 步骤2 在原始视频序列v0的当前帧中标定目标行人ID0。 步骤3 利用DD-GAN对该视频序列此后的每一帧进行图像增强。 步骤4 通过行人检测器分别读取增强后的每一帧图像,提取图像中所有的行人边界框,并生成候选行人数据库G={ID1,ID2,ID3,…,IDi}。 步骤5 利用基于全局特征描述的井下人员重识别网络提取ID0与ID1,ID2,ID3,…,IDi的判别特征,并依次计算ID0与ID1,ID2,ID3,…,IDi间的相似度。 步骤6 相似度最高的即判断为目标行人。 步骤7 在视频序列v1,…,vn中重复步骤 3~步骤6即可。 实验结果如图8所示。图(1a)为手机摄像头捕获的井下低照度行人图像,图(2a)与(3a)为井下监控摄像头捕获的低照度行人图像。图(1a)至图(3a)中矩形框表示需要查询的目标人员,图(1b)至图(3b)中矩形框表示采用文中方法重识别所定位到的目标人员。 针对煤矿井下光线昏暗、光照不均匀的监控视频图像,笔者提出一种将图像增强与重识别相结合的井下人员身份识别方法。首先,采用双鉴别式生成对抗网络对矿井低光照图像进行增强和复原,并通过行人检测器生成候选行人数据库;然后,在图像增强的基础上,设计了一种基于全局特征描述的行人重识别网络来解决井下作业人员身份识别问题,并分别使用随机擦除和k互近邻重排序方法进一步提高重识别模型鲁棒性和准确度;最后,在现有数据集的基础上创建面向井下特殊环境的Miner-CUMT行人数据集,并在该数据集上对所提方法的有效性进行了验证。实验结果表明,这种方法可以对井下作业人员进行较为准确的识别以区分不同的身份,对煤矿的智能化管理具有实际意义。 为了加速推进安全智能化煤矿的发展,在今后的工作中将考虑利用人脸识别和姿态识别作为辅助来进一步提高井下人员重识别的性能。3.2 全局特征描述
3.3 k互近邻重排序
4 Miner-CUMT数据集
5 实 验
5.1 实验设置
5.2 DD-GAN图像增强结果与分析
5.3 GFN重识别结果与分析
5.4 煤矿井下的应用
6 结束语