APP下载

基于时空正则化的视频序列中行人的再识别

2019-12-23刘保成朴燕唐悦

计算机应用 2019年11期
关键词:注意力机制机器视觉卷积神经网络

刘保成 朴燕 唐悦

摘 要:由于现实复杂情况中各种因素的干扰,行人再识别的过程中可能出现识别错误等问题。为了提高行人再识别的准确性,提出了一种基于时空正则化的行人再识别算法。首先,利用ResNet-50网络对输入的视频序列逐帧进行特征提取,将一系列帧级特征输入到时空正则化网络并产生对应的权重分数; 然后,对帧级特征使用加权平均得到视频序列级特征, 为避免权重分数聚集在一帧,使用帧级正则化来限制帧间差异;最后, 通过最小化损失得到最优结果。在DukeMTMCReID和MARS数据集中做了大量的测试,实验结果表明,所提方法与Triplet算法相比能够有效提高行人再识别的平均精度(mAP)和准确率,并且对于人体姿势变化、视角变化和相似外观目标的干扰具有出色的性能表现。

关键词:机器视觉;行人再识别;注意力机制;卷积神经网络;时间建模

中图分类号:TP391.41

文献标志码:A

Person reidentification in video sequence based on spatialtemporal regularization

LIU Baocheng, PIAO Yan*, TANG Yue

College of Electronic Information Engineering, Changchun University of Science and Technology, Changchun Jilin 130012, China

Abstract:

Due to the interference of various factors in the complex situation of reality, the errors may occur in the person reidentification. To improve the accuracy of person reidentification, a person reidentification algorithm based on spatialtemporal regularization was proposed. Firstly, the ResNet50 network was used to extract the features of the input video sequence frame by frame, and the series of framelevel features were input into the spatialtemporal regularization network to generate corresponding weight scores. Then the weighted average was performed on the framelevel features to obtain the sequencelevel features. To avoid weight scores from being aggregated in one frame, framelevel regularization was used to limit the difference between frames. Finally, the optimal results were obtained by minimizing the losses. A large number of tests were performed on MARS and DukeMTMCReID datasets. The experimental results show that the mean Average Precision (mAP) and the accuracy can be effectively improved by the proposed algorithm compared with Triplet algorithm. And the proposed algorithm has excellent performance for human posture variation, viewing angle changes and interference with similar appearance targets.

Key words:

machine vision; person reidentification; attention mechanism; Convolutional Neural Network (CNN); temporal modeling

0 引言

近年来,随着智能视频分析的迅速发展和国家对公共安防监控的重视,行人再识别技术已成为视频监控领域中至关重要的一部分[1]。行人再识别来源于多摄像机目标跟踪,主要处理非重叠摄像机间重新确定特定行人的问题,即判断在不同时间、不同地点出现在不同摄像机的行人是否为同一个人。

基于视频的行人再识别是当前研究的热点,现阶段的大多数方法都是基于深度神经网络和时间信息建模: McLaughlin等[2]首先提出通过循环神经网络(Recurrent Neural Network, RNN)对帧之间的时间信息建模; Wu等[3]通过训练卷积网络和循环层,从视频中提取外观特征和时空特征,并构建混合网络融合两种类型的特征; Liu等[4]设计了一个质量感知网络(Quality Aware Network, QAN)用于聚合時序特征; Zhou等[5]提出用RNN和时间注意方法对行人进行再识别; Karpathy等[6]设计了一个卷积神经网络(Convolutional Neural Network, CNN)来提取特征,并使用时间池化方法来聚合特征。由于不同相机拍摄的视频图像会因光照变化、遮挡或人体姿势变化等因素影响,目标会出现较大的外观变化,使得行人再识别仍然是一个具有挑战性的问题。

本文针对行人再识别的准确性,提出了一种基于时空正则化的行人再识别算法。利用ResNet-50网络逐帧进行特征提取,帧级特征经过时空正则化网络产生相应的权重分数,通过加权平均将帧级特征融合为一个序列级特征; 同时使用帧级正则化避免权重分数聚集在一帧,最终通过最小化损失函数找到最佳的识别结果。

1 相关工作

1.1 卷积神经网络

最近几年,深度学习在计算机视觉领域取得了出色的成绩。与人工设计特征的方法相比,基于深度学习的方法可以从大量数据中自主学习得到图像的特征信息,更加符合人工智能的要求。

在计算机视觉领域中,CNN是应用最广泛的深度学习模型之一, CNN通过在卷积层中的非线性叠加可以得到具有高级语义信息的特征,并且其每个卷积层都可以得到输入图像的不同特征表达。在行人再识别的过程中,利用CNN提取目标行人更精准和更具有判别性的特征,可以获得更多关于目标行人的信息,有利于提高识别结果的准确性。

本文使用在ImageNet数据集[7]上预训练的ResNet-50[8]卷积神经网络对输入的视频序列进行特征提取。ResNet-50网络深度为50层,其中包含5个卷积层,即Conv1和4个具有残差模块的Conv2、Conv3、Conv4、Conv5。ResNet-50网络结构如图1所示。

1.2 时间建模方法

近年来由于数据集规模不断地扩大,基于视频的行人再识别成为当前研究的主流方向。与基于图像的方法相比,基于视频的方法可以有效地利用视频序列中的时间信息。因为摄像机拍摄的大部分都是时间连续的视频,可以为行人再识别提供更多的信息。

基于视频的行人再识别方法主要注重时间信息的整合,即通过时间建模的方法将帧级特征聚合为视频序列级特征。首先,将输入的视频序列通过卷积神经网络提取帧级特征{ft},t∈[1,T],其中T表示视频序列的帧数;然后,利用时间建模方法将帧级特征{ft}聚合成单个特征f,用f表示视频序列级特征;最后,通过最小化损失得到最优的识别结果。图2展示了基于时间建模方法的原理。

常用的时间建模方法有三种:时间池化、时间注意和RNN或其改进模型长短期记忆(Long ShortTerm Memory, LSTM)网络。在时间池化模型[9]中,主要使用最大池化或平均池化。对于最大池化,f=maxft; 对于平均池化, f=1T∑Tt=1ft。但当视频中目标行人经常出现遮挡时,这种方法通常会失败。

RNN或LSTM模型中[10],将一系列帧级特征聚合成单个特征主要有两种方法:第一种方法是直接在最后一个步骤采用隐藏状态hT,即f=hT; 第二种方法是计算RNN的输出{ot}的平均值,即f=1T∑Tt=1ot。但RNN或LSTM模型通常提取浅层特征,缺少对目标的判别性表达,并且难以在大型数据集中訓练。

在基于时间注意的模型[11]中,主要使用加权平均法将帧级特征聚合为序列级特征,即f=1T∑Tt=1αt ft,其中αt为每帧的权重。基于时间注意的方法可以很好地抑制噪声的干扰(如遮挡等),并且它是现在最主流的方法之一。

2 本文方法

本文首先使用ResNet-50网络对输入的视频序列逐帧进行特征提取,将最后一个卷积层(Conv5)的特征输入到时空正则化网络并产生相应的权重分数,通过对所有帧级特征加权平均得到视频序列级特征。为了避免在注意图转换为权重分数时聚焦于一帧而忽略其他帧,使用帧级正则化来限制帧间差异。最后将帧级正则化与三重损失函数、softmax交叉熵损失函数联合起来,用于训练整个网络。本文方法的整体框图如图3所示。

2.1 特征提取

本文使用ResNet-50网络对输入的视频序列进行特征提取。通常,ResNet-50网络使用一系列层处理图像,其中每个单独的层由卷积、池化和非线性激活函数等步骤组成。为了简化符号,本文将ResNet-50网络定义为函数fc=C(x),其将图像x作为输入并且产生特征作为输出。

设I=I1,I2,…,IT是由行人图像组成的长度为T的视频序列,其中It是目标行人在时间t处的图像。每个图像It通过ResNet-50网络之后产生帧级特征,即ft=C(It)。本文将视频序列输入到ResNet-50网络中并输出一系列帧级特征{ft}(t∈[1,T])。

2.2 时空正则化

ResNet-50网络中最后一个卷积层(Conv5)的特征图大小为W×H,其维度为D=2-048,H和W是特征图的高度和宽度,H和W的大小取决于输入图像的尺寸。首先将帧级特征ft=(ft1, ft2,…, ftD)作为时空正则化网络的输入,将特征图中的所有元素,针对每个特征通道d进行空间正则化,生成相应的注意图gt:

gt=ftd/‖ft‖2(1)

其中‖ft‖2=(∑Dd=1ftd2)12是ft的L2范数。在经过空间正则化之后,每帧都具有一个对应的注意图。然后将每帧注意图中的所有元素针对每个特征通道d使用L1范数以获得相应的空间注意分数:

st=∑Dd=1∑m,n‖gdt(m,n)‖1(2)

其中m和n代表每帧注意图中相应的所有元素。因此,每帧都具有一个对应的空间注意分数st。

本文直接比较来自不同帧的空间注意分数st(t∈[1,T]),并采用Sigmoid函数和L1归一化计算时间注意分数:

αt=σ(st)/∑Tt=1σ(st)(3)

其中σ表示Sigmoid函数。最后,为每帧分配一个特定的权重分数αt,通过加权平均得到视频序列级特征f:

f=1T∑Tt=1αt ft(4)

2.3 帧级正则化

对于基于视频的行人再识别而言,来自同一视频序列的行人图像应代表同一人的外观,但是在注意图转换为注意分数时,会出现注意分数集中在一个特定帧上并且在很大程度上忽略其他帧的情况。为了限制帧间差异,避免注意分数聚集在一帧,本文从视频序列的T帧中随机选择两帧i和j,并使用Frobenius范数对帧级注意图进行正则化:

Fi,j=‖gi-gj‖F=

∑Dd=1∑m,ngdi(m,n)-gdj(m,n)2(5)

其中gi和gj是由式(1)产生的注意图。将所有正则化项Fi, j乘以一个常数β后加到式(9)中来最小化损失:

minLtotal+Ti=j=1i≠jβ·Fi, j(6)

2.4 损失函数

本文使用三重损失函数和softmax交叉熵损失函数来训练网络。

三重损失函数最初是Hermans等[12]提出的,是原始的三重损失(semihard triplet loss)的改进版。本文为每个小批量(minibatch)随机抽取P个身份,并为每个身份随机抽取K个视频序列(每个序列包含T帧),以满足三重损失函数要求。三重损失函数可以表述如下:

Ltriplet=Pi=1∑Ka=1all anchors[α+maxp=1,2,…,K‖f(i)a-f(i)p‖2hardest positive-

minn=1,2,…,K, j=1,2,…,P, j≠i‖f(i)a-f(j)n‖2hardest negative]+(7)

其中:f(i)a、 f(i)p和f(j)n分别是从目标样本、正样本和负样本中提取的特征; α是用于控制样本内部距离的超参数。正样本和负样本指的是与目标样本具有相同身份和不同身份的行人。

除了使用三重损失函数以外,本文还采用softmax交叉熵损失进行判别性学习。softmax交叉熵损失函数可以表述如下:

Lsoftmax=-1PK∑Pi=1∑Ka=1pi,algqi,a(8)

其中pi,a和qi,a是样本{i,a}的真实身份和预测。

总损失函数Ltotal是softmax损失和triplet损失的组合,如式(9)所示:

Ltotal=Lsoftmax+Ltriplet(9)

3 实验与结果

3.1 实验环境和参数设置

本文使用Python语言进行编程,实验环境为pytorch。所有实验都在Windows 10系统,NVIDIA GTX 1060 GPU的电脑上完成。视频序列的大小调整为256×128。首先从输入的视频序列中随机选择T=4帧,然后随机选择P=4个身份对每个小批量(minibatch)进行采样,并从训练集中为每个身份随机抽取K=4个视频序列,批量大小(batch size)为32。学习率为0.000-3,三重损失函数的margin参数设置为0.3。在训练期间,采用Adam[13]优化网络。

3.2 数据集

运动分析和再识别数据集(Motion Analysis and Reidentification Set, MARS)[14]包含1-261个身份和大约20-000个视频序列,是迄今为止最大的视频行人再识别数据集之一。这些序列至少由2个摄像机捕获,最多由6个摄像机捕获,每个身份平均有13.2个序列。此外,数据集固定地分为训练集和测试集,用于训练的身份为625个,用于测试的身份为626个,其中还包含3-248个干扰序列。

DukeMTMCReID数据集[15]源自DukeMTMC数据集[16],也是一个大规模的行人再识别数据集。它由8个摄像机捕获的1-812个身份组成,其中1-404个身份出现在两个以上的摄像机中,其余的408个是干扰身份。数据集固定地分为训练集和测试集,都有702个身份。

3.3 评价指标

为了评估本文的方法,使用累积匹配特征(Cumulative Matching Characteristic, CMC)曲线和平均精度(mean Average Precision, mAP)作为本实验中的评价指标。CMC曲线表示行人识别的准确性,本文使用Rank1、Rank-5、Rank10和Rank20的得分代表CMC曲线。当每次识别仅对应视频序列中的一个目标时,CMC指标是有效的, 但是当视频中存在多个目标时,CMC指标是有偏差的。DukeMTMCReID和MARS数据集在使用CMC曲线作为评价指标的同时,也采用mAP作为评价指标。相比之下,mAP是一个更具有综合性的指标,非常适合单目标和多目标的再识别。

3.4 在MARS和DukeMTMCReID数据集中评估

为了验证本文方法的有效性,在MARS数据集中进行了测试与分析。本文选取了4个具有代表性的视频序列,如图4所示,其中:query表示待识别的目标行人; 数字1~10表示Rank1到Rank10; 黑色实线框代表正样本(与目标具有相同身份的人),即识别正确; 无框代表负样本(与目标具有不同身份的人),即匹配错误。

从图4(a)中可以看出,本文方法成功识别不同视角的所有候选者;在图4(b)中本文方法也成功找到了最高等级的正确候选者;图4(c)受到明显的光照变化的影响;图4(d)包含与待识别目标具有相似外观行人的干扰。实验结果表明本文方法对于人体姿势变化、视角变化、光照变化和相似外观目标的干扰都具有出色的性能表现。

表1列出了本文方法中各个组成部分的性能比较结果,其中:Baseline对应于在DukeMTMCReID和MARS数据集上使用softmax交叉熵损失函数训练的基础的网络模型; Triplet、STR(SpatialTemporal Regularization)和FLR(FrameLevel Regularization)分别代表三重损失函数、时空正则化和帧级正则化。Baseline+Triplet代表用三重損失函数和softmax交叉熵损失函数训练的网络。在MARS数据集中,与Baseline+Triplet相比,STR在mAP方面提高了2.5个百分点,在Rank1准确率方面提高了3.3个百分点。与Baseline+Triplet+STR相比,FLR方法在mAP方面提高了1.7个百分点,在Rank1准确率方面提高了2.7个百分点。在DukeMTMCReID数据集中,STR在mAP方面提高了1.7个百分点,在Rank1准确率方面提高了4.8个百分点。而FLR在mAP方面提高了1.2个百分点,在Rank1准确率上提高了1.8个百分点。结果表明空间正则化方法有助于提高行人再识别的准确性,帧级正则化方法可以平衡帧间差异,进一步提高整体的性能。

表2展示了输入不同长度视频序列的性能比较。为了公平比较,本文除了改变视频序列的长度T以外,其他的参数均保持不变。T=1是不使用时间建模方法的单幅图像的模型。从表2中可以看出,随着序列长度T的增加,mAP和Rank准确率得分均有所提高, 这表明时间建模方法对于提高行人再识别的准确性是有效的。当T=4时,本文方法的整体性能表现最佳。T=4时,在MARS数据集中本文方法的Rank1准确率为82.1%,mAP为72.3%;而在DukeMTMCReID数据集中本文方法的Rank1准确率为80.0%,mAP为61.2%。

为了进行公平的比较,本文使用相同的基础模型与现有的方法进行对比。表3列出了本文方法与MARS中其他方法的比较,其中“—”表示论文作者没有进行对应的实验(下同)。本文方法的mAP为72.3%,与Triplet[12]相比提高了4.6个百分点,与CSACSE(Competitive Snippetsimilarity Aggregation and Coattentive Snippet Embedding)方法[22]相比提高了2.9个百分点,与MSML(Margin Sample Mining Loss)方法[18]相比提高了0.3个百分点。Rank1准确率为 82.1%,相对于Triplet 提高了2.3个百分点,相对于CSACSE提高了0.9个百分点。对于Rank-5和Rank20而言,本文方法也取得了出色的成绩。在Rank10方面,準确率为93.1%。

表4列出了本文方法与DukeMTMCReID中其他方法的比较, 该数据集比MARS更具有挑战性,因为它的相机视域更宽,场景更复杂,行人图像在分辨率和背景方面变化很大。表4中列出了本文方法的mAP和Rank1准确率分别为61.2%和80.0%,与APR方法相比[21]均提高了9.3个百分点,与其他方法相比并没有明显的提高。但是本文方法的模型更加简单、且易于训练。表4还列出了本文方法的Rank-5和Rank20准确率分别为88.8%和93.7%。

4 结语

本文主要对基于视频的行人再识别进行了分析和研究。实验结果表明,时间建模方法对于提高视频中行人再识别的准确性是有效的。本文还提出了时空正则化和帧级正则化策略,进一步提高了行人再识别的准确性。在DukeMTMCReID和MARS数据集上进行实验,实验结果清楚地证明了本文方法的整体有效性。未来的主要工作是将本文方法与目标检测或跟踪算法相结合应用于实际的多摄像机监控环境,实现对目标行人准确的识别和连续、稳定的跟踪。

参考文献 (References)

[1]李幼蛟,卓力,张菁,等.行人再识别技术综述[J].自动化学报, 2018, 44(9): 1554-1568. (LI Y J, ZHUO L, ZHANG J, et al. A survey of person reidentification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568.)

[2]MCLAUGHLIN N, DEL RINCON J M, MILLER P. Recurrent convolutional network for videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1325-1334.

[3]WU Z, WANG X, JIANG Y G, et al. Modeling spatialtemporal clues in a hybrid deep learning framework for video classification[C]// Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM, 2015: 461-470.

[4]LIU Y, YAN J, OUYANG W. Quality aware network for set to set recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4694-4703.

[5]ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: Joint spatial and temporal recurrent neural networks for videobased person reidentification[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4747-4756.

[6]KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1725-1732.

[7]DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[9]YOU J, WU A, LI X, et al. Toppush videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1345-1353.

[10]YAN Y, NI B, SONG Z, et al. Person reidentification via recurrent feature aggregation[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 701-716.

[11]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]// Proceedings of the 32nd International Conference on Machine Learning. [S. l.]: International Machine Learning Society, 2015: 2048-2057.

[12]HERMANS A, BEYR L, LEIBE B. In defense of the triplet loss for person reidentification[EB/OL].[2017-11-21]. http://arxiv.org/pdf/1703.07737.

[13]KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2017-01-30]. http://csce.uark.edu/~mgashler/ml/2018_spring/r3/adam.pdf.

[14]ZHENG L, BIE Z, SUN Y, et al. Mars: a video benchmark for largescale person reidentification[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 868-884.

[15]ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person reidentification baseline in vitro[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 3754-3762.

[16]RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multitarget, multicamera tracking[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 17-35.

[17]LI D, CHEN X, ZHANG Z, et al. Learning deep contextaware features over body and latent parts for person reidentification[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 384-393.

[18]XIAO Q, LUO H, ZHANG C. Margin sample mining loss: a deep learning based method for person reidentification[EB/OL]. [2017-10-07]. http://arxiv.org/pdf/1710.00478.

[19]LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for videobased person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 369-378.

[20]LI W, ZHU X, GONG S. Harmonious attention network for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2285-2294.

[21]LIN Y, ZHENG L, ZHENG Z, et al. Improving person reidentification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161.

[22]CHEN D, LI H, XIAO T, et al. Video person reidentification with competitive snippetsimilarity aggregation and coattentive snippet embedding[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1169-1178.

[23]CHANG X, HOSPEDALES T M, XIANG T. Multilevel factorisation net for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2109-2118.

[24]CHEN Y, ZHU X, GONG S. Person reidentification by deep learning multiscale representations[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2590-2600.

[25]李姣,張晓晖,朱虹,等.多置信度重排序的行人再识别算法[J].模式识别与人工智能, 2017, 30(11): 995-1002. (LI J, ZHANG X H, ZHU H, et al. Person reidentification via multiple confidences reranking[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(11): 995-1002.)

This work is partially supported by the Science and Technology Support Project of Jilin Province (20180201091GX), the Project of Jilin Provincial Science and Technology Innovation Center (20180623039TC).

LIU Baocheng, born in 1995, M. S. candidate. His research interests include machine learning, computer vision.

PIAO Yan, born in 1965, Ph. D., professor. Her research interests include computer vision, pattern recognition.

TANG Yue, born in 1994, M. S. candidate. Her research interests include deep learning, computer vision.

摘 要:由于现实复杂情况中各种因素的干扰,行人再识别的过程中可能出现识别错误等问题。为了提高行人再识别的准确性,提出了一种基于时空正则化的行人再识别算法。首先,利用ResNet-50网络对输入的视频序列逐帧进行特征提取,将一系列帧级特征输入到时空正则化网络并产生对应的权重分数; 然后,对帧级特征使用加权平均得到视频序列级特征, 为避免权重分数聚集在一帧,使用帧级正则化来限制帧间差异;最后, 通过最小化损失得到最优结果。在DukeMTMCReID和MARS数据集中做了大量的测试,实验结果表明,所提方法与Triplet算法相比能够有效提高行人再识别的平均精度(mAP)和准确率,并且对于人体姿势变化、视角变化和相似外观目标的干扰具有出色的性能表现。

关键词:机器视觉;行人再识别;注意力机制;卷积神经网络;时间建模

中图分类号:TP391.41

文献标志码:A

Person reidentification in video sequence based on spatialtemporal regularization

LIU Baocheng, PIAO Yan*, TANG Yue

College of Electronic Information Engineering, Changchun University of Science and Technology, Changchun Jilin 130012, China

Abstract:

Due to the interference of various factors in the complex situation of reality, the errors may occur in the person reidentification. To improve the accuracy of person reidentification, a person reidentification algorithm based on spatialtemporal regularization was proposed. Firstly, the ResNet50 network was used to extract the features of the input video sequence frame by frame, and the series of framelevel features were input into the spatialtemporal regularization network to generate corresponding weight scores. Then the weighted average was performed on the framelevel features to obtain the sequencelevel features. To avoid weight scores from being aggregated in one frame, framelevel regularization was used to limit the difference between frames. Finally, the optimal results were obtained by minimizing the losses. A large number of tests were performed on MARS and DukeMTMCReID datasets. The experimental results show that the mean Average Precision (mAP) and the accuracy can be effectively improved by the proposed algorithm compared with Triplet algorithm. And the proposed algorithm has excellent performance for human posture variation, viewing angle changes and interference with similar appearance targets.

Key words:

machine vision; person reidentification; attention mechanism; Convolutional Neural Network (CNN); temporal modeling

0 引言

近年來,随着智能视频分析的迅速发展和国家对公共安防监控的重视,行人再识别技术已成为视频监控领域中至关重要的一部分[1]。行人再识别来源于多摄像机目标跟踪,主要处理非重叠摄像机间重新确定特定行人的问题,即判断在不同时间、不同地点出现在不同摄像机的行人是否为同一个人。

基于视频的行人再识别是当前研究的热点,现阶段的大多数方法都是基于深度神经网络和时间信息建模: McLaughlin等[2]首先提出通过循环神经网络(Recurrent Neural Network, RNN)对帧之间的时间信息建模; Wu等[3]通过训练卷积网络和循环层,从视频中提取外观特征和时空特征,并构建混合网络融合两种类型的特征; Liu等[4]设计了一个质量感知网络(Quality Aware Network, QAN)用于聚合时序特征; Zhou等[5]提出用RNN和时间注意方法对行人进行再识别; Karpathy等[6]设计了一个卷积神经网络(Convolutional Neural Network, CNN)来提取特征,并使用时间池化方法来聚合特征。由于不同相机拍摄的视频图像会因光照变化、遮挡或人体姿势变化等因素影响,目标会出现较大的外观变化,使得行人再识别仍然是一个具有挑战性的问题。

本文针对行人再识别的准确性,提出了一种基于时空正则化的行人再识别算法。利用ResNet-50网络逐帧进行特征提取,帧级特征经过时空正则化网络产生相应的权重分数,通过加权平均将帧级特征融合为一个序列级特征; 同时使用帧级正则化避免权重分数聚集在一帧,最终通过最小化损失函数找到最佳的识别结果。

1 相关工作

1.1 卷积神经网络

最近几年,深度学习在计算机视觉领域取得了出色的成绩。与人工设计特征的方法相比,基于深度学习的方法可以从大量数据中自主学习得到图像的特征信息,更加符合人工智能的要求。

在计算机视觉领域中,CNN是应用最广泛的深度学习模型之一, CNN通过在卷积层中的非线性叠加可以得到具有高级语义信息的特征,并且其每个卷积层都可以得到输入图像的不同特征表达。在行人再识别的过程中,利用CNN提取目标行人更精准和更具有判别性的特征,可以获得更多关于目标行人的信息,有利于提高识别结果的准确性。

本文使用在ImageNet数据集[7]上预训练的ResNet-50[8]卷积神经网络对输入的视频序列进行特征提取。ResNet-50网络深度为50层,其中包含5个卷积层,即Conv1和4个具有残差模块的Conv2、Conv3、Conv4、Conv5。ResNet-50网络结构如图1所示。

1.2 时间建模方法

近年來由于数据集规模不断地扩大,基于视频的行人再识别成为当前研究的主流方向。与基于图像的方法相比,基于视频的方法可以有效地利用视频序列中的时间信息。因为摄像机拍摄的大部分都是时间连续的视频,可以为行人再识别提供更多的信息。

基于视频的行人再识别方法主要注重时间信息的整合,即通过时间建模的方法将帧级特征聚合为视频序列级特征。首先,将输入的视频序列通过卷积神经网络提取帧级特征{ft},t∈[1,T],其中T表示视频序列的帧数;然后,利用时间建模方法将帧级特征{ft}聚合成单个特征f,用f表示视频序列级特征;最后,通过最小化损失得到最优的识别结果。图2展示了基于时间建模方法的原理。

常用的时间建模方法有三种:时间池化、时间注意和RNN或其改进模型长短期记忆(Long ShortTerm Memory, LSTM)网络。在时间池化模型[9]中,主要使用最大池化或平均池化。对于最大池化,f=maxft; 对于平均池化, f=1T∑Tt=1ft。但当视频中目标行人经常出现遮挡时,这种方法通常会失败。

RNN或LSTM模型中[10],将一系列帧级特征聚合成单个特征主要有两种方法:第一种方法是直接在最后一个步骤采用隐藏状态hT,即f=hT; 第二种方法是计算RNN的输出{ot}的平均值,即f=1T∑Tt=1ot。但RNN或LSTM模型通常提取浅层特征,缺少对目标的判别性表达,并且难以在大型数据集中训练。

在基于时间注意的模型[11]中,主要使用加权平均法将帧级特征聚合为序列级特征,即f=1T∑Tt=1αt ft,其中αt为每帧的权重。基于时间注意的方法可以很好地抑制噪声的干扰(如遮挡等),并且它是现在最主流的方法之一。

2 本文方法

本文首先使用ResNet-50网络对输入的视频序列逐帧进行特征提取,将最后一个卷积层(Conv5)的特征输入到时空正则化网络并产生相应的权重分数,通过对所有帧级特征加权平均得到视频序列级特征。为了避免在注意图转换为权重分数时聚焦于一帧而忽略其他帧,使用帧级正则化来限制帧间差异。最后将帧级正则化与三重损失函数、softmax交叉熵损失函数联合起来,用于训练整个网络。本文方法的整体框图如图3所示。

2.1 特征提取

本文使用ResNet-50网络对输入的视频序列进行特征提取。通常,ResNet-50网络使用一系列层处理图像,其中每个单独的层由卷积、池化和非线性激活函数等步骤组成。为了简化符号,本文将ResNet-50网络定义为函数fc=C(x),其将图像x作为输入并且产生特征作为输出。

设I=I1,I2,…,IT是由行人图像组成的长度为T的视频序列,其中It是目标行人在时间t处的图像。每个图像It通过ResNet-50网络之后产生帧级特征,即ft=C(It)。本文将视频序列输入到ResNet-50网络中并输出一系列帧级特征{ft}(t∈[1,T])。

2.2 时空正则化

ResNet-50网络中最后一个卷积层(Conv5)的特征图大小为W×H,其维度为D=2-048,H和W是特征图的高度和宽度,H和W的大小取决于输入图像的尺寸。首先将帧级特征ft=(ft1, ft2,…, ftD)作为时空正则化网络的输入,将特征图中的所有元素,针对每个特征通道d进行空间正则化,生成相应的注意图gt:

gt=ftd/‖ft‖2(1)

其中‖ft‖2=(∑Dd=1ftd2)12是ft的L2范数。在经过空间正则化之后,每帧都具有一个对应的注意图。然后将每帧注意图中的所有元素针对每个特征通道d使用L1范数以获得相应的空间注意分数:

st=∑Dd=1∑m,n‖gdt(m,n)‖1(2)

其中m和n代表每帧注意图中相应的所有元素。因此,每帧都具有一个对应的空间注意分数st。

本文直接比较来自不同帧的空间注意分数st(t∈[1,T]),并采用Sigmoid函数和L1归一化计算时间注意分数:

αt=σ(st)/∑Tt=1σ(st)(3)

其中σ表示Sigmoid函数。最后,为每帧分配一个特定的权重分数αt,通过加权平均得到视频序列级特征f:

f=1T∑Tt=1αt ft(4)

2.3 帧级正则化

对于基于视频的行人再识别而言,来自同一视频序列的行人图像应代表同一人的外观,但是在注意图转换为注意分数时,会出现注意分数集中在一个特定帧上并且在很大程度上忽略其他帧的情况。为了限制帧间差异,避免注意分数聚集在一帧,本文从视频序列的T帧中随机选择两帧i和j,并使用Frobenius范数对帧级注意图进行正则化:

Fi,j=‖gi-gj‖F=

∑Dd=1∑m,ngdi(m,n)-gdj(m,n)2(5)

其中gi和gj是由式(1)产生的注意图。将所有正则化项Fi, j乘以一个常数β后加到式(9)中来最小化损失:

minLtotal+Ti=j=1i≠jβ·Fi, j(6)

2.4 损失函数

本文使用三重损失函数和softmax交叉熵损失函数来训练网络。

三重损失函数最初是Hermans等[12]提出的,是原始的三重损失(semihard triplet loss)的改进版。本文为每个小批量(minibatch)随机抽取P个身份,并为每个身份随机抽取K个视频序列(每个序列包含T帧),以满足三重损失函数要求。三重损失函数可以表述如下:

Ltriplet=Pi=1∑Ka=1all anchors[α+maxp=1,2,…,K‖f(i)a-f(i)p‖2hardest positive-

minn=1,2,…,K, j=1,2,…,P, j≠i‖f(i)a-f(j)n‖2hardest negative]+(7)

其中:f(i)a、 f(i)p和f(j)n分别是从目标样本、正样本和负样本中提取的特征; α是用于控制样本内部距离的超参数。正样本和负样本指的是与目标样本具有相同身份和不同身份的行人。

除了使用三重损失函数以外,本文还采用softmax交叉熵损失进行判别性学习。softmax交叉熵损失函数可以表述如下:

Lsoftmax=-1PK∑Pi=1∑Ka=1pi,algqi,a(8)

其中pi,a和qi,a是样本{i,a}的真实身份和预测。

总损失函数Ltotal是softmax损失和triplet损失的组合,如式(9)所示:

Ltotal=Lsoftmax+Ltriplet(9)

3 实验与结果

3.1 实验环境和参数设置

本文使用Python語言进行编程,实验环境为pytorch。所有实验都在Windows 10系统,NVIDIA GTX 1060 GPU的电脑上完成。视频序列的大小调整为256×128。首先从输入的视频序列中随机选择T=4帧,然后随机选择P=4个身份对每个小批量(minibatch)进行采样,并从训练集中为每个身份随机抽取K=4个视频序列,批量大小(batch size)为32。学习率为0.000-3,三重损失函数的margin参数设置为0.3。在训练期间,采用Adam[13]优化网络。

3.2 数据集

运动分析和再识别数据集(Motion Analysis and Reidentification Set, MARS)[14]包含1-261个身份和大约20-000个视频序列,是迄今为止最大的视频行人再识别数据集之一。这些序列至少由2个摄像机捕获,最多由6个摄像机捕获,每个身份平均有13.2个序列。此外,数据集固定地分为训练集和测试集,用于训练的身份为625个,用于测试的身份为626个,其中还包含3-248个干扰序列。

DukeMTMCReID数据集[15]源自DukeMTMC数据集[16],也是一个大规模的行人再识别数据集。它由8个摄像机捕获的1-812个身份组成,其中1-404个身份出现在两个以上的摄像机中,其余的408个是干扰身份。数据集固定地分为训练集和测试集,都有702个身份。

3.3 评价指标

为了评估本文的方法,使用累积匹配特征(Cumulative Matching Characteristic, CMC)曲线和平均精度(mean Average Precision, mAP)作为本实验中的评价指标。CMC曲线表示行人识别的准确性,本文使用Rank1、Rank-5、Rank10和Rank20的得分代表CMC曲线。当每次识别仅对应视频序列中的一个目标时,CMC指标是有效的, 但是当视频中存在多个目标时,CMC指标是有偏差的。DukeMTMCReID和MARS数据集在使用CMC曲线作为评价指标的同时,也采用mAP作为评价指标。相比之下,mAP是一个更具有综合性的指标,非常适合单目标和多目标的再识别。

3.4 在MARS和DukeMTMCReID数据集中评估

为了验证本文方法的有效性,在MARS数据集中进行了测试与分析。本文选取了4个具有代表性的视频序列,如图4所示,其中:query表示待识别的目标行人; 数字1~10表示Rank1到Rank10; 黑色实线框代表正样本(与目标具有相同身份的人),即识别正确; 无框代表负样本(与目标具有不同身份的人),即匹配错误。

从图4(a)中可以看出,本文方法成功识别不同视角的所有候选者;在图4(b)中本文方法也成功找到了最高等级的正确候选者;图4(c)受到明显的光照变化的影响;图4(d)包含与待识别目标具有相似外观行人的干扰。实验结果表明本文方法对于人体姿势变化、视角变化、光照变化和相似外观目标的干扰都具有出色的性能表现。

表1列出了本文方法中各个组成部分的性能比较结果,其中:Baseline对应于在DukeMTMCReID和MARS数据集上使用softmax交叉熵损失函数训练的基础的网络模型; Triplet、STR(SpatialTemporal Regularization)和FLR(FrameLevel Regularization)分别代表三重损失函数、时空正则化和帧级正则化。Baseline+Triplet代表用三重损失函数和softmax交叉熵损失函数训练的网络。在MARS数据集中,与Baseline+Triplet相比,STR在mAP方面提高了2.5个百分点,在Rank1准确率方面提高了3.3个百分点。与Baseline+Triplet+STR相比,FLR方法在mAP方面提高了1.7个百分点,在Rank1准确率方面提高了2.7个百分点。在DukeMTMCReID数据集中,STR在mAP方面提高了1.7个百分点,在Rank1准确率方面提高了4.8个百分点。而FLR在mAP方面提高了1.2个百分点,在Rank1准确率上提高了1.8个百分点。结果表明空间正则化方法有助于提高行人再识别的准确性,帧级正则化方法可以平衡帧间差异,进一步提高整体的性能。

表2展示了输入不同长度视频序列的性能比较。为了公平比较,本文除了改变视频序列的长度T以外,其他的参数均保持不变。T=1是不使用时间建模方法的单幅图像的模型。从表2中可以看出,随着序列长度T的增加,mAP和Rank准确率得分均有所提高, 这表明时间建模方法对于提高行人再识别的准确性是有效的。当T=4时,本文方法的整体性能表现最佳。T=4时,在MARS数据集中本文方法的Rank1准确率为82.1%,mAP为72.3%;而在DukeMTMCReID数据集中本文方法的Rank1准确率为80.0%,mAP为61.2%。

为了进行公平的比较,本文使用相同的基础模型与现有的方法进行对比。表3列出了本文方法与MARS中其他方法的比较,其中“—”表示论文作者没有进行对应的实验(下同)。本文方法的mAP为72.3%,与Triplet[12]相比提高了4.6个百分点,与CSACSE(Competitive Snippetsimilarity Aggregation and Coattentive Snippet Embedding)方法[22]相比提高了2.9个百分点,与MSML(Margin Sample Mining Loss)方法[18]相比提高了0.3个百分点。Rank1准确率为 82.1%,相对于Triplet 提高了2.3个百分点,相对于CSACSE提高了0.9个百分点。对于Rank-5和Rank20而言,本文方法也取得了出色的成绩。在Rank10方面,准确率为93.1%。

表4列出了本文方法与DukeMTMCReID中其他方法的比较, 该数据集比MARS更具有挑战性,因为它的相机视域更宽,场景更复杂,行人图像在分辨率和背景方面变化很大。表4中列出了本文方法的mAP和Rank1準确率分别为61.2%和80.0%,与APR方法相比[21]均提高了9.3个百分点,与其他方法相比并没有明显的提高。但是本文方法的模型更加简单、且易于训练。表4还列出了本文方法的Rank-5和Rank20准确率分别为88.8%和93.7%。

4 结语

本文主要对基于视频的行人再识别进行了分析和研究。实验结果表明,时间建模方法对于提高视频中行人再识别的准确性是有效的。本文还提出了时空正则化和帧级正则化策略,进一步提高了行人再识别的准确性。在DukeMTMCReID和MARS数据集上进行实验,实验结果清楚地证明了本文方法的整体有效性。未来的主要工作是将本文方法与目标检测或跟踪算法相结合应用于实际的多摄像机监控环境,实现对目标行人准确的识别和连续、稳定的跟踪。

参考文献 (References)

[1]李幼蛟,卓力,张菁,等.行人再识别技术综述[J].自动化学报, 2018, 44(9): 1554-1568. (LI Y J, ZHUO L, ZHANG J, et al. A survey of person reidentification[J]. Acta Automatica Sinica, 2018, 44(9): 1554-1568.)

[2]MCLAUGHLIN N, DEL RINCON J M, MILLER P. Recurrent convolutional network for videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1325-1334.

[3]WU Z, WANG X, JIANG Y G, et al. Modeling spatialtemporal clues in a hybrid deep learning framework for video classification[C]// Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM, 2015: 461-470.

[4]LIU Y, YAN J, OUYANG W. Quality aware network for set to set recognition[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4694-4703.

[5]ZHOU Z, HUANG Y, WANG W, et al. See the forest for the trees: Joint spatial and temporal recurrent neural networks for videobased person reidentification[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4747-4756.

[6]KARPATHY A, TODERICI G, SHETTY S, et al. Largescale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2014: 1725-1732.

[7]DENG J, DONG W, SOCHER R, et al. ImageNet: a largescale hierarchical image database[C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 248-255.

[8]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[9]YOU J, WU A, LI X, et al. Toppush videobased person reidentification[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1345-1353.

[10]YAN Y, NI B, SONG Z, et al. Person reidentification via recurrent feature aggregation[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 701-716.

[11]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]// Proceedings of the 32nd International Conference on Machine Learning. [S. l.]: International Machine Learning Society, 2015: 2048-2057.

[12]HERMANS A, BEYR L, LEIBE B. In defense of the triplet loss for person reidentification[EB/OL].[2017-11-21]. http://arxiv.org/pdf/1703.07737.

[13]KINGMA D P, BA J. Adam: a method for stochastic optimization[EB/OL]. [2017-01-30]. http://csce.uark.edu/~mgashler/ml/2018_spring/r3/adam.pdf.

[14]ZHENG L, BIE Z, SUN Y, et al. Mars: a video benchmark for largescale person reidentification[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 868-884.

[15]ZHENG Z, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person reidentification baseline in vitro[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2017: 3754-3762.

[16]RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multitarget, multicamera tracking[C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 17-35.

[17]LI D, CHEN X, ZHANG Z, et al. Learning deep contextaware features over body and latent parts for person reidentification[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 384-393.

[18]XIAO Q, LUO H, ZHANG C. Margin sample mining loss: a deep learning based method for person reidentification[EB/OL]. [2017-10-07]. http://arxiv.org/pdf/1710.00478.

[19]LI S, BAK S, CARR P, et al. Diversity regularized spatiotemporal attention for videobased person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 369-378.

[20]LI W, ZHU X, GONG S. Harmonious attention network for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2285-2294.

[21]LIN Y, ZHENG L, ZHENG Z, et al. Improving person reidentification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151-161.

[22]CHEN D, LI H, XIAO T, et al. Video person reidentification with competitive snippetsimilarity aggregation and coattentive snippet embedding[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 1169-1178.

[23]CHANG X, HOSPEDALES T M, XIANG T. Multilevel factorisation net for person reidentification[C]// Proceedings of the 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2109-2118.

[24]CHEN Y, ZHU X, GONG S. Person reidentification by deep learning multiscale representations[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2590-2600.

[25]李姣,張晓晖,朱虹,等.多置信度重排序的行人再识别算法[J].模式识别与人工智能, 2017, 30(11): 995-1002. (LI J, ZHANG X H, ZHU H, et al. Person reidentification via multiple confidences reranking[J]. Pattern Recognition and Artificial Intelligence, 2017, 30(11): 995-1002.)

This work is partially supported by the Science and Technology Support Project of Jilin Province (20180201091GX), the Project of Jilin Provincial Science and Technology Innovation Center (20180623039TC).

LIU Baocheng, born in 1995, M. S. candidate. His research interests include machine learning, computer vision.

PIAO Yan, born in 1965, Ph. D., professor. Her research interests include computer vision, pattern recognition.

TANG Yue, born in 1994, M. S. candidate. Her research interests include deep learning, computer vision.

猜你喜欢

注意力机制机器视觉卷积神经网络
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
InsunKBQA:一个基于知识库的问答系统
基于深度卷积神经网络的物体识别算法
大场景三维激光扫描仪在研究生实践教学培养中的应用
深度学习算法应用于岩石图像处理的可行性研究
基于机器视觉的工件锯片缺陷检测系统设计
基于深度卷积网络的人脸年龄分析算法与实现
基于机器视觉技术的动态“白带”常规检测系统的开发