显著性时空特征融合的多视角步态识别算法

2022-11-25杨凯文李双群胡星

现代计算机 2022年17期

杨凯文，李双群，胡星

（1.中电长城圣非凡信息系统有限公司，北京 102209；2.中国电子信息产业集团有限公司第六研究所，北京 100083）

0 引言

行人步态是非常重要的生物特征之一，它具有远程识别行人身份的唯一性能力，与人脸、虹膜、指纹等其他生物特征相比，步态具有下列显著优势：①可以通过远程、非接触的方式获取；②难以模仿或伪装；③即使在低质视频中，仍然可以有效地获取行人步态。近几年来，视频监控系统中的步态识别引起了研究人员的广泛关注，研究成果可以应用于智慧边防、仓库安全管理、智慧安防、智能刑侦、身份识别等领域，这些具有挑战性的应用在很大程度上依赖于步态识别准确率。

然而，准确的步态识别仍然面临以下主要挑战：①不同视角的步态匹配非常困难，但对于步态识别应用非常重要；②精确检测步态周期困难大，步态序列的周期性运动线索和时间特性无法被有效利用。上述因素导致行人步态具有模糊的类间差异和较大的类内差异，部分示例［1］如图1所示。

针对上述挑战，为提升步态识别性能，研究者们提出了两种类型步态识别方法：基于模型的步态识别方法和基于外观的步态识别方法。基于模型的步态识别方法通过对人体四肢的运动进行建模，并从步态图像中提取人体结构。例如：Lombardi等［2］通过计算光流场对步态序列中的两点数据进行统计，并对行人肢体运动进行编码，称为两点步态；李昱等［3］融合视觉和触觉特征建立全身步态模型，并使用支持向量机进行分类完成步态识别；Goffredo等［4］应用人体比例测量方法对人员下肢姿势进行建模，是一种独立于拍摄视角的步态识别方法。然而，在低质监控视频中，很难精确估计行人步态的运动模型参数。

基于外观的步态识别方法主要从获取的步态图像序列中提取步态特征，即使在低分辨率视频中也可以完成步态识别任务。例如：Muramatsu等［5］提出了一种任意视角转换模型（AVTM），用于在任意视角下准确匹配行人的步态特征；官洪运等［6］利用HSV颜色特征和局部细节特征进行步态匹配；Wang等［7］提取每个步态图像的轮廓，然后使用多通道映射函数将步态轮廓映射到相同的步态序列中，形成步态时序模板完成步态识别。

最近，基于深度学习的步态识别方法取得良好的识别结果，Zhang等［8］使用成对的步态能量图（GEI）作为输入，构建了孪生神经网络学习步态序列的时空特征，在一定程度上提高了步态识别精度。由于GEI在计算过程中会损失步态大量的动态信息，GEI仅仅能够表示步态的少量动态信息。LSTM网络采用学习有用新信息并遗忘无用旧信息机制，可以有效捕获视频中的运动信息，Donahue等［9］提出了一种新的循环神经网络架构，采用LSTM对可变长度视频的复杂动态特性进行建模，应用于大规模视频的视觉描述。为了获取丰富的行人运动信息，Mahasseni等［10］提出一种正则化LSTM网络架构，并使用视频中行人的3D人体骨架序列进行训练，应用于大规模视频的行人动作识别。陈京荣［11］提出了一种结合姿态估计与Bi-LSTM网络的人体跌倒检测算法，用于检测老年人跌倒事件的发生。

受上述研究工作的启发，为了解决步态识别的挑战性问题，本文设计了一个自动融合步态序列的框架，其显著的空间和时间特征用于完成步态识别任务。首先，为了获得步态的判别性外观特征，利用步态图像对VGG16网络进行微调，并使用微调后模型提取行人步态图像的空间特征表示步态外观信息；其次，为了准确地捕捉行人步态的显著周期性运动特征，设计了时序总结孪生LSTM神经网络来自动学习步态序列的显著周期性运动特征，其中LSTM单元用于对步态序列的周期性运动进行建模、时序加权总结模块捕捉显著的时序信息、孪生网络架构解决步态识别中类别数量巨大而每个类别样本数量很少的问题；最后，在OULP-C1V1-A步态数据集上对本文方法进行了实验验证，实验结果表明本文方法在相同视角和交叉视角下都取得了良好的步态识别性能。

综上所述，本文主要贡献总结为：①设计了一种网络架构，同时利用步态图像序列的显著性空间特征和时间特征进行相同视角和交叉视角下的步态识别；②提出了一种时序总结孪生LSTM神经网络，自动学习步态图像序列的显著周期性运动特征；③探索了LSTM的层数、隐藏单元数量与步态识别准确率之间的关系，在OULP-C1V1-A步态数据集上综合评价了本文方法在相同视角内和交叉视角间取得的良好识别性能。

1 时序总结孪生LSTM网络

1.1 算法框架

图2展示了本文提出的时序总结孪生LSTM网络模型框架。首先，以步态图像序列对作为输入，步态图像序列通过微调的VGG16网络提取每个图像的空间特征；接着，将步态图像的空间特征输入LSTM单元，学习步态序列中与时序相关的特征集；最后，提出了一个时序总结层，用于为不同的时间步输出分配不同的权重，生成步态序列周期性运动线索的序列级特征，用于完成步态识别任务。

1.2 步态空间特征提取

本文选择VGG16网络学习步态图像的空间特征，由于预训练的VGG16模型采用ImageNet作为训练数据，不能直接应用于步态识别。因此，将预训练VGG16模型在步态数据集上进行微调，将其迁移到步态图像领域。微调解决方案：将fc8层的输出参数设置为步态图像类别数目，微调预训练VGG16模型中的所有层参数。微调后VGG16模型能够捕捉到步态图像更为丰富的空间特征。给定一个步态序列处理单元S={s1,…,st,…sT}，其中st是时间步t的步态图像、T为步态序列处理单元S的长度，利用微调后VGG16模型提取步态序列处理单元S的空间特征向量集X={x1,…,xt,…xT}。

1.3 步态周期特征提取

LSTM是一种特殊的循环神经网络，通过记忆单元模块调节特定的相关信息与其周围环境信息之间的相互作用，有目的地保留特定相关信息，可以捕捉视频序列中的长期时间动态信息，增强序列时序信息的判别能力。行人步态周期是区分不同行人的重要特征，因此本文采用LSTM神经网络对行人步态的周期性运动进行建模，并提取更具判别特性的周期性运动特征表示步态周期，提高行人步态识别性能。

LSTM记忆单元由四个主要部分组成：一个输入门、一个具有自循环连接的神经元、一个遗忘门和一个输出门。输入门根据输入数据更新记忆单元的状态或阻塞更新，自循环连接确保记忆单元的状态具有1个时间步延迟的反馈，遗忘门允许记忆单元通过调整其自循环连接来记住或忘记其先前的状态，输出门允许记忆单元的状态对其他神经元产生影响或阻止影响。总之，LSTM记忆单元允许神经网络学习何时忘记先前的隐藏状态以及何时更新隐藏状态以保留新的相关信息。

接下来，将步态序列处理单元S的空间特征向量集X输入LSTM模块，学习步态序列的周期性时序信息。对于时间步t，xt和ht分别为输入向量，Wx为输入权重矩阵，Wh为循环权重矩阵，b为偏置向量。Sigmoid函数是一个元素级非线性激活函数，它将实数输入映射到（0，1）范围内。双曲正切函数∅(x)=也是一个元素级非线性激活函数，它将输入映射到（-1，1）范围内。运算符⊙表示元素级相乘运算。给定输入xt，ht-1和ct-1，LSTM单元时间步t的更新方程可表示为：

从公式（1）～（6）可以看出，每个时间步都会得到一个隐藏单元ht∈ℝN。一个LSTM单元由输入门it∈ℝN、遗忘门ft∈ℝN、输出门ot∈ℝN、输入调节门gt∈ℝN和记忆单元ct∈ℝN组成。记忆单元ct是ct-1记忆部分和被调节后it的总和。LSTM单元中的ft和gt被视为选择性地忘记其先前记忆和考虑当前输入的旋钮，ot用于学习记忆单元中的哪些信息需要转移到隐藏单元中。最后，得到步态序列处理单元S的隐藏状态集H={h1,…,ht,…hT}，它表示步态序列S长期的时序信息，即周期性运动信息。

1.4 步态时序信息加权总结

尽管LSTM能够捕获到步态序列的时序信息，但它更偏重于使用后面时间步的输出信息，这会降低步态识别性能，因为前面时间步的输出也会包含一些有用的时序信息。为了解决这个问题，本文设计了一个时序信息加权总结（WTS）模块，提供了一种加权解决方案来聚合总结所有时间步的信息，从而捕捉到具有强区分能力的时序特征。WTS模块生成的步态特征向量V可形式化为：

其中T表示步态序列的时间步数（长度）、ht是LSTM在时间步t的输出。

1.5 孪生LSTM网络

在步态识别领域，样本数据具有以下特点：类别数量非常多且模型训练阶段无法确定，而每个类别的样本数量非常少。孪生架构网络可以从训练数据中应用判别学习技术来学习相似度度量模型，不需要特定的样本类别信息，它包含两个结构相同且权重共享的子网，将输入对象映射到低维目标空间中进行相似性度量。因此，孪生架构网络适合解决步态识别问题，本文设计了一个孪生LSTM网络用于学习步态序列的周期性运动特征，如图2所示。由于孪生LSTM网络目标空间的维数较低，能够从每个类别的少量样本中学习不同步态序列之间的强区分性特征。

1.5.1 网络输入

孪生LSTM网络以步态序列对作为输入，将每个步态序列映射为一个特征向量，然后进行相似性度量。对于训练集中的所有步态序列，本文随机选择两个属于同一类别的步态序列构成正训练对、随机选择两个属于不同类别的序列构成负训练对。给定一个步态序列训练对(Si,Sj)，Y∈[ 0,1]为训练对的标签，Y=1表示Si和Sj属于同一个身份，Y=0表示它们属于不同的身份。

如图2所示，步态序列训练对(Si,Sj)分别输入微调后VGG16模型提取步态序列的空间特征向量集Xi和Xj，接着它们分别被输入两个并行的LSTM子网络学习得到两个步态序列的隐藏状态集Hi和Hj，最后根据公式（7）分别对Hi和Hj进行加权总结，得到两个步态序列的特征向量Vi和Vj。

1.5.2 对比损失函数

对于步态识别任务，需要学习一个非线性函数将步态序列映射到低维空间中的点，使正训练对尽可能接近、而负训练对尽可能远离，且至少大于一个最小距离间隔。因此，本文采用对比损失层连接两个LSTM子网络。

对于步态序列的特征向量Vi和Vj，距离度量方法可表示为：

对比损失目标函数可形式化表示为：

其中正数m为不同类别步态序列之间的最小距离间隔。

1.5.3 网络训练

本文将步态识别视为一个二分类问题，训练数据包括步态序列对和标签。在训练阶段，采用权重共享机制同时优化两个LSTM子网络，成对的步态序列分别输入两个LSTM子网络，通过对比损失层计算对比损失并反向传播来训练孪生LSTM网络模型。

由于步态序列的正训练对数量要远远少于负训练对，可能会带来数据不平衡和过拟合问题。为了避免这些问题，在训练过程中随机丢弃LSTM层的50%神经元输出，LSTM层保留神经元的输出传递到后续层，随着对训练数据的多轮迭代，模型被训练达到收敛状态，训练结束。

1.5.4 网络测试

在测试过程中，舍弃了孪生架构和对比损失函数，使用孪生LSTM网络中的一条分支（即微调的VGG16模型和LSTM子网络部分）作为特征提取器，提取参考集合和查询集合中步态序列的外观和周期性运动特征。在联合步态序列的外观和周期性运动特征时，先对它们执行归一化操作再进行特征融合。

2 实验结果与分析

2.1 数据集和评价准则

2.1.1 数据集

使用OULP-C1V1-A步态数据集评估本文方法的性能，它是一个规模大、覆盖范围广的步态识别基准数据集，包含3836名行人对象、年龄覆盖范围为1岁到94岁。每个行人对象包括两类步态序列：参考序列和查询序列。步态序列由行人剪影图像构成，这些图像被归一化为128×88个像素。参考集合和查询集合中的行人对象分别根据观察视角分为五个子集，即55°、65°、75°、85°和所有角度。在实验中，使用参考集合进行训练，查询集合没有参与训练。

2.1.2 评价准则

由于OULP-C1V1-A步态数据集中的每个查询序列都有对应的多个交叉视角参考序列，因此采用MAP来评价所提方法的性能。MAP用于计算所有查询步态序列的识别精度，定义如下：

其中Q表示查询集，mj表示查询序列j对应的参考步态序列数量，Precision (Rjk)表示查询序列j对应参考序列k的平均识别精度（AP）。

除此之外，本文还采用累积匹配曲线（CMC）来计算Rank-1和Rank-5，分别表示所有查询正确的参考序列排名在第一和前五的百分比，它们也是广泛应用于评估步态识别性能的方法。

2.2 实验设置

为了客观评价所提方法，基于训练数据对损失函数的负训练对最小距离间隔、LSTM隐藏单元数量、LSTM层数进行了调整。首先，调整孪生架构网络中对比损失函数的负样本最小距离间隔m。当m=1时，验证性能最好；当m=0.5或m=1.5时，验证性能没有明显变化；但是当m＜0.5或m＞1.5时，验证性能明显下降。因此，后续实验评价过程中设置m为1。

其次，对LSTM隐藏单元数量进行了实验尝试，以揭示隐藏单元数量对LSTM学习能力的影响。由于数据集中行人类别数量大（3836个行人）和行人步态图像差异性小，实验中尝试使用与之匹配的LSTM隐藏单元数量进行验证，即分别使用了1024、2048、3096和5120隐藏单元数量。随着LSTM隐藏单元数量的增大，步态识别准确率也得到了持续的提升，当隐藏单元大小达到5120时，识别准确率无法获得进一步的提升。因此，后续实验评价过程中LSTM隐藏单元数量设置为5120。

最后，对LSTM层数进行了实验验证尝试，分别尝试了1、2和4层LSTM网络结构，验证结果表明1层LSTM在OULP-C1V1-A步态数据集上识别性能最好。因此，后续实验评价过程中LSTM层数设置为1。

2.3 时序加权总结性能验证与分析

实验过程中，需要将步态序列的LSTM所有时间步输出融合为单个特征向量完成步态识别，除了使用所提出的步态时序信息加权总结（WTS）融合方法之外，还使用了平均池化（Mean-pooling）和最大池化（Max-pooling）来融合LSTM所有时间步的输出。具体地说，平均池化方法认为LSTM所有时间步输出同等重要，而最大池化方法使用LSTM所有时间步输出的最大激活值作为特征向量。在OULP-C1V1-A步态数据集上，基于本文设计的孪生LSTM网络结构使用时序加权总结、平均池化、最大池化分别进行了训练和测试，对比分析了它们各自的步态识别性能。如表1和表2所示，WTS比Meanpooling和Max-pooling方法取得了更好的步态识别性能，验证结果表明WTS方法可以更好地捕捉到步态序列的周期性运动线索。

表1 不同融合方法基于MAP评价准则的识别性能比较

表2 不同融合方法基于Rank-1识别率评价准则的识别性能比较

2.4 相同视角下的步态识别性能评价分析

首先，在相同视图下评价本文方法，与GEI［1］、FDF［1］、woVTM［5］、CNN［8］、SiaNet［8］等方法的识别性能进行比较，性能对比结果如表3所示。本文方法在55°、65°、75°、85°视角下的识别性能优于其他对比方法，获得了最好的步态识别准确率。与现有传统方法（即GEI、FDF、woVTM）相比，本文方法能够捕获到步态图像的区分性外观特征和更加丰富的行人运动信息，而大多数传统方法使用GEI表示行人步态的运动信息，会导致大量有用运动信息丢失，本文方法步态识别性能获得了显著的提高。与现有基于深度学习的方法（即CNN和SiaNet）相比，本文方法通过使用孪生LSTM架构学习步态序列的显著周期性运动信息，而现有基于深度学习的方法使用GEI作为训练数据，只能捕捉到少量运动信息，本文方法获得了最好的步态识别性能。

表3 不同步态识别方法在相同视角下的Rank-1和Rank-5识别率对比结果

2.5 交叉视角下的步态识别性能评价分析

实际应用场景的步态序列经常受到摄像机拍摄视角变化的影响，因此在交叉视角下对本文方法的识别性能进行评价，与woVTM［5］、AVTM［5］、AVTM_PdVS［5］、SiaNet［8］等方法进行对比分析，性能对比结果如表4所示。前三种方法通过构建3D步态序列专门用于跨视角步态匹配，SiaNet方法使用孪生神经网络捕捉步态序列的外观特征。本文方法同时考虑步态外观的视角差异和显著周期性运动信息，获得了最好的步态识别性能。当视角差异较大时，本文方法的识别性能也会略有下降。