步态识别技术综述

2022-12-09段成阁刘康康李福全

中国人民公安大学学报（自然科学版） 2022年4期

段成阁, 刘康康, 李福全

(1.苏州市公安局工业园区分局,江苏苏州 215000;2.安徽省公安教育研究院,安徽合肥 230031)

0 引言

步态识别技术利用行走姿态进行个人身份识别,与指纹、人脸、虹膜等生物特征识别技术相比,具有非接触性、非侵犯性、易于感知、难于隐藏和伪装等优势[1],特别是在远距离进行身份识别时,步态识别是目前唯一可行的技术。近年来,我国公安机关逐步将步态识别技术应用于实际工作,随着视频监控的普及,步态识别技术在嫌疑人追踪和比对等方面发挥着重要的作用。作为个体动力定型特征,步态受到多种因素影响,如人的肌肉力量、骨骼大小、协调能力等都会对行走姿态产生不同程度的影响,在上述因素作用下,每个人表现出来的行走姿态是不同的,这是步态识别的科学基础。

步态识别主要包括步态分割、特征提取、步态比对3项关键技术。步态识别的主要数据来源为监控视频,通过特定的算法将行人与背景图像分割后获取人的轮廓是视频数据处理的第一项关键技术,其次提取目标人物的特征信息,最后是与样本数据进行比对,根据相似度输出比对结果。在深度学习技术快速发展和应用之前,步态识别中最为重要的是特征确定和分类器的选取,优化特征选取和确定合适的分类器,能够使比对结果更加精确。随着深度学习技术的发展,出现了一类基于生成模型的无监督特征提取方法,这类方法利用数据的降维、生成和重构等方法实现特征的学习和压缩,并且不依赖于特征工程,更适合处理大量无标签的监控视频。

1 步态分割

视频中不仅有人的运动信息,还有背景信息及其他干扰因素,步态识别的首要环节就是步态分割,将运动的人从背景和干扰信息中剥离出来,为后面特征提取和比对奠定基础。针对不同的视频场景和人的行走姿态,选取合适的步态分割方法有助于工作开展。目前常用的步态分割方法有帧间差分法[2]、背景减除法[3]、光流法[4]等。实践中,为获得较高的图像分割效果,研究人员经常将几种分割方法融合使用[5-6]。

1.1 帧间差分法

帧间差分法是通过视频中前后2帧图像或多帧图像进行差分,获取目标轮廓信息的一种方法,这种方法能够在存在多个运动目标的视频中获取较好效果。王智文等人[7]提出关联帧差分法用于运动目标检测,算法计算出相邻图像颜色特征的巴氏距离,进而计算出相邻的3帧图像相似度,当相似度超过设定的阈值条件时,计算出该相邻帧图像的差分图像,在对改差分图像进行操作后,进行轮廓填充进而获取目标。Zheng等人[2]采用改进的三帧差分算法,选取间隔为一帧的3帧图像序列进行两两差分计算,使用逻辑“OR”操作用于实现快速运动检测,并修正了传统帧差法造成的空洞和中断,使运动检测的大小和轮廓更加准确。最后,对三帧差分法提取的图像进行逻辑求和,得到最终结果。文献[8]将四帧间差分法与光流法结合对目标进行检测追踪,在复杂环境的多个目标中能够进行快速的追踪检测。唐云祁等人[9]提出一种基于步态时空特征的帧差运算方法,将步态运动的空间和时间信息同时表达出来,进而反映出步态运行周期内各种状态,在此基础上还提出一种连续轮廓差异图(CSD-maps)的步态检测新方法,可以从单个二维视觉摄像机采集到的不同视角下的视频数据中准确地检测出步态事件,大大有利于步态识别和步态分析[10]。

1.2 背景减除法

背景减除法的工作原理是建立起背景模型,通过将视频中待检图像与背景图像做减法运算,在室内等背景静止场景中,分割效果较好。背景减除法的核心工作是背景模型的构建。在静止背景情况下,背景建模较为简单,但面对变化背景时,需要不断更新背景建模。目前,较为常用的背景建模方法有单高斯模型、混合高斯模型、码本模型、W4模型、均值滤波模型、隐马尔可夫模型等[11-12,3]。近年来,深度学习技术基于其强大的数据表征能力,在背景减除中的应用也逐渐增多,Avola等人[13]提出了一种基于自组织神经网络(Self-Organized Neural Network,SONN)的关键点聚类和神经背景减除相结合的方法,用于PTZ摄像机获取的视频序列中运动目标的实时检测。文献[14]采用局部强化层恢复基于卷积神经网络的背景减除算法中丢失原图的细节,同时,文章提出一种新颖的端对端的多尺度时空传播网络(STPNet)的背景减除算法,有效提高了检测效果。祝轩[15]等建立了基于时间连续性约束的背景更新模型,在消除阴影和噪声影响方面有积极影响。

1.3 光流法

光流法目标检测最早是由Horn和Schunck在1981提出的[16],该方法是将视频图像中的各个像素点速度矢量求出来,形成图像的运动场。视频中的运动目标的光流矢量会使其与背景产生差异,进而反映出运动物体的位置。基于光流和Gabor特征的目标跟踪识别的算法在某些场景下也有一定的优势[4]。这种方法根据光流分布特征计算流场,进行目标运动检测,使用基于期望最大化的有效高斯混合模型(EMEGMM)算法进行背景减法得到前景像素,估计了完整的运动形状和Gabor特征,并利用Adaboost分类器对提取的特征进行分类,有效地处理感兴趣区域,然后利用前一帧建立的对象模型定位每一帧内的目标区域,实现基于轮廓的目标跟踪。吴进[17]等人设计了一种区域卷积网络和光流法相结合的目标跟踪算法,在T-1帧跟踪结果的基础上使用光流法计算跟踪目标的运动矢量,计算出跟踪目标在T帧上的初选框,再将初选框区域作为区域卷积网络的输入,计算目标的精确跟踪结果,提高了在线目标跟踪算法的速度。

2 特征提取

步态特征提取,即步态表征,利用某种算法将视频图像中检测到的步态或数据库中存储的步态进行表示,通过建立的模型,进行步态识别比对。步态特征提取可以分为3种类型,分别是基于非结构表征、基于结构表征和融合表征。

2.1 非结构表征

基于非结构表征的步态特征提取,也可称为基于形状信息的表征方法,它主要是通过对视频图像中人体的边缘轮廓信息、形状、面积等因素构建出各种时空模型。基于人体轮廓信息的特征表示是非结构表征中较为常用的方法。王燕[18]针对运动中的人衣着不同导致的步态识别不准确的问题,提出了一种基于轮廓特征的步态识别算法。这种方法以步态轮廓线作为基础,提出了一种分割加权策略,以穿过人体质心的水平和垂直线及以膝盖为基准的水平线,将人体轮廓分为6个区域,对每个区域进行价值评估、加权处理,构造特征向量后组成特征矩阵,表示步态特征。将步态轮廊线构造成特征向量,组成特征矩阵的方式表示步态特征的算法。罗坚等人[19]提出了一种基于深度摄像机的3D步态建模和识别方法,利用深度摄像机采集步态点云数据,进一步构建出步态点云轮廓和三维参数人体轮廓之间的映射函数,实现了对人体步态的结构化表示。在连续运动的步态识别中,为降低噪声干扰,获取更加丰富的信息,还出现了步态能量图(gait energy image,GEI)[20-21]、步态历史图(gait history image,GHI)[22]等方法。

2.2 结构表征

基于结构表征的步态特征提取,主要是指利用动力学等相关特性,对人体进行模型构建,通过建立起二维或三维人体运动结构模型进行步态识别比对的方法。李言等人[23]提出的基于对抗学习网络框架的人体运动姿势估计,能够获取高质量三维运动姿态,减少环境对特征提取的影响。韩丹[24]提出改进ZS细化算法提取人体骨架,进而对多视角下步态进行分析识别。张学志[25]针对人体异常步态,提出了一种针对下肢运动异常表现的钟摆模型,定量研究了异常步态的时间、空间和时空参数估计。

2.3 融合表征

为提高步态识别精准度,科研人员探索出融合表征的特征提取方法,尤其是融合其他生物特征进行的多模态生物识别近年来成为研究热点。早在2001年,Shakhnarovich等人[26]就提出了利用人脸特征和步态特征融合的识别技术,随后,人脸、指纹等方面[27-29]的应用逐渐增多。文献[30]将骨架、步态能量图和Hu矩这3种不同的步态特征在特征层进行融合,再利用SVM进行步态识别,进一步提高了步态识别准确率。邵虹等人[31]针对传统的Gabor特征提取后存在特征维数较高的缺点,提出了一种基于集成Gabor特征的步态识别方法,实验结果表明,基于集成Gabor特征的步态识别方法,能够对步态特征进行有效分离和表达,同时降低维数并紧凑表征数据,对步态信息进行正确归类。

基于多模态生物识别的融合表征方法,在提高识别可靠性上展现出较强的优越性,它的关键技术在于选择合适的融合模型和算法,降低冗余数据量。可以预测的是多模态生物识别的融合表征方法是一项极具发展潜力的研究方向,在未来会在掌纹、足迹、声纹等多方面融合,并广泛应用。

3 步态比对

步态比对主要是选定视频图像中步态特征数据和数据库中的步态数据,通过合适的分类器进行比对分析后,得出相似度结论。目前,步态识别中较为常用的分类器算法有支持向量机(SVM)、隐马尔可夫模型(HMM)、K近邻方法(KNN)、动态时间规整算法(DTW)等,也有采用多分类器进行步态识别的应用[32]。

在样本量小的案例中,基于支持向量机的算法在识别准确率和速度上有较好表现。牟丽莎等人[33]提出一种结合信息集理论和支持向量机的识别方法,利用SVM分类器对步态周期上所有帧中的步态信息图进行识别,获得较好的鲁棒性。隐马尔可夫模型是一种基于时序变换的识别算法,可以有效融合隐含在步态序列中姿态之间的联接关系,在步态动态变化过程中具有较好的识别效果,刘畅等人[34]利用的隐马尔可夫模型,有效提高了步态识别算法的可靠性。K-近邻算法的优点是分类方法简单直观,如果某样本附近的K个邻近样本(特征空间中)属于某一分类,则这个样本也属于这一分类,但此类算法的计算量较大,当样本量大时计算时间较长。Sudha等人[35]使用K近邻分类器,在待检视频图像和样本库图像比对识别中也有良好的效果。张爱军等人[36]针对室内行人导航系统中对步行姿态识别精度不高,从而会影响后续位置解算的问题,提出了可应用于室内场景的基于K-means聚类算法的行人步态识别方法。动态时间规整算法是一种非线性匹配算法,在模式识别,尤其是步态识别中经常使用,它是基于距离度量的算法,具有鲁棒性强的特点,但缺点之一是计算复杂度较高。何书芹等人[37]利用动态时间规整算法匹配分类数据,有效提高了识别的准确率。为解决DTW计算复杂的劣势,Sharabiani等人[38]提出了Blocked Dynamic Time Warping(BDTW),利用时间序列中的任何重复值(零和非零)来减少DTW的计算时间,并在AMPds等数据集上进行测试,取得较好结果。王浩等人[39]为解决人体建模中关节点准确定位的问题,提出一种基于堆叠深度卷积沙漏网络的步态识别方法,并采用基于深度卷积的沙漏网络来提取步态图上的关节点坐标,计算肘关节与膝关节的角度作为运动特征,该方法在公共CASIA-B数据集与TUM-GAID数据集上进行了验证并与其他方法进行比较,证明具有较高的识别率。陈玲等人[40]为减少步态特征参数维数,降低算法复杂度,提出了一种基于人体的质心和轮廓关键点的步态表示方法,用三帧差分法对运动目标进行检测,选取一个周期的步态特征用自动规整算法进行识别与计算,可以保证步态识别的实时性,具有较高的工程实施性。

4 深度神经网络模型在步态识别中的应用

深度学习在近年来发展十分迅速,在各个领域都有较为广泛的应用,以深度神经网络为代表的应用模型,在步态识别领域中也逐渐引起研究人员的重视,并逐渐成为主流方法。相比较传统的浅层机器学习方法,深度神经网络模型能依据更多的网络拓扑结构,挖掘出更多隐含的特征,在步态识别中意义重大。常见的深度神经网络模型主要有卷积神经网络(Convolutional Neural Networks,CNN)、递归神经网络(Recursive Neural Network,RNN)、深度信念网络(Deep Belief Network,DBN)和生成对抗网络(Generative Adversarial Networks,GAN)等。

ALOTAIBI等人[41]提出将深度卷积神经网络应用于步态识别研究中,并取得不错的识别效果。卢来等人[42]提出了改进的深度卷积神经网络的方法,利用分层处理机制,将步态数据中的步态特征提取出来,有效解决传统步态识别算法中服饰更换、视角变化等造成的识别率下降问题。何正义等人[43]将卷积神经网络和深度信念网络方法集成,提出了步态识别和模拟的新算法,用于解决多类步态难以识别和预测的难题,对步态识别的有效率有一定提升作用。Xia等人[44]提出了一种基于生成对抗网络的步态识别算法,针对步态识别过程中小面积物品遮挡情况,利用算法生成上下一致的补全图像,有效减小了噪声干扰。张红颖等人[45]针对步态识别中由于衣着与背包的遮挡造成不能提取有鉴别性的步态特征,导致识别准确率不高的问题,提出一种结合残差网络和多级分块结构的步态识别方法。朱小鹏等人[46]对基于深度学习的红外图像步态识别方法进行研究,利用卷积神经网络相关技术搭建深度学习模型,以此对红外图像中人体步态轮廓特征进行学习,对红外图像中人体步态身份做出识别。戚艳军等人[47]对行人运动过程中拍摄视角、外观变化等因素对步态识别的影响,提出一种长短时记忆网络与卷积神经网络相结合的步态识别方法。

5 步态识别技术发展趋势

步态识别作为现阶段研究热点问题,在人物刻画、身份认定、犯罪嫌疑人追踪等方面具有重要的意义。如在我国公共安防领域,以银河水滴公司为代表的步态识别人工智能企业,为智慧公安和平安城市建设提供了巨大技术支持,步态识别已成为公安机关打击违法犯罪、维护社会公共秩序的一项重要手段。未来,步态识别技术会在3D模型构建、多模态融合等方面有更加深入的研究与应用。

目前,步态识别的应用主要是基于二维图像下的特征,但当出现受遮挡情况和视角受限情况时,二维步态识别就有一定的局限性。因此,三维步态识别技术的研究及应用是未来发展的方向。一方面,能解决二维识别遮挡情况出现时的不足;另一方面,能提供所需要的深度信息和立体特征信息,大大增加识别的准确度。但需要注意的是数据量的增加会导致计算速度减缓,如何在保证三维识别效果的同时提升识别速率也是研究的重点。此外,在实际应用过程中,受到某些条件限制,步态、指纹、足迹、声纹、虹膜、人脸等单个识别特征可能不足以进行身份识别认定,基于多模态融合的特征识别在提升识别准确度和可靠性上有巨大优势,在未来一定会成为发展趋势。如何确定合适的融合规则,减少冗余数据,提升识别速度是研究的重点。