APP下载

基于轻量级卷积网络的步态识别研究

2023-09-24赵鑫泽代雪晶

现代计算机 2023年13期
关键词:步态卷积准确率

赵鑫泽,代雪晶

(中国刑事警察学院公安信息技术与情报学院,沈阳 110000)

0 引言

随着科学技术水平的日益更新,生物识别技术正影响着各行各业的发展。步态特征可以作为一种非接触式远距离的信息采集生物特征[1],它不受空间距离的限制,通常可以用步态特征对个体的行走姿态进行判断与识别。步态包括步频、步幅、行走速度、摆臂角度等多方面信息,且不易被模仿。步态识别技术可以应用于公安领域上,在无法及时有效获取人脸和指纹的情况下,通过远距离监控视频中的步态信息进行侦查判断,进而提高公安机关的办案效率[2],为加快各类案件的侦破奠定了基础。

目前,很多大型网络虽然性能十分优秀,但增加了网络复杂度,容易出现内存过大以及处理速度缓慢等问题,在模型大小和算法速度上可能达不到移动设备的要求。轻量级网络模型旨在维持模型精度的同时,尽可能地降低模型的参数量和计算量。例如,GoogleNet 增加了网络的宽度,引入了Inception 结构,有效降低了算法的复杂度[3];ResNet 减小了网络计算量,通过增加Bottleneck 结构,从而增加网络的深度,提升模型的精度;ShuffleNet 将分组卷积和深度可分离卷积结合起来,实现了轻量级模型的高效化[4];SqueezeNet减少了模型的参数量和计算量,还提高了算法的精度。2017年谷歌公司提出了作为轻量级网络中开山之作的Mobilenet,其核心便是深度可分离卷积块(depthwise separable convolution,DSC)。本文将从视频中获取人行走的步态特征,将提取到的有效信息应用到MobileNet 网络模型中进行步态识别。实验结果表明,深度可分离卷积在降低网络参数量和计算量的同时,识别精度也达到了较高的效果。

1 步态能量图的提取

1.1 图像预处理

预处理操作包括使用背景减除法去除行人步行时的周围环境,在通过形态学、二值化处理后,遍历步态图像的像素点,记录最高、最低、最左和最右的像素值为1的点,生成运动目标的框架并裁剪出轮廓。最后将图像序列进行归一化操作,生成128 × 128像素的人体轮廓图像。

1.2 步态特征的提取

选用步态能量图(GEI)作为步态分类特征。步态能量图是步态图像序列在一段时间内能量的集合,能够反映出行人在步行过程中的主要轮廓信息。步态能量图中一点的像素值代表着该点的能量大小,像素值越大,该点在行人步行过程中出现的次数越频繁,能量也就越大。与普通的二值化步态轮廓图像相比,步态能量图可以节省一定的储存空间和计算空间,也可以消除噪声。

1.3 步态能量图的计算

人体的步长和身高的比值是和时间呈周期性变化,据此可以划分出每个人的步态周期[5]。通常将行人的一只脚脚尖刚离地到另外一只脚脚尖离地作为一个步态周期。在完成预处理操作后,将图像序列进行归一求和,得到每个人在一个步态周期的步态能量图,如图1所示。

图1 步态能量图的计算示意

步态能量图的计算公式如式(1)所示:

其中:g(x,y,i)表示在一个周期步态序列中,第i个步态轮廓在(x,y)处的像素坐标,N是步态图像的总数目。

2 基于Mobilenet 模型的步态识别

2.1 深度可分离卷积

深度可分离卷积[6]以级联的方式将其拆分为深度卷积和逐点卷积的叠加。在第一步深度卷积操作中,把卷积核拆分为单通道模式,对输入图像的每一个通道逐步进行卷积运算。在第二步逐点卷积操作中,执行1 × 1 卷积,图像的每个通道都会与卷积核进行卷积操作,直至和所有卷积核都运算完成。在完成上述两个卷积步骤后,得到最终的卷积计算结果。深度卷积和逐点卷积的具体步骤如图2和图3所示。

图2 深度卷积示意

图3 逐点卷积示意

在网络参数方面,深度可分离卷积的参数量和计算量远远小于传统的标准卷积。假设输入张量的深度为Cin,输出张量的深度为Cout,深度卷积的卷积核尺寸为h·ω·Cin,逐点卷积的卷积核尺寸为1·1·Cin·Cout,经过DW·DH次乘加运算,得到深度可分离卷积的参数量为h·ω·Cin+Cin·Cout,计算量为h·ω·Cin·DW·DH+Cin·Cout·DW·DH。标准卷积和深度可分离卷积的参数量对比见表1。

表1 卷积算法的参数量对比

通过表1可知,与大型网络相比,相同条件下使用深度可分离卷积可以显著减少网络模型的参数量,在移动端或嵌入式设备上有着一定的优势。因此,选择深度可分离卷积模型来设计网络具有可行性。

2.2 MobilenetV1

MobilenetV1 是一个基于深度可分离卷积的轻量级网络模型。其核心在于放弃了传统的3 × 3卷积方式,使用深度可分离卷积代替传统卷积,并使得参数量和计算量极大减少。MobilenetV1拥有两个超参数,即宽度系数α和分辨率系数β,分别用于限定特征图的通道数和分辨率大小。使用ReLU6激活函数来代替原始的ReLU 激活函数,将ReLU 的最大输出限制在6 以下,可以限制激活值的分布范围。

Resnet50网络[7]也是卷积网络中的一种,由49 个卷积层和1 个全连接层组成,属于较大的网络模型。在输入相同数据集的情况下,MobilenetV1 模型的参数量比Resnet50 模型的参数量大大减少,不同模型的参数量如图4所示。

图4 模型参数量

2.3 网络模型训练

图像经过预处理后,将其转换为224 × 224的单通道步态能量图,并输送到网络进行训练。对于MobilenetV1 模型中的参数,选择宽度系数α为0.25,最大学习率为0.01,学习率下降方式为cos,损失函数为交叉熵损失函数,训练过程中采用随机梯度下降(SGD)算法进行网络优化,进行300次迭代。整个网络结构如图5所示。

图5 网络结构

3 实验结果及分析

3.1 实验设计

实验使用Python3.8 作为开发语言,学习框架为TensorFlow2.0。实验数据采用中科院步态数据库CASIA 中的Dataset B 数据集。其中包含124个行人的11种视角信息,以及三种(nm:正常行走;bg:背包行走;cl:穿大衣行走)不同的行走姿态。通过上述方法提取步态能量图,一共可以得到124×11×10=13640 张步态能量图,每个角度下的步态能量图如图6所示。

图6 每个角度的步态能量图

对实验数据进行乱序操作,如表2所示,分出三种实验类别。将实验数据集输送到网络模型中进行学习并分类。同时为了验证模型的有效性,用相同的数据集在Resnet50 网络模型上进行实验对比。

表2 实验设计

3.2 实验结果

引入Top-1 准确率以及Recall(召回率)两个性能指标来评估实验结果的准确性。Top-1 准确率表示在测试集分类结果中概率最大的准确率。Recall表示被正确识别出来的图像占测试集的比例,计算公式为

其中:TP代表预测为正,实际为正;FN代表预测为负,实际为正。分别统计两种模型在不同测试集和验证集上的性能指标,得到三种实验结果如表3所示。

表3 实验结果

实验结果表明,在MobileneV1 网络模型中,平均Top-1 准确率为90.7%,平均召回率为89.99%。其中,实验一(nm)的识别准确率最高,明显优于实验二(bg)和实验三(cl)的准确率。对于实验二(bg),由于行人在步行过程中背包对姿态的影响较大,造成每个视角下不能很好地反映步态特征。识别准确率在一定意义上和步态特征有关,而行人的运动特征主要体现在步态能量图上,如果行人在步行中受到衣物、包裹等影响,也会导致行人的轮廓发生改变,进而影响步态能量图,使得识别准确率较低。

在对比组Resnet50 网络模型中,实验一(nm)的Top-1 准确率和召回率与MobilenetV1 网络模型的实验结果接近。实验二(bg)中,Resnet50 模型的实验指标优于MobileneV1 模型。由于在处理复杂的数据时,Resnet50 的网络结构较深,模型的精度会因此提高。实验三(cl)中,MobilenetV1 模型的Top-1 准确率和召回率均比Resnet50模型略高,结果相差不大。

通过上述比较实验结果可知,两种模型在处理不同数据集时各有优势,但MobilenetV1 网络模型能够减少参数量,同时也能满足精度要求,适合在移动端进行部署。

4 结语

针对深层卷积神经网络模型参数量大、不便于部署在移动端的问题,本文将轻量级卷积网络应用在步态识别中进行分类。采用步态能量图作为分类特征,有效地表现了步态的速度、形态等特征,节省资源空间,减少计算量。使用MobilenetV1 网络对样本数据进行特征提取,进一步压缩模型的参数量和计算量,减少模型对显卡、内存等资源的占用。实验结果表明,本文方法在保证识别准确率的前提下,能够降低复杂程度,压缩模型大小,有效提升移动端步态识别的性能。下一步可以尝试扩大数据集,融合更多类型的步态进行分类识别,对具有穿戴复杂衣物、携有包裹的步态以及跨状态的步态进行更深入的研究,达到更高的准确率和识别率,从而应用于公安实践当中。

猜你喜欢

步态卷积准确率
步态异常,老年人应警惕这些疾病
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
从滤波器理解卷积
基于面部和步态识别的儿童走失寻回系统
高速公路车牌识别标识站准确率验证法
基于Kinect的学步期幼儿自然步态提取
基于傅里叶域卷积表示的目标跟踪算法