负重环境下基于足底压力和CNN-LSTM 网络的性别识别方法研究

2023-12-09姚井睿杜明坤王茜仪

机电产品开发与创新 2023年6期

姚井睿，杜明坤，王茜仪

（江苏警官学院，江苏南京 210031）

0 引言

步态识别是一种新兴的生物特征识别技术，能通过人们走路的姿态对个人身份信息进行识别。该技术具有独特的优势和应用前景，在辅助打击违法犯罪、大型安保等诸多方面都可以为公安实战带来革命性方案[1]。

基于足底压力压力的足迹检验是公安领域中足迹检验的重要研究方向。传统的刑事技术对足迹检验依赖个人经验，用以支撑的理论知识不足，在司法鉴定领域中仍有争议，寻找科学理论来支撑足迹鉴定成了当下有必要的研究。现计算机视觉和模式识别在飞速发展，足底压力的采集已实现自动化，运用技术可提高特征提取效率，提取足迹图像深层信息，从而更高效、更准确地识别。通过自动化采集足底压力分布来识别行为人的身份信息比如今依赖人工的分析更具客观性。目前深度学习技术也在飞速发展，基于足底压力信息进行机械学习，已然可以研究出能实现 “行走人行走→足底压力信息→个人特点和行走状态” 这种可以对足底压力信息进行更深一层挖掘的自动化分析方法。

姬瑞军，王明月等[2]利用支持向量机的方法对足底压力峰值进行性别分类，正确率为93.3%、测试集为80%。周丙涛等[3]采用带有8 个压力传感器的鞋垫收集压力数据，以卷积神经网络CNN 为分类器，研究引入步态分割和多步态周期特这两个征对提高精度的效果。目前将足底压力数据转为图像再利用CNN 网络进行特征分类是主流研究方法，但该方法仅能较好地提取静态信息，未较好地利用时间上的动态信息。另外，目前对性别上的分类正确率仍有提升空间。所以本文提出将卷积神经网络（Convolution Neural Networks，CNN）与长短期记忆网络（Long Short Term Memorynetworks，LSTM）结合，综合利用CNN网络提取静态信息的能力及LSTM 网络提取动态信息的能力。该方法是对目前改进CNN 网络方法缺乏时间信息的融入及提高性别识别正确率的有效探索，有较大的研究和发展空间。

此外，在刑事案件里，常出现嫌疑人负重行走的情况，包括嫌疑人携带作案工具、携带赃物逃跑等。甚至惯犯会刻意在现场留下伪装足迹以迷惑侦查人员。不同的负重方式及负重重量都会对足底压力产生一定的影响[4]。因此，本课题研究多种负重环境下的足底压力，依此减少自动化性别分类系统负重方面的干扰。

1 基于CNN-LSTM 网络的性别识别方法负重

传统的机器学习方法在步态识别领域中有许多的不足，比如说，KNN 的计算量偏大，SVM 算法处理较大样本量的训练样本较难。而作为主流方法卷积神经网络CNN虽然在图像数据的上具有极大的优势，但泛化能力、鲁棒性、面对微调或存在噪点的图像时的结果稳定性等方面都存在问题，而且不擅长处理包含时间序列的数据。而足底压力采集系统有一个特殊的地方，就是它采集的是一个动态的过程，适合抽象成一段灰度图像视频进行分析。鉴于CNN 模型处理的学习对象大多是静态图像而不是图像序列，我们可以引入借鉴长短期记忆网络，重点参考LSTM 关于时间信息的处理。

1.1 利用VGG-19 网络将视频帧转换为特征向量

卷积神经网络[5]是深度学习中的一类代表性算法，这种算法在静态图像识别领域已获得较大成功，比如在MNIST 等大规模视觉识别挑战等数据集上的认识能力已逼近甚至超过了人类，比人工设计提取特征的能力要强。

卷积神经网络将输入的图像卷积后得到特征映射图，将特征图中的像素求和加权后通过激活函数得到下一层的特征图。反复操作后将所得特征映射图展开成一维向量，输入全连接层中得到输出。卷积神经网络卷积和池化的随机组合赋予了CNN 很大灵活性，因此也诞生了很多训练好的经典网络：AlexNet，VGGNet，Google Inception Net 等。在卷积网络中不断叠加卷积层及池化层，再对网络进行优化，改进卷积核，最终搭建了16 层的VGG-16 网络模型和19 层的VGG-19 网络模型。VGG-19网络结构中包括5 组16 层卷积层，每组卷积后都会进行最大池化，再经过3 层全连接层，最后经过softmax 输出结果。其中激活层并不算入VGG-19 层中层。其基本结构如图1 所示。基于已有足底压力图像及其特征对人身个体信息预测的实验，本文采用的是VGG-19 网络，VGG-19 网络模型比之前的浅层卷积神经网络模型准确率高、模型优化效果更好、适应性更强[6]。

图1 VGG-19 网络结构图

本文把足底压力信息图像化，借鉴VGG-19 网络网络模型，进行参数调节后，使数据经历过5 次卷积后，提取到的特征，再经过池化和全连接层，最后从全连接层“fc7”导出提取出的视频特征向量。

1.2 LSTM 预测足底压力视频性别标签网络

长短时记忆神经网络LSTM 是时间递归神经网络中的一种，这种网络适用于处理和预测时间序列中间隔和延迟比较长的事件。它通过记忆单元的设计，再循环网络的基础上引入时间概念，添加了网络通过门控机制来控制信息的遗忘门、输入门和输出门。遗忘门即对上一个节点传进来的输入进行选择性忘记；输出门，即有选择性地进行“记忆”；将上面两步得到的结果相加，即可得到传输给下一个状态，即输出，用于决定哪些将会被作为当前状态的输出，这一阶段还对上一阶段得出的结果进行了放缩（通过一个tanh 激活函数进行变化）。

因为LSTM 模型具有选择性记忆的能力，能更好的依赖更长距离的时序，在动作分类方面优势更大，因此非常适合基于足底压力传感器采集生成的图像序列。通过LSTM 网络，可以对行走过程中重要压力采集时段进行足迹压力动态分析。对于本实验，可以极大拓宽了采集的可行性与实用。

1.3 构建CNN-LSTM 网络模型

本文通过matlab 将预训练图像分类模型VGG-19 和LSTM 网络相结合来创建视频分类网络。使用预训练网络VGG-19 将视频转换为特征向量序列，以从每帧中提取特征，再基于序列训练LSTM 网络来预测足底压力视频性别标签，然后通过合并来自两个网络的层，最后组合成一个直接对足底压力视频进行性别分类的网络，如图2所示。

图2 CNN－LSTM 足底压力视频分类网络架构

首先创建VGG-19 网络的层次图。删除用于激活的输入层和池化层后面的层 “input”“relu7”“drop7”“fc8”“prob”“output”。再添加序列输入层将图像序列输入到网络。其次，因要将卷积运算独立地应用于视频的每帧，所以每个卷积层后都添加序列折叠层。因为要还原序列结构体并将输出重构为向量序列，所以再次连接一个序列展开层和扁平化层，随后添加一个LSTM 层以用于分类。之后添加一个由2 个全连接层组成的分类网络逐帧预测。在这之后引入softmax 层，用于第c 类这类输入视频序列的后验概率计算。

2 实验及结果分析

2.1 实验场地和设备

江苏警官学院实验楼301 室，本项目所用footscan 足底压力采集系统，尺寸为38×200cm，采样频率可达125～300Hz。本实验使用的采集系统采样频率为126.01hz。

2.2 实验研究对象

选取年龄为18～22 岁的50 名在读公安院校大学生，无任何身体疾病及行走疾病，包含35 名男性及15 名女性。

2.3 样本收集

每次采集前记录被采集者的性别、年龄、身高、体重及鞋码。以正常无负重5 趟、左侧单侧负重2.5kg3 趟、右侧单侧负重2.5kg3 趟、左侧单侧负重5kg3 趟、右侧单侧负重5kg3 趟、双侧各负重2.5kg3 趟，5 种负重方式共进行20 次实验，50 人共1000 份样本。受试者双足脱鞋，采集前先让被实验者以正常行走方式熟悉适应测力板，保证采集过程的客观性，排除人为心理因素干扰。得到系统提取的Dynamic Roll off 类型数据，该数据以Excel 表格形式记录连续的帧序列，为受试者由第一次落足在测力板上时的压力数据到最后一次起足离开测力板时各足与压力板接触区域的压力数值变化。

2.4 数据处理

使用通过MATLAB 将数据逐帧提取，进行归一化到0～255 区间，再将数据集转换为灰度图像图像，后逐帧合成为视频，最后将视频数据调整其大小以匹配VGG-19网络的输入大小，即每帧大小为244×244×3。

2.5 实验结果及分析

本实验将实验样本进打乱，再将其中90%作为训练集，10%作为测试集，导入之前设计好足底压力视频性别分类模型内。LSTM 模型中的参数设置为LSTM 隐含层数量（numHiddenUnits）为2000 层，丢弃率为50%，最小批量处理尺寸（miniBatchSize）为21，每轮迭代次数为31 次，迭代轮数为50 轮学习率0.00013。单GPU 处理耗时14 分2秒。

训练CNN-LSTM 组合网络模型的验证准确率为98.31%，男性女性都高于90%，在测试集上识别准确率为89.78%。参数选择结果见图3，混淆矩阵见图4。优于训练集正确率为93.3%、测试集为80%的利用支持向量机对足底压力峰值进行性别分类的分类系统[8]。在测试集中，识别失败多集中在个人身上，因负重干扰而导致的性别分类失败个数较少，表明该网络可以克服负重对性别识别上的干扰。

图3 参数选择结果图

图4 用混淆矩阵表示性别分类的结果

3 结束语

本文通过footscan 足底压力自动化采集系统对20岁左右的35 名男大学生和15 名女大学生采集了不同负重环境下足底压力数据，使用MATLAB 对2 米板内各足与板接触时变化的足底压力数据进行数据处理成足底压力视频，并用MATLAB 搭建CNN-LSTM 神经网络视频分类模型对性别进行分类，验证准确率为98.31%，在测试集上识别准确率为89.78%。该CNN-LSTM 视频分类网络为足迹所反映的步态特征分析性别提供了实验依据，一定程度上也论证了利用犯罪嫌疑人足迹所反映的步态特征分析性别具是科学有效的，且具有克服了负重情况干扰的优势。但实验样本数有待提高，男女样本数有待均衡，样本年龄范围有待扩大。未来的研究重点在改进的特征提取的效率等进一步优化模型来得到更好结果的步态识别模型，并与将三维立体足迹转为二维压力数据的技术结合，提高立体足迹利用率，使之更好的应用于公安实战。