APP下载

基于改进的DCNN人体行为识别*

2021-10-15袁国良

传感器与微系统 2021年10期
关键词:池化角速度识别率

周 鹏,袁国良,张 颖,孙 莉

(上海海事大学 信息工程学院,上海 201306)

0 引 言

在人体行为识别领域,便携式可穿戴传感器可以精确地获取人体运动过程中的加速度、角速度、姿态角等信息,而且克服了给用户带来的隐私问题[1,2],能够实现对不同人体行为的识别。因此,基于可穿戴传感器的人体行为识别研究在人机交互、虚拟现实、运动和医疗保健等工作和生活领域中极具前景。作为人体行为识别的模型,需要有很好的识别效果和鲁棒性,已提出的识别模型有隐马尔可夫模型(hidden Markov model,HMM)[3]、支持向量机(support vector machine,SVM)[4]、贝叶斯[5]等传统识别模型。但用卷积神经网络(convolutional neural network,CNN)模型对日常行为进行识别的却不多。文献[6]使用长短期记忆网络(long short term memory,LSTM)提取特征,在WISDM实验数据集上进行人体行为识别,最终识别率达到92.1 %;文献[7]用CNN自动地提取特征用于LSTM的输入,识别率达到99.4 %;文献[8]提出的深度卷积网络(deep convolutional neural network,DCNN)层数不够深,且没有将加速度和角速度进行信号融合,最终的识别率达到91.2 %。在日常活动中,跌倒行为的识别相对较困难,容易与躺下、跳跃等非跌倒行为混淆。文献[9]表明在发生跌倒行为时,身体俯仰角会发生明显的变化。受此启发,可以考虑将其作为补偿信息,与加速度和角速度信息进行融合,提高行为识别率。

传统上,DCNN常用于对复杂图像进行检测和识别,该模型能够实现不同通道信息的深度融合,且省去了繁琐的特征提取过程。因此,本文提出一种改进的DCNN,即融合DCNN(fusion DCNN,F-DCNN),将其应用于人体行为识别领域。

1 行为图片构建

1.1 数据集

UCI机器学习知识库提供的人体行为识别数据集Simulated Falls and Daily Living Activities Dataset[10],通过分布在身体上的6个部位(头部、胸部、腰部、右手腕、右大腿、右脚踝)的传感器,以50 Hz的采样频率采集不同动作的加速度、角速度和姿态角数据,采集过程由30名年龄在19~48岁的志愿者完成。考虑到放置在腰部的传感器所采集的数据变化微小,故选用腰部传感器数据作为此次实验的数据集。由于采集的加速度数据包含重力,为排除重力因素对实验的干扰,需使用低通滤波器分离身体加速度和重力。

对数据进行初步处理过后,需要计算合加速度、合角速度,方便后续生成行为图片。

1)三轴加速度计的合加速度Aas

(1)

式中Aas为三轴合成加速度;Ax,Ay,Az分别为x,y,z轴的加速度。

2)三轴陀螺仪的合角速度Gr

(2)

式中Gr反映人体活动时采集端旋转的强烈程度,Gx,Gy,Gz分别为三个轴的角速度。

对于姿态角数据,其俯仰角反映的是人体运动过程中水平方向上的角度变化情况,以X轴为人体右手方向,Z轴垂直向上,Y轴为人体前进方向,则俯仰角(pitch)为

(3)

当俯仰角发生剧烈变化时,说明人体在水平方向上发生跌倒,将其作为补偿信息与加速度、角速度进行融合。

1.2 数据分帧

为产生适合模型输入的行为图片,在这里首先需要对数据进行分帧处理。对图1所示的行为曲线进行分析可知,大部分日常行为具有周期性和连续性的特点,不同行为类别在单个周期内就能很好地区分。

图1 数据分帧

设某段周期序列的采样点数为L,对周期序列进行分帧,得到分帧Xiw(t),w为帧序号,w={1,2,…,W},t为每帧信号内的时间序号。令每帧信号的帧长度l,则t={0,1,…,l-1}。假设每帧信号之间的重叠采样点数为S,则

W=(L-l)/(l-S)+1

(4)

所以,每帧信号Xiw(t)可由式(5)计算

Xiw(t)={Xi(a(w-1)+0),Xi(a(w-1)+1),…,

Xi(a(w-1)+l-1)}

(5)

式中a=l-S。

因为不同的帧长l会对识别准确率造成影响,为确定合适的l值,需要进行对比实验,得到l与准确率的关系如图2所示。

图2 不同l对准确率的影响

从图2可以看出,当采样点数在275(约5 s)左右,准确率可以达到97 %左右,从数据处理难度和耗时角度综合考虑,确定l=256。

1.3 行为图片

经过处理得到的每一帧序列在时间上和空间上有着很强的关联性,已提出的有频率图方法和直方图方法可以将时间序列转换成图片。但这两种方法在处理生成图片的过程中非常耗时,考虑到本文使用的数据集较大,因此提出一种更为快速的行为图片生成方法。

图3中,该过程主要分为三步:

图3 行为图片生成过程

1)切片:设经过分帧处理得到的三段帧长为l的时间序列为Xi,Yi,Zi(合加速度、合角速度、俯仰角),同时对这三段时间序列进行切片,切片的长度为N,以Xi序列为例,经切片后可以得到M个长度为N的切片,即l=M×N。

2)组合:如图3所示,M个切片按{Xi1,Yi1,Zi1},{Xi2,Yi2,Zi2},…,{Xij,Yij,Zij},(j={1,2,…,M})的顺序纵向排列,则三种信号可以构成大小为3M×N的时间序列矩阵,矩阵的每一个元素可以用s(k,i),(k=1,2,3;i=1,2,…,M×N)来表示。

3)映射编码:通过式(6)将步骤(2)得到的时间序列矩阵转换成行为图片

(6)

其中,S(k,i)=s(k,i)×s(k,i),

经式(6)处理后,得到像素取值范围在[0,255]之间的行为图片F(m,n),其大小为768×256,以满足模型对输入数据的要求。

2 F-DCNN模型

2.1 模型结构

本文提出的模型包括输入层(1层)、信号融合单元(3个卷积层)、卷积层(9层)、池化层(2层)和全连接层(1层),其结构和参数如图4所示。

图4 F-DCNN模型

2.2 信号融合单元

输入数据是经过预处理的单通道图像,大小为768×256,经转置后,尺寸变为256×768作为模型的输入。首先,尺寸1×1,深度为30的卷积核与输入图像进行卷积运算。由于卷积核尺寸为1×1,因此原输入的长和宽均不会改变,但经过卷积后,图像的深度变成30,实现对原输入的升维。利用后接的非线性激活函数RELU6,在保持特征图尺寸不变的情况下,大幅增加其非线性特性。然后,为方便后续的处理,卷积核尺寸设置为1×3,这一步将生成256×256的特征图,其后1×1,深度为8的卷积核对输入进行降维,原特征图的深度由30变成8,这样使得不同通道间信息实现线性组合变化,同时大大降低参数的数目,减少计算量。经过信号融合单元后,三种信号可实现深度融合。

2.3 卷积层

将行为图片用X′i(H×K),(H=256,k=768)表示,卷积核Xs(w×h)从输入的左上角开始,以步长s,从左到右,从上到下进行卷积

fs=σ(W(1)Xs+b(1))

(7)

式中σ为RELU型函数,W(1)和b(1)分别为显层单元和隐含层单元之间的权重和偏置,经过卷积运算得到的特征图尺寸为

S(fs)=k×[((H+2×padding-w)/s)+1]×

[((K+2×padding-h)/s)+1]

(8)

式中k为卷积核的个数,padding为边缘扩展参数,这里取默认值0,步长s设置为2,得到的各层输出大小如图4所示。

2.4 池化层

常用的池化方法有最大值池化、平均池化和随机池化,在本文中,选用最大值池化

ps=maxm×n(fs)

(9)

文中池化核尺寸均为2×2,以第二卷积层的输出为例,输入数据尺寸大小为256×256,经池化处理后,变成128×128的特征图输出至下一层;经过最后一次池化处理后,特征图大小为4×4,池化操作降低了数据维度。

3 实验结果与分析

通过构建行为图片,最终生成10 900个实验样本,每次实验随机选取70%样本作为训练集,30%作为测试集。

3.1 测试集与训练集的拟合情况

按上述比例划分训练集和测试集后,分别用单一传感器数据集(Ax,Ay,Az构成的行为图片)和二种传感器数据集(Aas,Gr,Pitch构成的行为图片)作为F-DCNN的输入,进行对比实验。

图5表明,相较于单一传感器,多信号融合方法的Train accuracy和Test accuracy曲线的拟合度更高,在迭代20次后达到最高值并趋于平稳,表现出更好的泛化能力和鲁棒性。

图5 训练集和测试集拟合情况

3.2 10折交叉验证测试集精度

表1中,经过10次交叉验证,多信号融合方法对6种行为的识别准确率均高于单一传感器,单一传感器的跌倒识别准确率只有80.15 %,而融合了角速度、俯仰角(pitch)信号之后,其识别准确率达到了96.33 %,表明在加入信号融合单元后,模型对于识别跌倒行为可以表现更好。

表1 各种行为识别结果的对比 %

3.3 各种识别模型实验结果对比

传统模型,如SVM,HMM分类模型需要提取加速度的时域和频域特征,将特征作为模型输入进行训练,得到模型参数,然后用于识别不同的人体行为。现将不同帧长的短时行为数据代替传统的时域和频域特征,在同样条件下,比较F-DCNN和传统模型的识别率。

图6表明,F-DCNN模型的识别率最高在90 %以上,HMM的最高识别率89 %左右,而SVM却只有84 %左右的识别率,两种模型的识别率均低于F-DCNN;此外,F-DCNN显示出更好的非线性特征提取能力,其自身可以自动提取行为数据中的空间和时间特征,使得提取的特征更为精确;相较于SVM和HMM模型,在以不同的帧长作为输入时,其精度和稳定性仍表现较好。总体来说,本文所提出的模型,其性能优于SVM和HMM识别模型。

图6 F-DCNN和传统模型的比较

为进一步分析F-DCNN在提高识别率上的作用,将其与已提出的卷积神经网络(CNN)[8]、协同 LSTM[11]神经网络模型进行比较。表2中,当三种模型仅使用加速度数据集作为输入时,随着帧长的增加,各模型的识别率均显著增加,CNN,协同LSTM 模型的识别率在帧长为512时,分别为85.88 %和93.65 %,但F-DCNN模型的识别率达到96.51 %,优于这两种模型的识别效果。另外,当F-DCNN模型融合了角速度、俯仰角信号后,其最高识别率达到97.78 %,比仅使用加速度数据集的识别率高,说明该模型能够有效融合不同信号,提高行为识别率。

表2 不同卷积模型结果比较

4 结束语

本文提出一种F-DCNN模型,针对6种日常行为进行实验。实验结果表明:其信号融合单元可有效提高识别率;与传统模型相比,该方法具有更高的识别率,且省去了人为提取特征的过程,可操作性更好;另外,与新近提出的CNN、协同 LSTM神经网络模型相比,F-DCNN也显示出更高的识别率。在以后的工作中,可以增加行为的种类,在网络结构的选取构造上,力求实现更高的识别率和更好的鲁棒性,以及使用更多的信号进行融合将是努力方向。

猜你喜欢

池化角速度识别率
基于Sobel算子的池化算法设计
卷积神经网络中的自适应加权池化
设施蔬菜病害识别中的CNN池化选择
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
基于卷积神经网络和池化算法的表情识别研究
提升高速公路MTC二次抓拍车牌识别率方案研究
圆周运动角速度测量方法赏析
高速公路机电日常维护中车牌识别率分析系统的应用
半捷联雷达导引头视线角速度提取