APP下载

基于深度学习的人体动作识别方法

2020-04-23沈西挺董永峰张泽伟

计算机工程与设计 2020年4期
关键词:光流识别率卷积

沈西挺,于 晟,董 瑶+,董永峰,张泽伟

(1.河北工业大学 人工智能与数据科学学院,天津 300401;2. 河北工业大学 河北省大数据计算重点实验室,天津 300401)

0 引 言

在基于计算机视觉领域的人体动作识别研究中,Kar-pathy 等[2]利用深度卷积神经网络以视频中连续的RGB视频帧为直接输入对人体动作进行识别;Shuwang Ji等[3]提出利用视频数据中时间维度信息,利用3D卷积神经网络对人体动作进行识别;Jeff 等[4]利用融合卷积层和长时递归层的长时递归卷积网络(long-term recurrent convolutional,LRCN)提出了用于人体动作识别的网络模型。

在视频数据源下的人体动作识别是将视频切分成时间帧图像,然后对随时间变化的图像进行分类,所以在图片识别领域的深度学习方法,也被应用在视频序列中人体动作识别的研究中[5]。但人体动作识别的动作识别模式具有不可预测性和多样性,所以在进行识别研究时需要结合多方面综合技术,随着实际应用中并发数据量的增多,给识别带来了一定的难度[6]。为了提高人体动作识别的识别率,本文构建一种基于卷积神经网络模型和递归神经网络模型的改进模型,并利用稠密光流函数提取视频前后帧图像的光流数据,对特定场景下视频中的人体动作进行识别。

1 相关理论

1.1 卷积神经网络(CNN)

CNN的训练过程是将处理好的数据在卷积层与采样层的作用下交替训练,即一层卷积层后接一层采样层,采样层后接一层卷积,循环反复,随着数据卷积和采样的进行,逐步提取出特征,组合形成最后的抽象的特征[7]。

卷积层:之所以使用卷积运算,是利用卷积运算可以使原信号特征增强,并且降低噪音的优点,达到特征提取的目的。每个卷积核提取出一个特征,形成多个特征图,CNN中第i层的第j个特征图中位置坐标为 (x,y) 的单元的值,如式(1)所示

(1)

式中:b为偏差量,w为与特征图相连接的卷积核中单元的值。

从岭迹图中可以看出,当k≥0.02时,岭迹曲线趋于稳定。在R中可以得到自动选择的岭回归参数为0.0237,和我们由岭迹图得出的岭参数一致。同时我们得到岭回归的参数估计值、标准误差、t值和p值如上表所示,由表可知当k值取0.0237时,各自变量的显著性与之前相比得到了明显的提高,但是X2、X6、X8的p值均大于0.05,仍然不显著,其它自变量对因变量的影响的显著性则均达到了99.9%以上。因此在这里选择剔除X2、X6、X8三个变量,重新选择岭参数进行回归分析和参数估计。

(2)利用两组不同参数的稠密光流函数calc Optical Flow Farneback[11]分别提取出图像的光流数据,如式(4)所示,然后采用下采样方法得到规模14×30×40,适用于3DCNN网络的输入数据。预处理后的数据为后续网络的训练和测试做准备

1.2 3D卷积神经网络(3DCNN)

3DCNN相比较2DCNN而言,在输入数据方面考虑了时间因素,可以看作将多个连续的帧图像组成一个立方体,然后使用三维卷积核在该立方体中进行计算,提取出多个特征图[8],第i层的第j个特征图中位置坐标为 (x,y,z) 的单元的值,如式(2)所示

由所测石墨烯的方块电阻可知,研究的石墨烯其导电性能并不理想,为了改善石墨烯的导电性能,对石墨烯进行HNO3化学掺杂(doping),以提高石墨烯的功函数.图2(b)为使用1 nm MgO介质层和不使用MgO介质层的Gr/Si电池光场J-V曲线比较,经化学掺杂后,电池的效率分别提升至8.62%和7.57%;结果表明:无论对石墨烯进行掺杂与否,使用MgO介质层都能够显著提高电池的光电转换效率.

(2)

S4层对C3层的数据做最大池化法,池化的大小为2×2×2,得到特征图规模为5×6×8。

1.3 长短期记忆神经网络(LSTM)

递归神经网络隐藏层的神经单元将处理的结果分两个方向进行传递,一个方向是直接将结果传递到输出层,另一方向是传递到下一时间点的隐藏层继续进行运算。在这种递归结构的影响下网络模型可以到达很深的深度。但是,递归神经网络只适合处理数据序列较短的数据,梯度消失(gradient vanishing)和梯度爆炸(gradient explosion)一直是其存在的两个问题。LSTM将记忆单元引入到隐藏层的神经元中间,控制时间序列上的记忆信息,有效的避免了上述问题[9,10]。LSTM隐藏层的前向公式如式(3)所示

(3)

Candes和Plan在文献[6]中讨论了高斯随机噪声和有界噪声情形下的矩阵填充问题,指出当已知元素个数p≥Cnrlog6n时,以接近1的概率,通过求解式(3)可以稳定恢复绝大多数秩不超过r的矩阵.

2 识别模型

2.1 模型结构设计

本文模型采用卷积神经网络模型、3D卷积神经网络模型和长短期记忆神经网络模型,如图1所示,主要包含4个部分:①训练2DCNN,提取单帧图像的特征信息,将图像的特征放大,然后利用view函数将输出结果按照行优先的顺序拼接,作为3DCNN的输入进行训练,进一步提取出添加了时间因素的特征信息。②利用稠密光流函数提取的图像的光流数据作为3DCNN的输入提取出特征信息。③将①和②提取的特征信息进行融合。④将融合后的特征信息作为LSTM的输入进一步提取特征信息,最后利用Softmax进行分类实现人体动作识别。

体育锻炼能高度协调人的社会性与生物性。一方面,体育锻炼改善人的生物状况和机能,奠定适应社会的生物学基础;另一方面,体育活动能弥补和纠正因生物功能或社会功能形成或产生的“ 亚健康”。参加体育运动(特别是集体运动项目),可以增加大学生与同学、老师、教练间的交流,培养自身的团队意识和竞争意识,使大学生学会正确处理人际关系,提高适应社会的能力。

图1 网络模型结构

2.2 数据预处理

在视频数据源情况下,使用深度学习进行人体动作识别,需要将视频数据转换为神经网络模型可用的格式。在数据预处理时,首先对对应动作的视频进行标记,每种动作作为一个分类,然后逐一读取数据集中的视频文件,并使用imageio方法读取出图像数据。图像重定义为合适大小,例如60像素×80像素,形成60×80的图像数据矩阵,在使用灰度图像时,每张图片视为一个通道矩阵,将图像数据分两类进行存储[14]。

3.1 LA的常规CT和MRI的评价标准 LA患者CT检查特点为:“蝴蝶”或“月晕”状的低密度改变,大多边缘模糊,病灶位于脑室周围白质以及半卵圆中心大致对称的位置。此外,在患者的两侧内囊,基底节区、丘脑以及脑干等区域还可见到多处的腔隙性梗死灶,伴有不同程度的皮质萎缩以及脑室前后角变钝,脑室扩张。

(1)将单帧图像数据以float32格式进行逐一存储,形成1×60×80的数据规模,用作CNN网络的输入数据。

池化层(降采样层):由于图像存在局部相关性的特性,利用池化层对图像进行子采样可以缩减计算量,同时还保持图像在旋转的情况下特征不改变。

(4)

以上3种类型的神经网络后都接一个Dropout层用于消除过拟合现象,当经过LSTM模型的训练之后,得到的特征信息规模为1×64,添加一个全链接层,将当前层的所有节点和前一层的所有节点进行完全连接,然后,通过使用Softmax分类器对结果中的人体动作进行分类。

2.3 特征提取及融合

本文中使用的2D卷积神经网络一共有3个隐藏层(hidden layer),如图2所示,输入的数据规模均为1×60×80,整个卷积神经网络中,卷积核的大小分别为(5×5)、(3×3)、(3×3),池化层大小均为(2×2),由于高层特征会随着抽象程度的提高而增加,所以3个隐藏层中卷积核的个数逐层增加,个数分别为16、32、64,并在卷积、池化后按第二维叠加,得到15×5×8结果,然后使用3D卷积神经网络进行特征提取,卷积核大小为2×3×3,池化层大小为1×2×2得到的结果添加全连接层,得到64×672结果。

图2 2D卷积神经网络及参数

2.3 两组围生儿结局对比 观察组围生儿的胎儿窘迫、新生儿感染、新生儿黄疸与低出生体质量儿等发生率明显高于对照组(P<0.05)。见表3。

图3 3D卷积神经网络及参数

C1层共有16个不同的卷积核,卷积核大小为3×3×3,得到特征图规模为12×28×38。

S2层对C1层的数据做最大池化法,池化的大小为1×2×2,得到特征图规模为12×14×19。

C3层继续对S2层的数据进行卷积操作,卷积核个数为32个,卷积核大小为3×3×3,得到特征图规模为10×12×17。

式中:xt表示t时刻的输入,ht-1表示截止到上一时刻的记忆,σ表示激活函数。

式中:z代表3D卷积的时间维度。

需要到医院化验大便常规,秋冬季还要化验轮状病毒。很多医院都可以挂方便门诊开化验单,只要大人带标本在一个小时内送去化验就可以了,宝宝不用去,因为那里的病菌更多,宝宝要少去为好。

C5层继续对S4层的数据进行卷积操作,卷积核个数为64个,卷积核大小为3×3×3,得到特征图规模为3×4×6。

S6层对C5层的数据做最大池化法,池化的大小为2×2×2,得到特征图规模为1×2×3。最后,添加全连接网络层,得到的变量规模为64×768。

将经过2D卷积神经网络和3D卷积神经网络之后的特征信息在第一维度上进行特征融合,得到数据规模64×128,调整数据规模为64×1×128并输入到LSTM中训练,设置LSTM中输入维度大小为128,设置隐藏层的输出维度大小为32,通过递归运算融合前一帧和当前帧的特征信息,得到最终特征提取的结果。

2.4 分类识别

在数据处理阶段提取的图像的光流数据集合flow_x和flow_y,数据规模均为14×30×40,14为连续帧图片的数量,30×40为每帧图片的大小,然后使用3D卷积神经网络进行训练,一共使用3个隐藏层,具体参数如图3所示。

3 实验结果及分析

3.1 实验环境

本文实验环境采用基于Python的深度学习框架Pytorch平台,硬件选用Core i5 3.10 GHz的CPU的服务器。

经由我院伦理委员会批准,将本院2017年1—12月接受的宫颈炎患者78例作为研究对象,并随机分为对照组与观察组,每组均39例。对照组中,年龄26~55岁,平均年龄(40.5±14.5)岁,病程1~5年,平均病程(3.0±1.01)年。观察组中,年龄25~55岁,平均年龄(40.0±15.0)岁,病程1~6年,平均病程(3.5±1.5)年;两组一般资料比较结果P>0.05,可作对比。

3.2 数据集

本文采用KTH数据集作为实验数据,该数据集录制时选用25名性别和衣着不同的实验人员,利用固定的摄像机采集600个连续动作组成600个视频,录制视频使用的帧速率为25 fps,分属4类情景:包括户外S1,户外(镜头远近尺度变化)S2,户外(不同衣着)S3,室内S4;实验人员共展示6类动作:包括拳击、拍手、挥手、散步、慢跑和奔跑。视频中每帧都是一张160像素×120像素的图像,图像背景均匀,其中部分数据如图4所示。

图4 KTH数据集

本文随机从25名实验对象中选择19名实验对象的视频作为训练数据集,其余6名实验对象的视频作为验证集,训练数据集训练过程中每次迭代都进行一次验证,10轮验证取平均值。

3.3 实验全局参数

实验中,各模型训练时的学习率(Learning rate)均设置为0.001,每次送入训练的批大小(Batch_size)为64,在各模型每次迭代时加入Dropout值为0.5,激活函数使用ReLU函数[12],见表1。

表1 实验参数

3.4 实验结果

3.4.1 单情景识别率分析

本文在实验时,将KTH数据集的各情景进行分离,分别作为输入数据进行识别分类,从表2可以看出,当处于室内时,识别率最高,当处于户外,且视频镜头是远近尺度变化时,识别率最低。

表2 各情景识别率对比/%

3.4.2 单动作识别率分析

表3为本文方法和其它文献方法在KTH数据集中,单动作分类的识别率对比情况,从表中可以看出,本文方法在各动作取得的识别率相对稳定且均处于较高水平。

表3 各动作识别率对比

3.4.3 总识别率分析

图5显示了本文方法在KTH数据集4种情景和6个动作混合情况下的平均识别率,横坐标(epoch)代表迭代次数,纵坐标(acc)代表识别率,可以看出,识别率在100代之内有个快速的增长,之后开始缓慢增长,当达到1300代左右时识别率达到峰值,然后一直在93%左右稳定波动。

4.3.3 人才技术不足。首先在高校之中,无论是学生还是年轻教师,或者是资深教授,此类的人才资源可谓是非常充足的,但是大多数专家教授都有其擅长的领域,而学生人才也需要一定的锻炼和指导,就在这样的情况下,对创业实践活动来说,人才资源相比较来说就比较少,而缺少了具有专门性、针对性的高尖专家和人才,关于创业实践活动的研究便会有所艰难。关于创业基地等硬件条件充足的情况下,专门性的人才相对缺少,而在缺乏在这一方面所必须的专业技术和技能,很多的创业实践活动过程中所面临的难题便会需要更多的尝试才能有所收获,而在这样的情况下,创业体系的建设将会发展缓慢。

图5 本文模型识别率

本文的融合模型算法与其它文献中动作识别方法在类似数据集上进行比较,见表4。从表4中可以发现,本文提出的融合模型的人体动作识别算法优于其它算法,识别效果更好。

表4 识别率对比/%

4 结束语

本文提出了一种针对视频中人体动作识别的改进网络模型,该模型首先利用了稠密光流函数提取出视频图像的光流数据,然后对基于深度学习的神经网络模型进行改进,在KTH数据集上的测试结果表明:本文模型有更好的识别效果,识别率优于其它模型。

这下可好了,总算来了个说人话的!我连忙起身道歉,坐到另外那张床上。这女人反身关上门,坐在我对面床上,摸过洋烟,点起一支叼在嘴上。她又把烟盒递向我,我摇摇头,她顺手一丢,就把烟盒丢到床头柜上。我抬眼打量她,见她正放肆地盯着我,眼都不眨一下!她缓缓吐出一串烟雾,还是盯着我,突然哈哈大笑起来,“这东洋人还真是他娘的馋,连老妈子也稀罕!”

本文在对各情景识别率对比时,发现不同情景下总识别率有一定差别,且在户外远近尺度变化情境下识别率较低,预测是由于镜头远近变化影响了特征提取时信息的连续性。未来,会针对此问题进一步进行实验研究。

猜你喜欢

光流识别率卷积
利用掩膜和单应矩阵提高LK光流追踪效果
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于类图像处理与向量化的大数据脚本攻击智能检测
卷积神经网络的分析与设计
从滤波器理解卷积
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
基于傅里叶域卷积表示的目标跟踪算法
高速公路机电日常维护中车牌识别率分析系统的应用
一种改进的基于全局最小能量泛函光流算法