APP下载

基于MHI的三重运动表现人体动作图像识别方法

2020-10-26龚俊杰山下阳太郎TANJooKooi

关键词:光流深度人体

曹 静, 龚俊杰*, 山下阳太郎, TAN Joo Kooi

(1. 扬州大学机械工程学院, 江苏 扬州 225127; 2. 九州工业大学, 日本 北九州 804-8550)

近年来, 随着中国人口老龄化趋势日益加剧,我国关于老年人的监护研究及老龄产业的运行机制完善成为民生热点问题, 故老年人的健康智能监护系统开发尤为重要,其中老年人的人体运动图像动作识别方法研究备受关注.Bobick等[1]将一段时间内人体区域的运动轨迹表示单个历史图像,提出运动历史图像(motion history image, MHI)动作识别方法,但该方法假定运动是在垂直于相机光轴的平面上进行的, 故难以表现朝向或远离相机光轴方向的运动; Tan等[2]通过反向MHI表现方法实现了对相机光轴方向(即深度方向)的运动识别; Chang等[3]将3D-MHI与极限学习机[4]相结合, 实现了人体运动轨迹的识别; Ru等[5]提出一种双目视觉算法以获取深度图像; Ahad等[6]采用基于视觉的时空模板匹配方法进行动作检测和分类.然而,上述算法存在计算成本高和处理时间长等问题.此外, 在老年人异常行为的判断中, Chua[7], Rougier[8]等利用人体轮廓的形状变化进行跌倒行为判断; Wu等[9]基于可穿戴设备开发了一种采用四元数算法的新型跌倒检测系统; Evelien等[10]基于跌落的物理模型与声音幅度特征进行跌倒自动检测, 此类方法计算成本较低,但判据过于简单、判断动作局限及传感器穿戴不便,致使异常行为检测的精度难以得到保证.本文拟在传统MHI的基础上引入前景重叠度和深度运动2种运动历史信息来表现深度方向的动作,提出一种三重运动表现图像(triplet motion representation images, TMRI)识别算法,以期通过检测人体运动来识别异常活动,达到监护老年人日常生活的目的.

1 本文算法

首先提取人体区域,通过追踪在人体区域轮廓线上设置的特征点计算光流;然后利用光流投票结果检测消失点, 判断动作是否为深度方向的运动,从而创建包含时间序列信息、前景出现频度信息和深度信息的历史图像,分别称之为时间序列图像、重叠度图像和深度图像;最后提取3种历史图像的特征,利用图像特征对人体动作进行识别.

1.1 前景提取

为降低外部环境(如光照变化、家具移动等周期性背景变化)的影响, 采用高斯混合模型[11]对构成图像的每个像素进行连续背景图像估计,该模型中通过概率密度函数

(1)

1.2 消失点检测

为了使消失点的检测保持稳定, 在提取的人体区域轮廓表面等距分布特征点, 并采用Lucas-Kanada(LK)光流跟踪算法[12]计算连续帧之间的光流和评估特征点位置的相似性.图2(a)给出了向前行走时人体运动的光流示例.将该光流所在的直线在投票平面上进行延伸,通过寻找相交点来检测消失点是否存在,结果如图2(b)所示.

由于投票偏差可能会导致消失点的错误检测, 故赋予光流所在直线一定宽度, 并采用如图3所示的加权投票线进行投票,靠近加权投票线中心的像素权重分配较高,而远离中心的像素则权重较低.若最终投票结果大于预定阈值(本文设为2),则视为存在消失点.

1.3 历史图像的动作描述

基于仅包含时间序列图像的原始MHI, 提出包含前景出现频度和深度信息的运动图像,具体动作描述如下:

(2)

式中Hτ(x,y,t)为过去τ帧时间序列图像中在t时刻下像素(x,y)处的灰度值;D为前景区域的二值图像.

(3)

(4)

(5)

式中Nlayer(t)为t时刻下根据消失点检出与否所确定的需要重叠的层数,Vmax为投票结果的最大值,Tvote为投票阈值,γ为根据光流大小确定Nlayer值所需的常数(本文γ=0.64),Lave为光流的平均长度.

当目标向右或向后行走时, 根据三重运动表现图像进行动作描述的结果如图4~5所示.

1.4 特征提取

由于图像的Hu矩对于图像的缩放、旋转和翻转具有不变性[13], 相较其他特征如Zernike矩和小波矩等, Hu矩不仅具有更多的不变性,还能更好地针对前景中的动作提取其形状特征, 因此本文选用Hu矩描述三重运动表现图像的形状特征.Hu矩由7个不变特征vi(i=1,2,…,7)组成,由于各特征的比例差异很大, 故可以通过si=log(sgn(vi)·vi)更改为对数值, 然后定义特征向量s=(s1,s2,…,s7).

由于三重运动表现图像包含3个运动历史图像, 并且每个图像都由上述Hu矩描述, 因此本文将图像的形状特征表现为如下21维Hu矩矢量:

VTMRI=(smhi,sove,sdep).

(6)

1.5 动作识别

(7)

式中majl{S}为返回至集合S中出现最多的类,kmin{T}为集合T中的n个最小数,I为向量之间的相异性.由等式I(v,w)=‖v-w‖定义.

2 仿真分析

计算机环境: OS: Windows 10 Home; CPU: Intel(R) Core(TM) i7-3770 CPU @ 3.40 GHz; 内存: 8.00 GB.开发环境: Microsoft Visual Studio Community 2017.

为了验证三重运动表现图像的性能,对其识别准确性进行实验, 通过单个相机拍摄13种异常动作视频,分别由4人执行,每人执行1次.为保证识别的准确性且尽量减少识别所需时间,于每段视频图像创建的三重运动表现图像中各取80组进行实验, 共52段视频和4 160组三重运动表现图像.采用留一法进行验证以评估运动识别的准确性.动作识别准确率

(8)

其中NALL为测试数据的图像总数,NT为被正确识别的未知输入动作的数据总数.实验表明,k-近邻法中当k=3时识别效果最佳, 故本文将k设为3.为表现三重运动表现图像中各图像的有效性, 针对二重运动表现图像, 即时间序列图像+重叠度图像(记为DMRI-1)以及时间序列图像+深度图像(记为DMRI-2)分别进行动作识别, 并与传统MHI方法进行对比分析, 结果如表1所示.

表1 动作识别准确率

由表1可知, 由于三重运动表现图像中增加了重叠度图像和深度图像的信息,所以每个动作的识别率都明显高于传统MHI的;三重运动表现图像的平均识别率高达84.35%, 比MHI高28.92%;二重运动表现图像的平均动作识别率均低于三重运动表现图像的, 这是由于TMRI中深度图像包含动作的深度信息,故大多数深度方向的动作能够得到更高的识别准确率.

MHI方法与三重运动表现图像识别方法在各阶段的平均处理时间如表2所示.由表2可见, 三重运动表现图像的处理速度略低于只有一种历史表现图像的MHI方法, 总平均延迟约8.89 ms, 尤其是动作表现阶段的处理时间慢于MHI方法6.57 ms.综上, 三重运动表现图像因动作识别率更高且处理时间差异相对变化较小, 故利用三重运动表现图像方法进行动作识别具有更高的优越性.

表2 处理时间

3 结论

本文首先创建包含时间序列、重叠度以及深度信息的三重运动表现图像, 然后将图像的形状特征表现为21维Hu矩矢量, 并使用k-近邻法在21维特征空间中识别动作, 最后通过实验验证所提方法的运动识别精度,取得满意的结果.尽管三重运动表现图像的识别精度较传统MHI方法有很大改善,但该方法在处理时间及性能稳定性等方面仍须进一步改进.

猜你喜欢

光流深度人体
利用掩膜和单应矩阵提高LK光流追踪效果
基于改进Cycle-GAN的光流无监督估计方法
四增四减 深度推进
深度思考之不等式
人体“修补匠”
人体冷知识(一)
一种多尺度光流预测与融合的实时视频插帧方法
基于自适应纹理复杂度的仿生视觉导航方法研究
人体可笑堂
简约教学 深度学习