基于光流的人体行为识别

2013-04-29鲁统伟任莹

电脑知识与技术 2013年7期

鲁统伟　任莹

摘要：人体行为识别已成为计算机视觉中的一个研究热点，并且光流法已被应用到各种应用场合。针对教室内学生的站立和坐下的视频，提出了基于光流的人体行为识别算法。首先获取当前帧的活动点集，从而得到活动区域。根据保存帧的信息统计向上光流和向下光流，结合当前人的状态，判断出人的动作。最后进行人的状态的更新。在整个视频处理过程中，该算法重复以上过程，维持了站立人的状态跟踪。实验结果表明，该算法能够识别出站立和坐下的动作，验证了该算法的有效性和鲁棒性。

关键词：光流；人体行为识别；跟踪；活动区域；视频处理

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2013）07-1610-03

人体行为识别正成为计算机视觉领域内研究的热点之一，由于它研究的对象是视频或者图像序列，而这些是通过快速捕捉和存储二维图像形成的，并没有目标之间相对位置的信息，所以给研究者带来了很大困难。同一个目标在不同的成像环境下会有不同的成像效果，比如光照、视角等变化，另外，目标之间相互遮挡，或者有复杂的重复背景，都会对目标的提取造成困难。即使目标已经提取出来，由于人的差异性，每个人执行同一个动作也会有差异，这为行为识别也带来一定的困难。

在本文中，以教室内的学生站立或坐下的视频为研究对象，通过计算光流，实现对学生的站立和坐下2种动作进行识别。

1 相关工作

很多研究者已经开始人体行为识别[1-2]方面的研究，Rapantzikos[3]用密集显著特征点识别人的行为。Dai[4]等人利用上下文对动作进行分组交互分析。赵海勇等[5]利用背景差分法和阴影消除技术从图像中提取完整的人体轮廓，提出了一种以运动人体的轮廓为特征，基于模板匹配的人体行为识别方法. 李宁等[6]提出了基于"从左到右三状态半连接HMM"的人体行为识别方法。钱堃等[7]在概率框架下提出一种基于抽象隐马尔可夫模型的人运动行为识别方法。韩磊等[8]提出一种基于时空单词的两人交互行为识别方法。

光流法[9]也得到了广泛的应用，Brox等[10]处理光流的大偏移问题。Bleyer等[11]讨论了颜色对光流的影响。Lei等人[12]利用离散优化对光流进行由粗糙到精细的估计。

2 人的行为识别

本文中人的状态有2种：坐和立。人的动作有三种：坐下、起立、维持不变。

整个算法主要分为4个过程：1）获取活动点集；2）获取活动区域；3）获取人的动作；4）更新人的状态。

2.1 获取活动点集

利用计算出来的光流，对当前帧中光流变化比较大的光流所在地位置保存下来。为了达到实时效果，对整幅图像进行了采样，这样就形成了一个小的图片，光流大的位置的亮度为255，其它的位置为0。

2.2 获取活动区域

在活动点集的基础上，利用形态学中的膨胀和腐蚀操作算子进行处理。考虑到在获取活动点集中有采样处理，这里膨胀的半径要根据采样频率设置。首先对活动点集进行膨胀操作，然后进行腐蚀。再进行二值图的轮廓查找，将轮廓比较小的舍弃，保留面积比较大的轮廓。根据大轮廓上点的坐标，计算出该轮廓的上下左右边界，从而得到活动区域。因为人的动作范围有可能比较大，这里把活动区域再往外扩充一半的距离。

2.3 获取人的动作

对每个活动区域处理，首先查询该区域中人的状态，然后利用保存好的前N帧图像的信息，统计该区域内的光流变化，得到该序列中向上光流和向下光流的矢量和。

因为人的一些习惯问题，在没有站立或坐下动作时，可能会有左右晃动，侧身，抬头，往前趴，往后靠等，都会引起光流的变化。这里分为有动作的处理和无动作的处理。

1）有动作的处理

在标准的站立和坐下情况下，根据向上光流和向下光流就可以判断出人的动作。但在实验过程中，由于每个人的站立和坐下的形态是不一样的，而且由于摄像头变形的原因，需要做更多的处理。对于标准站立的人，只根据向上光流就可以判断人的行为。同样，对于标准坐下的人，只根据向下光流就可以判断人的行为。但有的人站立时会先弯腰，然后再站起来，这样会先产生向下光流，然后才是向上光流，同样，有点人坐下时会先弯腰坐下，然后往后靠，这样会先产生向下光流，然后是向上光流。所以本文将站立分为以下2种：1）笔直站立；2）弯曲站立，同样，将坐下分为2种：1）笔直坐下；2）弯曲坐下。

2）无动作的处理

人的左右晃动或者侧身，引起的向上或向下光流很少，大部分是横向的光流，所以在实验过程中可以利用垂直方向的光流排除掉这类行为。对于抬头的行为来说，没有站立或做下引起的光流变化大，所以可以用一个门限来排除。对于往前趴并且随后直起身子的行为，其引起的光流变化如同弯曲站立引起的变化，但总的矢量和近似于零，而弯曲站立的矢量和比较大。相似地，往后靠并且随后直起身子的行为，其引起的光流矢量和近似于零，所以也可以排除掉。

2.4更新人的状态

人在站立状态的时候，如果时间比较长，那么在当前帧不会得到活动区域，这样人的状态就没有办法维持。所以需要一个状态表记录每帧中站立人的状态。该状态表需要记录站立人的位置、区域和帧号。这样在判断下一帧人的动作的时候就可以更准确的判断。如人在站立状态的时候，仅有坐下或者维持不变两种动作，同样的，人在坐下状态时，仅有站立或者维持不变两种动作。最后，在显示的时候，就只需要根据该状态表把当前帧中站立的人显示出来。

3 实验

采用本文算法对实际视频进行实验，摄像头位于教室黑板的上方，以斜下视方式对准学生。视频图像分辨率为720×576像素。教室内的学生只有2种状态：坐和立，动作有3种：站立、坐下和维持不变。在整个视频中，把站立和坐下的动作识别并标识出来。识别出来的站立动作如图2所示，分别为视频中的第1、5、9、13、17、21帧，识别出来的坐下动作如图3所示，分别是视频中的43、47、51、55、59、63帧。

对整个视频进行统计站立和坐下的次数，与真实结果进行比较，其结果如表1所示。从结果来看，算法能够准确的识别出站立和坐下的动作。

4 结论

本文以教室内学生的站立和坐下的视频为研究对象，提出了一种基于光流的人体行为识别算法，整个算法主要分为4个过程：1）获取活动点集；2）获取活动区域；3）获取人的动作；4）更新人的状态。该过程在每帧图像进行处理，并保存以前结果作为下一帧识别的依据。实验结果表明了该算法的实时性和有效性。

参考文献：

[1] 阮涛涛，姚明海，瞿心昱，等.基于视觉的人体运动分析综述[J].计算机系统应用，2011，（2）： 245-247.

[2] Turaga P， Chellappa R， Subrahmanian V S， et al. Machine recognition of human activities： A survey. IEEE Trans. Circuits Syst. Video Technol. 2008，18，（11）： 1473-1488.

[3] Rapantzikos， K.， Avrithis， Y.， and Kollias， S. Dense saliency-based spatiotemporal feature points for action recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE， Los Alamitos， CA， 2009： 1454-1461.

[4] Dai， P.， Di， H.， Dong， L.， Tao， L.， and Xu， G. Group interaction analysis in dynamic context[J]. IEEE Trans. Syst. Man Cybern. Part B. 2008，38（ 1）： 275--282.

[5] 赵海勇，刘志镜，张浩. 基于模板匹配的人体日常行为识别[J].湖南大学学报：自然科学版，2011，（02）：88-90.

[6] 李宁，须德，傅晓英，袁玲.结合人体运动特征的行为识别[J].北京交通大学学报，2009（02）：6-10.

[7] 钱堃，马旭东，戴先中.基于抽象隐马尔可夫模型的运动行为识别方法[J].模式识别与人工智能，2009，（03）：433-439.

[8] 韩磊，李君峰，贾云得. 基于时空单词的两人交互行为识别方法[J]. 计算机学报. 2010，（04）：776-782

[9] Baker S， Scharstein D， Lewis J，et al. A database and evaluation methodology for optical flow[C]. In Proceedings of the IEEE international conference on computer vision. Rio de Janeiro .2007： 1- 8.

[10] Brox T， Bregler C， Malik J. Large displacement optical flow[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition. Miami， FL .2009： 41-48.

[11] Bleyer M， Chambon S. Does color really help in dense stereo matching？ [C]In Proceedings of the international symposium 3D data processing， visualization and transmission. Paris， France. 2010：05-17-2010 - 05-20-2010.

[12] Lei C， Yang Y. Optical flow estimation on coarse-to-fine region-trees using discrete optimization[C]. In Proceedings of the IEEE international conference on computer vision. Kyoto .2009： 1562-1569.