基于耦合隐马尔可夫模型的异常交互行为识别
2013-03-22林国余张为公
林国余 柏 云 张为公
(1东南大学仪器科学与工程学院,南京 210096)
(2东南大学苏州研究院,苏州 215123)
人体行为识别已经成为智能视频监控中的一个重要研究方向.近年来,国内外研究者对于单人步态和行为已展开深入研究,可识别出标准姿势、常规动作和简单的危险行为.人与人之间的交互行为如打架、抢劫、尾随等也是人的行为识别中的一个重要组成部分.随着机器视觉的发展,以动态贝叶斯网络和隐马尔科夫模型(hidden Markov models,HMM)[1-4]为代表的基于统计模型的交互行为识别方法日益受到重视.如Oliver等[1]采用耦合隐马尔可夫模型 (coupled HMM,CHMM)实现了对太极拳过程中人双手动作的识别;杜友田等[2]对交互动作进行分层分解,将其看成一个多模态的多元随机过程,并采用耦合层级连续性状态的动态贝叶斯网进行统计建模;Xiang等[3]提出了一种多连接的HMM来识别混乱场景中的多目标交互事件;朱旭东等[4]提出一种新颖的主题HMM实现自然分组视频中的人体行为识别.
由于HMM能够提供动态时间规整,因此可用于描述物体在时间域上的运动模式,并可进行动态行为建模和分析.HMM及其改进算法已经成为时间序列建模的常用方法之一.在交互行为中,每个目标在某一时刻的运动状态不仅依赖于自身在前一时刻的状态,同时也取决于另一目标在前一时刻的状态,HMM的结构却不能体现出这种相互的关系.另一方面,随着目标人数的增长,观察序列的长度、HMM中状态的数目和参数都会迅速增长,从而增加了参数估计的复杂程度.CHMM是由 Brand等[5]提出的一种用于描述2个或多个相互关联(条件概率依赖)的随机过程统计特性的概率模型,它可以看成是通过在多个 HMM 状态序列之间引入耦合条件概率而得到的一种多HMM链模型,可用于对2个相互关联的随机过程进行建模和分类,因此适合用来学习和描述多个数据之间的交互作用.目前CHMM已经在字符识别、语音识别、行为分析以及故障诊断等领域取得很好的识别效果[6-9].因此,本文提出一种基于CHMM的异常交互行为检测方法,通过与基于HMM方法的对比,表明利用CHMM检测两人之间的交互行为更加简单高效.
1 CHMM模型
图1 耦合隐马尔可夫模型
CHMM可以用每条链的参数和链之间的耦合关系参数来共同表示[10]:
λ={N(0),π(0),A(0),B(0),N(1),π(1),
A(1),B(1),A(0,1),A(1,0)}
由于CHMM是HMM的一种衍生模型,因此可借鉴HMM中的向前、向后算法和Baum-Welch算法来解决CHMM中的模型参数估计和概率估算问题.
1) 估算问题
(1)
2) 学习问题
(2)
其中,1≤i,m≤N(0),1≤j,n≤N(1).在此基础上,将新参数代入进行迭代计算,如此反复,直至参数收敛.如果估算概率满足以下条件,则终止计算:
(3)
2 交互行为特征
如何从视频序列中提取出能够合理表示行为特征的数据对交互行为识别的准确性有重要的影响.现有监控摄像机的监控场景往往较大,受分辨率限制,视频中人体的肢体细节特征表现不明显,难以构建人体模型.考虑到打斗、抢劫这2类异常交互行为发生时,运动激烈,运动特征差异较大,同时由于人体是非刚性的,人的体态形状应能很好地描述当前的行为细节.因此本文直接以视频图像中的运动信息和形态信息作为特征,不仅充分表现了人体行为特征,而且有效避免了计算的复杂性.本文一共选取了5个运动特征和1个形态特征.5个运动特征如下:
通过计算感兴趣区域内的光流特征,并对光流特征进行统计得到目标光流特征的加权方向直方图[12],最后计算出运动方向和速度幅值.
(4)
(5)
(6)
(7)
5) 2人之间的运动方向角度差
(8)
(9)
(10)
式中,矩阵每一列代表某一帧中HOG特征向量经过降维后能够反映目标95%以上特征的100个特征值.
3 基于CHMM的异常交互行为识别
3.1 算法流程
基于CHMM异常交互行为识别的核心在于构建CHMM模型,其流程如图2所示.图2(a)描述了模型的离线训练过程,首先提取出训练样本中感兴趣的运动特征和形态特征,构成训练数据,通过离线训练构建各种不同类型的异常行为模型.图2(b)描述了利用训练好的模型进行异常交互行为判别的流程,将提取出的目标特征代入到不同异常行为模型中计算概率值,进而判断是否属于相应的异常交互行为.
图2 基于CHMM异常交互行为检测的训练和识别流程
(11)
式中,β1和β2分别表示运动特征模型和形态特征模型的权重,其计算公式为
(12)
(13)
概率值P(o|λ)大于阈值T时,则认为该行为属于异常行为.假设训练过程中参数收敛时模型λ1的概率值为P1,模型λ2的概率值为P2,则阈值T可按下式计算:
T=(β1P1+β2P2)×1.25
(14)
3.2 参数选择
表1 CHMM参数选择
综合特征训练的实际情况,最终确定实验中表示异常交互行为的CHMM状态数目设置为8,混合高斯元数也设置为8.
3.3 实验结果
实验中的视频选自中国科学院自动化研究所的行为分析数据库CASIA和CAVIAR数据库、IVIPC数据库、SDHA数据库以及作者在校园环境中拍摄的视频数据,主要包括打斗、抢劫、握手、并行等交互行为.图3为相关视频的截图.
模型训练时将打斗和抢劫归纳为异常交互行为,并从30个打斗视频、20个抢劫视频中采集了运动特征和形态特征组成数据集,对不同数据集分别进行训练得到模型λ1和λ2、每个CHMM的初始状态概率π、状态转移概率矩阵以及每一条链中的观察值概率函数的参数值.根据模型训练最终收敛时的对数似然值和式(14)可以得到阈值T为-94.
根据式(4)和(12)的融合决策方式计算几种典型行为在模型下的概率值,分别为打斗行为F1和F2,抢夺行为F3和F4,并行F5,握手F6,计算结果见表2.从表中可看出,打斗、抢劫这2种行为的概率值大于阈值,被判断为异常行为,并行和握手行为的概率值小于阈值,被判断为正常行为.
表2 几类行为的对数似然值
表3为实验获得的识别率,其中打斗、抢劫行为识别率较高,而2人握手的行为由于过程中人的面积变化率、长宽比变化率等都有较大的变化,因此被误检为异常行为的概率较高.
表3 基于CHMM的异常行为识别准确率
表4 基于HMM的异常行为识别准确率
4 结语
由于CHMM中每个随机过程状态之间存在的相互依赖关系恰好可以反映2人之间的交互影响状态,因此本文提出一种基于CHMM的少人异常行为识别算法,其识别准确率要优于HMM.然而,利用CHMM对多人之间的多种复杂交互动作进行识别还有待研究,一方面需要在特征选取和模型建立方面进行改进,另一方面要对CHMM结构进行改进优化,比如增加隐马尔科夫链路以及改进模型学习方法等,这些将在后续工作中进一步展开.
图3 各种数据库中的打斗、抢劫、握手、并行等视频
)
[1] Oliver N M, Rosario B, Pentland A P. A Bayesian computer vision system for modeling human interactions [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2000,22(8): 831-843.
[2] 杜友田, 陈峰, 徐文立. 基于多层动态贝叶斯网络的人的行为多尺度分析及识别方法[J].自动化学报, 2009, 35(3): 225-227.
Du Youtian, Chen Feng, Xu Wenli. Approach to human activity multi-scale analysis and recognition based on multi-layer dynamic Bayesian network [J].ActaAutomaticaSinica, 2009,35(3): 225-227. (in Chinese)
[3] Xiang Tao, Gong Shaogang. Beyond tracking: modeling activity and understanding behavior [J].ComputerVision, 2006,67(1): 21-51.
[4] 朱旭东, 刘志镜. 基于主题隐马尔科夫模型的人体异常行为识别[J]. 计算机科学, 2012, 39(3): 251-255, 275.
Zhu Xudong, Liu Zhijing. Human abnormal behavior recognition based on topic hidden Markov model[J].ComputerScience, 2012,39(3): 251-255, 275. (in Chinese)
[5] Brand M, Oliver N, Pentland A. Coupled hidden Markov models for complex action recognition [C]//ProceedingsoftheIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition. San Juan, PR, USA, 1997: 994-999.
[6] Che Hao, Tao Jianhua, Pan Shifeng. Letter-to-sound conversion using coupled hidden Markov models for lexicon compression[C]//Proceedingsofthe2012InternationalConferenceonSpeechDatabaseandAssessments. Macau, China, 2012: 141-144.
[7] Luo Ronghua, Min Huaqing, Xu Yonghui, et al. Coupled hidden semi-Markov conditional random fields based context model for semantic map building[C]//ProceedingsofInternationalConferenceonMachineLearningandCybernetics. Xi’an, China, 2012: 785-791.
[8] Alippi C, Ntalampiras S, Roveri M. A cognitive fault diagnosis system for distributed sensor networks [J].IEEETransactionsonNeuralNetworksandLearningSystems, 2013,24(8): 1213-1226.
[9] Cao Longbing, Ou Yuming, Yu P S. Coupled behavior analysis with applications [J].IEEETransactionsonKnowledgeandDataEngineering, 2012,24(8): 1378-1392.
[10] 任海兵. 非特定人自然的人体动作识别[D]. 北京: 清华大学计算机科学与技术系, 2003.
[11] 王建东. 基于视频图像的人体异常行为识别技术研究[D]. 重庆: 重庆大学通信工程学院, 2009.
[12] 杜鉴豪, 许力. 基于区域光流特征的异常行为检测[J]. 浙江大学学报:工学版, 2011, 45(7): 1161-1166.
Du Jianhao, Xu Li. Abnormal behavior detection based on regional optical flow [J].JournalofZhejiangUniversity:EngineeringScience, 2011,45(7): 1161-1166. (in Chinese)
[13] Dalal N, Triggs B. Histograms of oriented gradients for human detection [C]//IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition. San Diego, CA,USA, 2005,1: 886-893.