APP下载

大范围视频中人的行为识别的正则化HCRF模型

2017-04-25方朝晖钟平

数字技术与应用 2017年1期

方朝晖+钟平

摘要:大范围视频中人的行为识别主要面临视频场景大、目标小、分辨率低、特征不明显等难点。充分利用视频图像中包含的图像特征和空-时上下文信息是解决这些难点问题的有效途径。隐条件随机场模型(HCRF)包含的隐变量层使其具有丰富的表示能力,同时自身还具有统一对观察图像和标记中的上下文信息建模的能力。因此将HCRF模型引入大范围视频中人的行为识别,重点研究通过l_2和l_1正则化训练方法得到的HCRF模型在解决过拟合和实现稀疏化时的性能。在此基础上,引入l_(1/2)正则化训练方法,提出新的面向人的行为识别的HCRF模型,进一步提高模型的稀疏化和识别性能。利用典型的大范围视频数据库UT-TOWER对研究的方法进行了全面测试,实验结果验证了提出的l_(1/2)正则化HCRF模型在提高识别正确率、模型稀疏性和计算效率方面的优势。

关键词:大范围视频;人的行为识别;隐条件随机场

中图分类号:TP391.1 文献标识码:A 文章编号:1007-9416(2017)01-0076-02

近年来,大范围视频由于其场景直观、发现问题及时、信息量充足、利于取证保存的特点正越来越多地被应用于军事和生活领域。许多发达国家还针对大范围视频的研究,建立了无人机视频系统、高层建筑视频监控系统等大量的数据平台。而对视频图像中的目标进行行为识别,就能够在不耗费人力资源的情况下从视频中获取大量的信息,这是现阶段研究大范围视频的关键。而且在对视频中的目标进行行为识别时,往往面临大范围视频场景大、目标小、分辨率低、特征不明显等难点。充分利用视频图像中的空间和时间的上下文信息进行行为建模和识别是解决上述难点问题的有效途径。

本文主要研究和正则化训练方法对HCRF模型用于大范围视频中人的行为识别的影响。在此基础上研究HCRF模型训练的正则化方法和高效实现。本文接下来的内容包括:第二章构建面向大范围视频中人的行为识别的HCRF模型;第三章研究构建的HCRF模型的不同正则化训练方法,并提出新的基于正则化的HCRF模型;第四章利用实际数据测试研究方法的性能;第五章对研究工作进行总结与展望。

1 面向大范围视频中人的行为识别的HCRF模型

1.1 HCRF模型的构建

面向大范围视频中人的行为识别主要实现对输入的一段包含帧的视频数据,估计其包含的目标对应的行为语义标记x。假设隐变量序列,HCRF模型构建给定观测数据,语义标记和隐变量的联合后验概率为

其中每个h_j,j∈[1,m]属于隐标记空间H,隐变量它可能表示的是视频各帧所对应的基元动作类型,φ(x,h,y;θ)为定义在基团上的势函数,θ为模型(势函数)中包含的模型参数利用公式(1),可以得到给定观察数据,对应的标记的后验概率为

結合大范围视频图像的特点,本文定义的势函数为

其中V1表示视频帧节点特征向量的元素索引,V2表示无向图中边特征向量的元素索引,f(1,l),f(2,l)表示节点特征和双位置边特征的提取函数,θ(1,l),θ(2,l)∈θ分别表示节点参数和边参数。特征函数f_1在模型中依赖于单隐变量,特征函数f2则依赖于两个隐变量。

1.2 HCRF模型的训练

给定包含个训练样本的训练集,HCRF模型训练就是估计使如下目标函数极大的模型参数:

(4)式中表示的是对数似然函数,R(θ)是正则化项,由参数(θ)的先验分布构建。利用梯度法寻找最优的参数值,关键是计算似然函数项和正则化项关于参数的梯度。

经过推导,似然函数L_i (θ)关于θ_(1,l)的偏导数为:

似然函数L_i (θ)对θ_(2,l)求偏导为:

(5)式和(6)式中的各项边缘概率可以通过置信度传播方法(BP算法)高效计算。

1.3 HCRF模型的推断

HCRF模型推断是给定一个新的测试样本,利用训练得到的模型参数,通过如下公式得到测试样本的标记:

其中边缘分布可由公式(2)和BP算法计算得到。

2 实验结果

在采用HCRF对视频建模之前,实验采用3DHOG算法提取表述每一视频帧的图像特征。另外,HCRF模型中隐变量的状态数也是一个重要的参数。设置隐变量的状态数为3,5,7,10,15和20,通过大量实验表明,当隐变量的状态数为10时实验结果较优,因此之后的实验都采用该设置。

2.1 不同正则化方法性能比较

当HCRF模型的训练过程不包含正则化项时,在UT-Tower数据库上行为识别的准确率为89.81%。推断错误的行为种类比较分散,除c1和c7外,其余都出现了标记错误的情况。通过l_2正则化训练得到的HCRF模型的性能:在UT-Tower数据库上行为识别的准确率为91.67%。相比于非正则化的情况,在标记的整体准确率上有着显著的提高,但出错的行为类别还是很多,除c1,c3,c7外,其余类别均出现了推断错误的情况。通过l_1正则化训练得到的HCRF模型的性能:在UT-Tower数据库上行为识别的准确率为91.67%。相比于l_2正则化训练得到的HCRF模型,l_1正则化虽然在整体准确率上并没有显著提高,但出错的行为类别数有明显的减少,只有c4,c6和c8出现了标记错误。提出的l_(1/2)正则化HCRF模型,在UT-Tower数据库上行为识别的准确率为93.52%,相比于l_2和l_1正则化方法来说,其不仅是在整体准确率还是在出错的行为类别方面,其功能都有着较为明显的提高。

2.2 正则化参数对结果的影响

进一步通过实验研究正则化参数对结果的影响。针对l_2正则化方法,对λ=0.1,0.3,0.5,0.7,0.9等多种情况进行了实验。针对l_1正则化和l_(1/2)正则化方法,研究了正则化参数取值为0.01,0.1,0.2,1,10等数值时的模型性能。从结果中可以看出:随着λ的增加,模型的准确率表现出先增后减少的趋势,l_2正则化方法在λ=0.7左右达到准确率的最大值,而l_1正则化和l_(1/2)正则化方法在λ=0.1左右取得最优的结果。

针对l_1正则化和l_(1/2)正则化,进一步分析训练得到模型的稀疏性,即根据正则化参数λ的变化,统计模型中参数的为零的个数。结果表明:在λ值相等的情况下通过l_(1/2)正则化得到的模型的稀疏性要高于通过l_1正则化得到的模型,并且随着λ值的增加,无论是l_1还是l_(1/2)正则化方法得到的模型会越来越稀疏。针对l_1和l_(1/2)正则化,随着λ值的增加,模型的参数越来越稀疏,而准确率却是先增后减:刚开始的准确率的增加是由于参数的稀疏化减少了过拟合现象的发现,但随着λ值进一步的增加,参数会越来越稀疏,导致一部分有用的参数也被稀疏掉,使得有用的信息丢失,导致准确率降低。

3 结语

本文研究了基于HCRF模型的大范围视频中人的行为识别方法。大量的实验表明,本文提出的l_(1/2)正则化HCRF模型取得了优于通过l_1和l_2正则化方法得到的模型的识别性能。下一步的工作,可以进一步扩充实验场景和数据,进一步验证研究方法的推广性能。另外,对HCRF模型的隐变量进行多样化,提高隐变量的表达能力,从而提高行为识别的准确率,也是一个值得深入研究的课题。

参考文献

[1]刘建磊,冯大政,张莉.基于梯度信息的C-V模型图像分割算法[J].光电子.激光,2010(03).

[2]田国会,吉艳青,黄彬.基于多特征融合的人体动作识别[J].山东大学学报(工学版),2009(05):43-47.

[3]敦文杰,穆志纯.基于特征融合的人脸人耳多生物身份鉴别[J].天津大学学报(自然科学与工程技术版),2009(07):636-641.