基于注意机制的仿生人体动作识别

2012-02-03刘海华程志君谌先敢高智勇

中南民族大学学报（自然科学版） 2012年2期

刘海华，程志君，谌先敢，高智勇

(中南民族大学生物医学工程学院，武汉430074)

人体动作识别在智能视频监控系统，高级人机交互以及基于内容的视频检索等方面有着重要的应用前景［1］，引起了研究人员的广泛关注 .由于在运动特性、记录条件、个体差异等方面的变化，人体动作识别是当前计算机视觉领域里最具挑战性的识别问题之一.与此同时，在脑科学等领域里，了解人脑对动作的感知能力，可对计算机视觉中的识别问题提供较大的启发，因此模拟人脑的视觉系统构建识别模型，一方面加深了我们对人类大脑机制的理解，另一方面为我们在计算机上实现识别模型提供了新的方法.

近来，将基于生物学的方法应用于真实世界中的目标识别已经取得了成功［2］，研究者们通过对灵长类动物的脑皮层中视觉通路工作机理的研究，逐渐建立起分层式的模式分类与识别模型的思想，众多由生物视觉感知启发的特征计算模型被相继提出，例如T.Serre和M.Riesenhuber改进的HMAX模型，使得特征具有更高的选择复杂性［3］以及 T.Serre，L.Wolf为解决特征的选择性和不变形间的矛盾而提出的仿生识别模型［4］.根据研究，人类视觉皮层由两条通路组成:处理形状信息的腹部通路和分析运动信息的背部通路.这两条通路的的组织结构很相似［5］:他们都是层次结构的，经过一系列的处理阶段后，逐渐增加了神经元的选择性［6］.同时，沿着这个层次结构，神经元感受野(例如视野的一部分)经过适当的刺激后，能从神经元引起一个反应.在组成主视觉皮层的两条通路中，腹部通路的主要作用是感知物体的存在，而背部通路的主要作用是定位由即时的运动信息引起的刺激［7］.早期的基于神经生物学的动作处理模型模拟了视觉皮层中的背部通路，它成功的解释了很多生理和心理数据，但由于过于简单以至于不能处理实际的视频［8］.

早期由Giese和Poggio提出的基于视觉皮层背部通路运动处理的神经生物学模型［6］，成功地解释了许多生理和心理数据，后来Jhuang等人扩展了这个简单的神经生物模型，提出了一种基于处理时空特征［9］的识别系统，该系统是类似于视觉皮层中简单细胞和复杂细胞依次交替的层次结构的计算机识别模型.此模型通过从训练样本中提取出的特征描述符建立特征模板，使得计算机可以根据模型自动的识别新输入的视频中的动作类型.此系统由一组逐渐复杂的时空特征检测单元组成，并最终得到与位置无关的时空特征［10］.在Jhuang提出的动作识别模型中，系统对输入的视频序列进行了预处理:使用了Gaussian Mixture Model(GMM)背景相减技术，然后截取了原视频序列每帧图像的一半(包含了运动目标)作为系统的输入序列［10］.这些预处理技术过于依赖手工，并不完全符合生物视觉系统的原理.另外，该模型的特征提取方法是在C1层上随机选取大量不同尺寸的小块作为模型的特征模板，这种随机选择，容易选到背景信息，因此Jhuang使用了特征选择技术，从随机选取的大量特征小块中重新筛选出部分权重大的小块作为模型的特征小块，以到达降维的目的.这些处理步骤增加了模型的复杂度和耗时.

Jhuang的模型解释了视觉皮层中对运动信息敏感的背部通路部分，但是他提取运动的特征小块过程是在随机帧的随机位置提取，这种特征描述法依赖于对输入视频的预处理，如背景剔除，阴影消除，形态滤波［11］及人体检测和跟踪［12］等，这些预处理过程一方面加大了系统的计算量，使得系统识别速度过慢，另一方面这些操作并没有在真正意义上模仿生物视觉系统，它是相当于提取待分析的目标后再送入视觉系统，而不是神经生物学中的对视觉场景中最相关区域进行选择和处理的这一原理.

在现实场景中，人类具有高效的注意周围事物的能力，当周围环境中有大量的信息时，我们并不是被动的接受所有的信息，而是选择视觉中的某些部分进行下一步分析.这种对输入视觉的图像中相关信息进行选择的能力是人类视觉系统所具有的最重要的能力之一，确保视觉系统对输入的信息进行优化.相比通过视频预处理和特征选择这两个步骤来获取目标特征信息的Jhuang的生物模型，人类视觉系统注意特性显然性能更强大，因此，本文引入视觉注意机制，获取更准确的目标模板，可以减少识别过程对手工的依赖性，同时提高识别的准确性.

本文在已有的层次化动作识别模型上，加入了模仿人类视觉注意机制的处理过程，提出了结合运动视频图像的显著区域来获取运动的特征小块的方法.此方法使我们的模型更加接近人类视觉的原理，降低了在背景上选取小块的概率，使选取的小块尽可能多地携带有效的运动信息，从而剔除了视频图像的预处理和特征选择这些步骤，可以达到简化原模型、改善识别率的目的.

1 模拟注意机制的动作识别系统

视觉注意机制特指位于视觉系统顶层的观察者所具有的对视觉场景中最相关区域进行选择和处理的能力，视觉信息进行深入理解之前，对所搜集的信息进行选择，这些选择可以减少场景理解的复杂性.为解决随机选取小块时容易选择到背景信息导致模型的计算量大这一问题，我们借鉴了人类视觉机制，在Jhuang提出的层次化计算机识别模型中引入了注意机制.我们使用了Itti提出的视觉模型，得到视频图像的显著区域，再结合显著区域，也就是运动目标所在的区域来限定选取特征小块的区域，以此提高所选特征小块的准确度.这种方法，能较大程度的避免在视频图像的背景信息上选择特征小块，从而可以省略模型对视频图像进行背景相减和截取的预处理以及对特征小块进行多次删选的操作.同时，只针对视频图像的显著区域进行研究使我们的系统更进一步的模拟了人类视觉皮层，也提高了我们的动作识别系统的准确度.

我们模型的基本框架是基于逐渐复杂的层次结构和不变的时空特征检测单元，通过交替的模板匹配(增加所得特征的复杂性)和局部最大化操作(获得对尺度，平移具有一定不变性的特征)，系统获得最终的特征表示.系统的结构如图1所示.

1.1 S1 单元

图1 动作识别模型的结构Fig.1 Sketch of the system

系统的输入是一组经灰度化处理后的视频序列，我们用I来表示{Ii|i=1，2，…，nf}.系统的第一阶段由一组对运动敏感的S1单元组成，它模仿了视觉皮层背部通路中的V1简单细胞.在我们的动作识别模型中，我们使用由Simoncelli和Heeger提出的三维高斯滤波器［11］作为系统第一阶段的时空滤波器.对每一个输入的视频，经过时空滤波器Fl(Fl的推导

［11］)滤波后，系统获得一个初步的运动特征.对视频中的每一帧Ii，每一个S1单元计算一层运动特征，由于我们使用了多方向多速度的S1单元，因此每一帧经过S1单元后得到一个三维的S1帧，我们用S1i表示.S1i由公式(1)获得.

在公式(1)中，［·］+表示半路修正操作［7］.我们通过在时间和空间上取亮度的平均值来对滤波器的响应结果归一化，并且用半路修正操作为积极的细胞响应建模.我们用了4个方向和2个速度的一共8个时空滤波器.相应的S1单元的感受野是9(像素)×9(像素).一个灰度视频经过S1单元后，输出结果为一个每帧有多层(S1帧)的序列.图2是KTH数据库中person01的jogging动作视频中的任选一帧后在4个不同方向，速度为每帧3个像素条件下的S1响应.

1.2 C1 单元

在S1的下一阶段是C1阶段，C1阶段的操作是依方向进行的，对每一个S1帧的每一层进行局部最大值的汇聚操作.具体做法是将每一个S1帧的每一层划分为c×c的格子，在每个格子中求最大值，这样对S1帧的每一层都能得到一张减采样过的最大值图，我们采用的是c×c区域相互重叠一半的方法，最终得到具有不变性质的C1响应.C1响应由公式(2)获得.在此阶段，我们的系统获得了对局部空间形变的容忍能力，同时，最大值汇聚对杂乱的背景提供了鲁棒性.

图2 一帧的(0°，90°，180°，270°)4 个方向的 S 1 响应Fig.2 S1 response of one frame in four direction(0°，90°，180°，270°)

在C1阶段，我们用大小为8×8且区域重叠一半的网格对S1帧进行局部最大化操作，既S1帧中每4×4区域的像素对应到一个C1元素值，因此得到的C1帧比S1帧小(每一个C1层是输入的S1层1/4)，但帧数和层次的数量仍然和S1帧保持一致.

1.3 结合显著区域提取特征模板

1.3.1 获得视频图像显著区域的方法

在动作识别中，运动目标所在的区域被认为是视频图像的关键区域，也就是图像的显著区域.正确的找到视频图像的显著区域有利于我们获得更多有用的运动信息，有助于提高我们识别系统的效果.

在现存的较多视觉模型中，我们选取具有代表性的Itti视觉模型，它在提取图像的特征阶段，采用多个底层视觉特征，如颜色，亮度，方向等;这些特征通过高斯金字塔和Center-Surround算子形成各个特征的关注图，然后将这些特征合成一幅显著图.所谓的显著图，就是一幅和原始图像大小相同的二维图像，其中的每个像素值表示原图像对应点的显著性大小.Itti显著图的原理是:(a)提取亮度I，颜色C和方向O的特征，具体实现的方法见公式(3)～(5);(b)用高斯滤波器对亮度，颜色和方向特征图像进行滤波，得到九层的高斯金字塔;(c)“中心-周围”差分和归一化操作，获取亮度，颜色和方向特征图;(d)对特征图进行跨尺度融合及归一化后，合成视觉显著图［8］.具体实现的方法见公式(6).

N(·)表示归一化操作，它的作用是整体提升那些有部分强刺激峰值(醒目位置)的特征图，而整体抑制那些包含大量可比峰值响应.图3是从动作boxing，handwaving和walking的视频中随机选取帧获得的显著图.

图3 将原视频图像和显著图做与操作的结果Fig.3 Apply the saliencymap on the original video images

将视频图像中的运动目标提取出来的方法有很多，图像分割是其中的一种，但对如图3中的背景噪声较大的图像，用分割的方法不容易将运动对象准确的分割出来，而利用注意机制获得图像的显著图，再将原视频图像和与之相应的显著图二值化后做与操作后，能较准确的找到运动目标所在的区域，为随后的在限定区域提取特征小块做了较好的准备，同在随机位置选取小块相比，本方法减少了选到包含背景信息的特征小块的概率，且在理论上更接近人类视觉机制的原理.

1.3.2 提取特征模板的方法

对每一个动作类型，我们在训练集的C1帧中选取一定数量的不同尺寸的特征小块，作为该类的动作原型来存储.这些存储的特征模板构成了模型的中间级特征.为获得这些特征模板，我们提出了结合显著区域来提取特征小块的方法.

C1帧是由输入的灰度视频序列经过一次滤波和汇聚局部最大值操作后得到的，可以看作是原灰度视频的特征的一个概括，既C1特征中包含有原视频序列中的运动目标的特征，也包含背景的特征.C1帧和S1帧一样，都是多层次的帧，为了在C1帧中提取到更加能表征视频中运动信息的特征小块，我们首先确定要提取小块的C1帧，通过这个C1帧来找到与之对应的视频序列中的某一帧，然后在这一帧图像上运用Itti算法得到此幅图像的显著图.由于视频图像的显著图的大小和C1帧图像的大小不一致，我们对显著图的大小进行了调整，使它和C1帧图像的大小一致.最后在C1帧上选取特征小块时，我们先在显著图中值为“1”的区域(图4中显著图的白色区域)随机选一点，记录此点的坐标，然后在C1帧的每一层上选取相同坐标的点的邻域，邻域的大小由小块的尺寸决定，这就完成了一个小块的提取.总的来说，我们利用原视频图像中的显著区域，通过对应的坐标变换，限制在C1帧中提取小块的区域，再在这个限定的区域里随机选择小块，通过这个方法来获得稳定有效的特征小块.提取小块的过程如图4所示.

图4 结合显著图在C1的特定区域提取小块Fig.4 Extract patches on C1 with saliencymap

在训练集中，对每一类动作我们分别选取大小为n×n×L的特征模板.L是由S1单元滤波器的方向和速度决定的(滤波器有4个方向及2个速度，因此L=8).

1.4 S2和 C2单元

在S2阶段，我们再次使用滤波器对C1阶段的输出进行滤波，产生新一轮的响应图.此时的滤波器不再是第一层用到的时空滤波器，而是将前面提取的特征小块和C1帧做模板匹配操作，得到了对动作原型敏感的S2特征.具体方法见公式(7)，我们使用的是稀疏的标准化点积操作.

公式(7)表示将第i个C1i帧和第p个特征小块Pp进行匹配得到S2ip，C1xyi表示C1帧中以点(x，y)为中心的大小为s×s×L的小块.在我们的层次化系统中，S2单元的作用是增加了特征的复杂度和选择度.

C2阶段，在每一个S2特征的所有位置上进行全局最大化操作.具体操作见公式(8).

在响应C2i(p)中，第p个元素对应着C1i与特征小块Pp之间最好的匹配.通过这个最大值汇聚的操作后，C2特征增加了位置不变性.C2单元最后的结果是每一帧获得一个向量表示.

1.5 分类器

分类器是我们识别系统的最后的一步，是将待分对象被划归为某一类而使用的数学模型.在分类的阶段，本文使用的是支持向量机(SVM)，每个视频的C2特征向量被用来训练和测试支持向量机.在训练阶段，每一帧都由它所属的视频被分配一个标签.在测试阶段，测试视频的每一帧都获得一个预测标签，通过对这些预测标签进行投票的方法，测试视频得到一个表示它的动作类别的标签.

2 实验及分析结果

2.1 数据库

KTH人类动作数据库:KTH数据库包含六类动作一共599个视频，包括 boxing，hand waving，hand clapping，running，jogging，walking.这些动作由25 个动作目标分别在4个不同的环境下完成.这4个环境分别是目标在户外(S1)，伴随着尺度变化的目标在户外(S2)，不同着装的目标在户外(S3)，目标在有光线变化的户内(S4).在实验中，我们对KTH数据库的划分是:在25个运动目标中，随机选择16个目标作为训练集，剩下的9个目标为测试集.我们一共做了5次随机划分，最后由这5次随机划分的平均结果作为系统最终的识别率.

2.2 与Jhuang的结果做比较

为与文献［7］的方法做比较，本文在没有对视频图像做预处理，没有对所选特征小块进行特征选择的条件下，分别在KTH 4个不同环境中进行了实验，表1给出了本文和文献［7］作比较的结果，其中文献［7］使用的特征小块个数为在12000个随机选取的小块择优筛选的部分特征小块，我们使用的特征小块个数为2400.

表1 文献［7］与本文的结果比较Tab.1 Compare the resultswith reference［7］

由于文献［7］中是随机选取特征小块，导致许多特征小块携带的信息是属于背景的，于是文献［7］首先选取大量的动作特征小块，然后重复的使用特征选择技术对所选小块进行筛选，通过实验验证，这一过程较大的影响了系统的运行效率，相对于此，在表1的结果中，本文的方法直接在限定区域选取较少的特征小块，不再进行特征选择操作，在一定程度上简化了模型，提高了系统的速度，同时不减少小块所携带的相关信息，保证了模型的识别效果.

2.3 参数对识别率的影响

为验证本文的方法能较好的避免在视频图像的背景上选取特征小块，我们对选取不同个数的特征小块分别进行了实验.对每一类动作，每个尺寸的小块的个数分别选 10，20，50，100，120 和 150，既六类动作分别一共选取了 240，480，1200，2400，2880 和3600个特征小块(例如10×4(小块的4个尺寸)×6(6类动作)=240).

另外，为进一步测试我们的方法，我们混合了KTH4个环境下的动作来作为一个整体的数据库，既同一个目标在不同环境下的动作存放于同一目录下.表2分别比较了独立的4个环境和混合了4个环境的数据库下，使用结合显著区域提取特征小块的方法，选择不同个数的特征小块的结果.需要注意的是，虽然系统最终的识别率是5次随机划分的平均值，但对于不同的实验，我们比较的是相同的划分情况下的结果，也就是做了5次随机划分之后，以后的实验都按照这5次划分的结果来计算.

表2 选取不同个数的特征小块时系统的识别率Tab.2 Recognition rate of different patches number

图5是对表2中选取小块个数和系统识别率之间的关系分析所得的曲线图，从图5可见，当选取的小块个数较少时，系统的识别率随着选取特征小块的个数的增加而增加，说明了只有选择了足够多的特征小块，包含了足够的动作特征信息，系统才能达到更好的识别率.同时我们可以看到，当选取的小块个数较多时，系统的识别率逐渐趋于平稳，不再随着特征小块个数的增加而增加，表明了特征小块所携带的信息达到了饱和.这说明，我们在限定的区域选取小块个数越多，小块的重复率越大，因此，对本方法来说，不需要为了达到更好的识别率而选取大量的特征小块，这说明了在模型中引入了注意机制后，提高了系统对“视觉场景”分析的效率，更符合人眼对视觉场景的观察过程.

由表2可知，在S1，S3和S4环境下使用结合显著图提取特征小块的方法，系统的识别率能和文献［7］中随机选取小块的方法达到一致或更好.但在S2环境下时，识别率反而有所下降，分析其原因是由于S2环境比其他环境复杂，背景噪声大，在S2环境原视频图像中提取显著区域时容易把背景区域当成图像显著区域的一部分，造成提取的特征小块包含了一定的背景信息，影响了最终的识别率.

图5 不同小块个数的识别率Fig.5 Recognition rate of different patches number

3 结语

本文在Jhuang的层次化动作识别模型的基础上，对此模型进行了改进:引入了视觉注意机制，去掉了视频图像的预处理以及对所选的特征小块进行特征选择的操作，不再采用随机选择特征小块的方法，而是结合视频图像的显著图限定了选取特征小块的区域，使得所选的特征小块尽可能多的包含其所属动作类别的信息，在降低系统对手工的依赖的同时，也更准确模拟了人类视觉机制.这种特征描述法能在一定程度上降低我们动作识别模型的复杂度，减少系统对特征小块的个数的需求.总的来说，我们为解决仿生模型对手工的依赖性和计算量大的问题，借鉴了人类视觉系统，在仿生模型中引入了注意机制，在提高系统的识别效率的同时，也使得识别模型更具有仿生意义.

实验结果证明本文的方法能快速提取有效的特征小块，使得我们的动作识别模型在选取的特征小块个数较少时，依然能有较好的识别率，即提高了模型的运行速度，同时又改善了模型的识别率.但是，本文使用Itti视觉模型提取图像显著区域的方法只适用于背景较为简单，运动目标较为突出的视频图像，当背景噪声过大时，此算法容易将噪声判断为显著区域，影响了显著区域的准确性.因此，下一步工作我们将改进提取视频图像显著图的算法，使得在一定的噪声干扰条件下，仍能准确的找到运动目标所在区域.

参考文献

［1］Blake R，Shiffrar M.Perception of human motion［J］.Annu Rev Psychol，2007，58:47-73.

［2］Ranzato M，Huang F，Boureau Y，et al.Unsupervised learning of invariant feature hierarchies，with application to object recognition［C］//CVPR.Computer Vision and Pattern Recognition.New York:CVPR，2007:1-8.

［3］Serre T，RiesenhuberM.Realisticmodeling of simple and complex cell tuning in the hmax model and implications for invariant object recognition in cortex［J］.Computer Sciences，2004，7(3):29-48.

［4］Serre T，Wolf L，Poggio T.Object recognition with features inspired by visual cortex［J］.IEEE Computer Vision and Pattern Recognition，2005，6(2):994-1000.

［5］Saito H.Brain Mechanisms of Perception and Memory［M］.Oxford:Oxford Univ Press，1993:121-140.

［6］Giese M ， Poggio T.Neuralmechanisms for the recognition of biologicalmovements and action［J］.Nat Rev Neurosci，2003，12:31-49.

［7］Decety J，Grèzes J.Neural mechanisms subserving the perception of human actions［J］.Trends in Cognitive Sciences，1999，3:29-51.

［8］Simoncelli EP and Heeger DJ.A model of neural responses in visual area MT［J］.Vision Research，1998，38:743 –761.

［9］Blank M，Gorelick L，Shechtman E，et al.Actions as space-time shapes［J］.IEEE Computer Vision，2005，10(2):1395-1402.

［10］Jhuang H，Serre T，Wolf L，et al.A biologically inspired system for action recognition［C］//ICCV.Computer Vision.Cambridge:ICCV，2007:1-8.

［11］杨跃东，郝爱民.基于动作图的视角无关动作识别［J］.软件学报，2009，20(10):2679-2691.

［12］黄飞跃，徐光祐.视角无关的动作识别［J］.软件学报，2008，19(7):1623-1634.