基于行为模式树的人体动作识别

2020-06-10毛雨昂朱冰

电子技术与软件工程 2020年4期

毛雨昂朱冰

（1.北京工业大学度柏林学院软件工程北京市 100124 2.北京理工大学北京市 100081）

1 前言

深度学习[1]由于能够自主地从数据集上学到有效特征而广受欢迎。视频特征一直是研究的重点和难点，在深度学习没有得到广泛应用的时候，研究人员们通过大量的计算和验证去手工挖掘特征，例如SIFT-3D[2]、HOG-3D[3]和Idt[4]。iDT是一种对动作描述能力很强的手工特征。深度学习在学术界流行之后，大量用来提取视频特征的网络被提出，其中3D卷积神经网络[5][6]就是很有效的一种。3D 卷积神经网络中3D卷积和3D池化操作是成功的关键。它们能有效的混合空间和时间域上大的信息，让输出不再局限于单张图片，而是一个流。本实验采用3D卷积神经网络提取视频特征。

不同于单帧图像，视频是多帧图像的有序组合，帧与帧之间有时间和空间上的联系。3D卷积神经网络提取到每16帧的特征，但相比于一段视频，16帧仍然只是局部的，仍然需要将这些局部的特征聚合成全局特征。本文提出行为模式树，这是一种树型模型，将充分利用到空间和时间上的信息，更好的表示一段视频。行为模式树的灵感来源于数据挖掘。从J. Han提出的Frequent Pattern Tree[7]中受到启发，本文提出了行为模式树（Action Pattern Tree）。行为模式树基于数据挖掘领域，挖掘关联规则的其中一种方法叫做频繁模式增长（Frequent-Pattern Growth, FP-growth），它可以挖掘全部频繁项集而无须多次扫描数据库，产生候选项集。

FP-Growth的核心是分治策略：第一步是构造，将数据库压缩成一棵频繁模式树（简称FP-Tree），并保留项集关联信息，生成项头表。第二步是挖掘，把压缩后的数据库重新划分成一组条件数据库，在这里也可以叫做条件模式基。条件模式基即包含FP-Tree中与后缀模式一起出现的前缀路径的集合。每个数据库都会关联一个频繁项，又或者是一个模式段。

2 行为模式树

Action Pattern Tree在构造时与Frequent Pattern Tree有一些不同之处。

首先是项集的构造上，FP-Growth算法采用的是传统的方式构造数据库的频繁项集，即不管每一项在数据库的一条数据中出现多少次，均视作出现一次，且不分先后顺序，只关心是否出现。而本文提出的项集的构造上，则是把一条标签向量中连续出现的相同标签视作一个标签，因此同一项集中可能出现多个相同的项。同一类别可能在一条数据中的不同位置出现，本文认为，这种不同类别之间的位置差异对挖掘关联规则十分重要，因为其中带有重要的时间信息。

其次是在支持度和置信度的设置上，FP-tree一般的最小支持度与最小置信度的设置需要相关领域的专家设定，也可以经过其他分析划定。AP-Tree构造的时候，采取了统计的方式设定阈值。本文在实际实验中对数据进行了均匀采样，发现经过分类器分类后得到的序列会有一部分特别少的奇异点，但是因为无法证明这些点在模式中起到关键的作用，因此在实验中把这些点作为噪声处理掉。

另外，在树的构造方式上，本文充分考虑了时间上的先后顺序。在构造项集的时候可以发现，本文所构造的项集由于保留了不同位置的相同标签，天然具备时间属性。因此在实验中，对训练集选择出频繁1项集，并将该标签元素确定为主模式，然后将数据集中的每一条数据再以主模式为界限划分成更精细的项集，确保新产生的项集中每个项只出现一次。紧接着将先出现的标签保存在根节点的左支，后出现的标签保存在根节点的右支。

具体算法如下：

表1：与baseline的结果对比

本文提出行为模式树的最终目的是用来计算动作发生的概率，因此构造出了行为模式树和行为模式表之后，还需要计算行为模式表中每种模式出现的概率。计算公式设计如下：

设一棵行为模式树节点权值参数为μ，路径权值参数为ν。一段动作标签序列中提取到的模式有N个节点和M个路径，统称为p。则一个待预测视频的动作序列经过一棵行为模式树的概率可以表示为：

其中v表示视频的动作标签序列，μ与ν是与p相对应的权值参数，α与β表示对权值参数的fine-tune，PN是惩罚项，如果序列中出现了不在AP-Tree中的模式，则给予一定的惩罚。

3 实验

本文的baseline是3D卷积神经网络分别进行mean，max和BoW[8]之后的准确率。实现BoW采用的是VLFeat库。在实验时，K值分别选择了101,256,512。之后也考虑了目前最流行的一种编码方式Fisher Vector[9][10]，但是计算所需的内存超过了当前可用实验设备的承受范围。最后将C3D经过BoW模型之后得到的结果给出。实验结果如表1所示。

本文提出的算法结果优于baseline，这证明了本文所提方法的有效性。

4 结论

行为模式树能够充分考虑到动作在空间域和时间域上的信息，并进行有效建模。同时，由于结构的特性，它能够很简单的解决一些对神经网络而言比较困扰的问题，比如输入不统一的问题，在本文中即向量长度不一致，又或者数据比例不平衡的问题，行为模式树不要求每类动作的数据大小基本相等。行为模式树简单、紧凑而又高效，可以灵活地与现有的特征聚合方式搭配，让它们具备更好的描述能力。