APP下载

基于复合运动特征的视频异常事件检测

2020-11-02石艳娇易玉根

计算机工程与设计 2020年10期
关键词:二阶直方图分类

石艳娇,张 晴,崔 柳,易玉根

(1.上海应用技术大学 计算机科学与信息工程学院,上海 201418;2. 江西师范大学 软件学院,江西 南昌 330022)

0 引 言

随着社会各界对治安问题的广泛关注,视频中的异常事件检测成为当下的研究热点。如何对视频中的内容进行描述是异常检测算法中的关键问题。传统的基于目标的特征提取方法中,跟踪算法的不稳定将严重影响异常检测算法的准确性。因此近年来,像素级的底层特征提取算法受到学者们的广泛关注。这类特征无需目标跟踪与分割,可从像素级底层特征出发对场景内容进行刻画,避免了跟踪算法带来的不稳定性。运动是视频中的重要属性,基于光流的统计特征是异常检测中较为常用的用于描述运动信息的特征,如Cong等[4]提出的多尺度光流直方图(multi-scale histogram of optical flow,MHOF)特征。该特征不仅包含运动信息,还包含了空间上下文信息,取得了较好的检测效果,并在后来的研究中得到广泛引用。但该特征只考虑了一阶运动特征即运动的大小和方向,并未对运动的变化进行描述。

本文主要研究异常事件检测中的视频内容描述。观察到运动的变化(包括幅值和方向)是异常的关键性标识元素,提出一种融合了一阶和二阶运动特征的复合运动特征描述方法,以对场景内容进行更全面的描述。同时提取视频中的感兴趣区域,实现冗余信息的筛除。此外,将传统多分类线性判别分析(liner discriminant analysis,LDA)算法加以改进,以解决异常事件检测这一一分类问题。

1 相关工作

视频内容描述就是提取能够表征视频内容属性的特征,以便于后续进行更精准的分类。视频内容表示是否合理、全面,将直接影响后续分类的精度。Yu等[1]利用稠密光流和相互作用力来表示视频内容。Wang等[2]使用光流方向直方图(histogram of optical flow orientation,HOFO)来编码视频中的运动信息。Wang等[3]则提出了采用协方差矩阵对光流产生的运动信息进行编码。Cong等[4]提出了一种多尺度光流直方图(multi-scale histogram of optical flow,MHOF)特征,该特征在光流提取的基础上,对运动方向和运动能量进行了多尺度量化,从而实现了对视频中运动和空间信息的刻画。该方法一经提出就在后续的异常事件算法中被广泛应用[5-7]。Tracklets是另一广泛使用的运动特征提取方法[8,9],该方法利用相邻若干帧提取目标的运动轨迹。由于该方法利用短时跟踪,避免了传统跟踪方法中检测轨迹偏离真实目标所带来的严重影响。周培培等[10]利用局部梯度方向直方图和局部光流方向直方图分别提取运动和外观特征,Yu等[11]则将多尺度光流直方图和多尺度梯度直方图结合作为最终的特征表示。Zhang等[12]在运动信息外,基于支持向量数据描述(support vector data description,SVDD)方法获取目标的球状边界,以实现目标的外观描述。Wang等[13]采用空-时纹理方法对运动和外观信息进行统一描述。但上述方法均未考虑到运动变化这一标识异常的重要信息。此外,这些方法对所有视频内容进行同等对待,并未考虑无关信息的处理所带来的资源浪费和对检测精度的干扰。

近年来,深度学习由于其优越的性能受到各领域研究学者的广泛关注。在异常事件检测领域,也涌现出了大量基于深度特征的方法[14-17]。Zhou等[15]提出一种空-时卷积神经网络,并基于空-时感兴趣体(spatial-temporal volumes of interest,SVOI)来获取空域和时域维度的信息。Bao等[16]提出在光流块基础上利用PCANet来获取深度表示。基于深度学习的方法检测效果一般都比较理想,但通常需要较高的硬件需求。并且由于异常事件样本通常较难获取,基于深度学习的方法只能利用少量异常样本或对异常样本进行增强进行模型训练,这就导致模型对训练数据敏感,泛化能力较差。

针对上述方法中存在的不足,本文提出了融合一阶和二阶运动特征的复合运动特征描述方法,对场景内容进行更全面地描述。同时提取视频中的感兴趣区域,实现冗余信息的筛除。此外,根据异常样本较难获取这一事实,将异常检测考虑为一分类问题,避免了异常检测在二分类模型下负样本量不足以及样本不均衡问题。

2 基于复合运动特征和一分类模型的异常检测

2.1 感兴趣区域提取

视频数据具有很强的冗余性,这些冗余信息不仅降低视频数据的处理效率,而且会对检测精度造成影响。因此本文首先提取视频中的感兴趣区域。视频中的异常通常由运动引起,因此本文考虑将从未出现运动的区域即背景区域去除。将训练视频中各帧的光流幅值求平均值,并进行简单的形态学操作处理,即可得到如图1所示的感兴趣区域。其中图1(a)为UCSD Ped1数据集中的示例图像,图1(b)中的白色区域即为本文确定的感兴趣区域。

图1 UCSD Ped1场景的感兴趣区域

2.2 复合运动特征提取

本文采用MHOF特征作为一阶特征的描述。观察到目标运动的突然改变可能引起异常,如突然加速或突然改变运动方向,本文提出二阶运动特征来对运动的变化进行描述。同时提出融合一阶和二阶运动特征的复合特征描述方法,以对运动及运动的变化进行全面的描述。

在提取一阶特征时,首先计算光流场,然后将光流场划分为大小为n×n的图像单元。利用式(1)提取一阶运动特征

(1)

其中,r(·)为取整函数,rFM和θFM表示一阶运动大小和方向,hFM(x,y)表示(x,y)处的一阶多尺度直方图特征。参照文献[4]设置参数d=8及T=1。

在提取二阶特征时,首先利用光流场实现短时跟踪。不同于以往的目标跟踪算法,所述跟踪仅利用连续三帧的光流场,实现像素级的短时跟踪,过程如图2所示。

二阶运动特征提取过程可总结为如下:

(1)利用视频序列中的第t-1、t和t+1帧计算光流场Vt-1、Vt。

(2)设(xt-1,yt-1) 为第t-1帧中像素P所在的位置,该像素在第t帧中的位置(xt,yt)可通过式(2)获得

图2 二阶运动特征提取

(xt,yt)=(xt-1,yt-1)+Vt-1(xt-1,yt-1)

(2)

基于运动向量场Vt,可获得像素P在第t帧中的运动向量Vt(xt,yt)。

(3)在获得像素P在第t-1和t帧的运动向量Vt-1(xt-1,yt-1)和Vt(xt,yt)后,即可利用式(3)计算其二阶运动向量

SMV(xt,yt)=Vt(xt,yt)-Vt-1(xt-1,yt-1)

(3)

其中,SMV(xt,yt)表示第t帧中(x,y)处的二阶运动向量。

(4)在获取了二阶运动向量场后,将其划分为大小为n×n的图像单元,然后按照式(4)进行直方图统计,获得二阶运动描述

(4)

其中,rSM和θSM表示二阶运动大小和方向,hSM表示二阶多尺度直方图特征。d和T的设置与一阶特征提取相同。

最后将一阶特征和二阶特征按照式(5)进行融合,得到最终的复合运动特征

hFSM=w×hFM⊕(1-w)×hSM

(5)

其中,⊕为直方图拼接操作,w用于平衡一阶和二阶运动特征。

为了实现异常区域的定位,采用如图3所示的空时基进行特征表示。即对于当前待处理的图像单元,将其本身及空时邻域的复合运动特征进行拼接来表示该图像单元。

图3 用于异常区域定位的空时基

2.3 基于一分类模型的异常检测

基于异常事件检测的特点,本文将异常事件检测考虑为一分类问题,即利用已知的正常事件样本训练正常模型,而不符合该模型的样本即判定为异常事件。本文采用一分类LDA算法实现异常事件检测。在众多的分类方法中,选择LDA算法进行分类主要考虑以下因素:首先,本文的主要创新在于提出一种复合运动特征的视频内容描述方法,一种简单且经典的分类算法将更能够突出本文提出特征描述方法的性能;其次,LDA为线性方法,计算简单,相比于其它一分类方法如一类支持向量机(one class support vector machine,OC-SVM)、基于核的空Foley-Sammon变换(kernel null Foley-Sammon Transform,KNFST)等,时间效率优势明显。

线性判别分析可定义为以下优化问题

(6)

其中,Sb是类间散度矩阵,Sw是类内散度矩阵。最大化式(6)即可求得最优投影方向。最常用的求解方法是通过式(7)进行广义特征值分解

Sbw=λSww

(7)

以上分析可以看出,经典LDA算法并不适用于一分类任务,因为当类别数C=1时,得到零个投影方向。因此,本文对经典LDA算法进行了调整。设训练样本即正常事件样本集合X(X1,…,XN)为第一类样本,并假设一个全零的样本为第二类样本,然后进行二分类的LDA,得到最优投影方向和X的投影x(x1,…,xN)。对于测试样本t,其在最优投影方向上的投影t*与x中最近的样本xi的距离即为该测试样本的异常得分。一分类LDA的计算过程如图4所示。

图4 一分类LDA算法

由于式(7)中的Sw通常为半正定,为了使之正定,可将另一正定的对角矩阵与之相加得到的S′w来代替Sw,即

S′w=Sw+αI

(8)

其中,α为任意正实数,I为单位矩阵。本文中α设为5。

3 实验结果与分析

为了验证本文提出算法的有效性,在UCSD数据集[18]上对本文提出方法进行验证。该数据集共包含Ped1和Ped2两个子集,每个子集中包含训练视频序列和测试视频序列,拍摄场景为校园中的步行道。训练视频序列中均为正常事件,每个测试视频序列中包含一个或多个异常事件,并提供了帧级和像素级Groundtruth。表1给出了UCSD数据集的相关信息。图5给出了该数据集中的部分异常事件的示例,其中图(a)和图(b)中的骑行自行车为异常事件。

表1 UCSD数据集的详细信息

图5 UCSD数据集中的异常事件示例

首先对算法中的参数选择进行分析。本文提出算法中待确定的参数为图像单元大小n和融合权重w。按照一定的步长进行遍历搜索,最终确定参数n和w的最优取值:对于Ped1子集,n=10,w=0.5;对于Ped2子集,n=16,w=0.6。在后续实验中,均采用该参数配置进行实验。

在UCSD Ped1和UCSD Ped2数据集上的部分检测结果如图6和图7所示,白色半透明模板所覆盖区域为检测到的异常区域。从图中可以看出,本文提出方法能够检测出滑板、自行车等异常事件。

图6 UCSD Ped1数据集上的部分检测结果

图7 UCSD Ped2数据集上的部分检测结果

为了进一步说明本文提出方法的有效性,将在UCSD数据集上的检测结果与一些经典或前沿的方法进行对比,对比方法分别为SF-MPPCA[18]、MDT[18]、MHOF[4]、DSparse[7]、sHOT[8]、BSFM[19]、Sabokrou[20]和Biswas[21]。表2和表3分别列出了各方法在Ped1和Ped2子集上的检测结果。其中所对比方法的结果数据均来自于相应的参考文献。表中加粗字体表示在该指标下的最优检测结果,“-”表示相应文献中并未提供该指标下的结果值。

表2 各方法在UCSD Ped1子集上的检测结果

表3 各方法在UCSD Ped2子集上的检测结果

综合以上对比结果可以看出,本文提出的异常检测算法具有较为优越的检测性能。

为了考察分类算法的时间效率,将LDA与其它两种一分类算法OC-SVM和KNSFT进行对比。实验所使用计算机硬件配置为Inter i5-7500 CPU、16 G内存。首先提取所有视频序列的特征并保存在磁盘文件中,并分别对分类过程所需时间进行测试,结果见表4。其中表4的第二列“总分类时间”表示不计特征提取过程而只对分类阶段进行计时的结果。可以看出,在总体分类时间上LDA算法优势并不明显,这是由于算法未做优化处理,并且受计算机硬件限制,算法中存在大量的读写文件操作。为了进一步验证LDA算法的时间效率,本文仅对分类算法进行计时,而不计入读写文件的时间,并最终计算出每一帧的平均时间,结果如表4的第三列“净分类时间”所示。可以看出,LDA算法的净分类时间为0.73 ms,远远低于KNFST的2.41 ms和OC-SVM的43.48 ms。相信随着硬件的升级以及算法的优化,线性分类方法LDA的时间优势将在本文提出方法中体现的更加明显。

表4 各分类方法的时间代价比较

4 结束语

本文提出一种基于复合运动特征和一分类线性判别分析的异常事件检测方法。考虑到运动变化通常是异常事件的重要标志,提出一种融合了一阶和二阶运动特征的复合运动特征,以对视频内容进行更全面的描述。考虑到视频中冗余信息对计算效率和检测精度的影响,提出只对视频中的感兴趣区域进行异常判断。同时,考虑到异常事件的特点,提出使用一分类LDA算法对异常事件进行检测。在UCSD数据集上的实验结果表明了本文提出算法的有效性。但该算法也存在一定局限性,例如其未考虑外观特性,因此对于某些由外观引起的异常不能有效检测。未来工作中将考虑融入外观特征,以进一步提高算法的适用范围和检测性能。

猜你喜欢

二阶直方图分类
符合差分隐私的流数据统计直方图发布
分类算一算
基于FPGA的直方图均衡图像增强算法设计及实现
一类二阶迭代泛函微分方程的周期解
具非线性中立项的二阶延迟微分方程的Philos型准则
分类讨论求坐标
用直方图控制画面影调
二阶线性微分方程的解法
数据分析中的分类讨论
一类二阶中立随机偏微分方程的吸引集和拟不变集