APP下载

基于深度卷积神经网络的异常行为快速识别*

2023-03-11韩兰胜王伟豪

火力与指挥控制 2023年1期
关键词:特征向量卷积像素

龙 翔,韩兰胜,王伟豪

(1.华中科技大学网络空间安全学院,武汉 430074;2.湖北生物科技职业学院,武汉 430070;3.鹏程实验室网络空间安全研究中心,广东 深圳 518000)

0 引言

在实施视频监控场景中,主要是通过判定人群是否存在有异常行为进行研究,以此实施智能化监控。人群行为本身具有复杂性以及多样性,因此,针对人群异常行为实施检测存在一定难度。随着工业以及军事等不同领域的发展,人群异常行为检测需求进一步增加,另外当前图像处理算法性能以及可靠性的显著提升,进一步促进了异常检测中机器视觉技术的应用[1-4]。异常检测和定位在视频分析过程中已经算是一项十分具有挑战性的任务,因为“异常”在定义层面本身就是主观的,需要充分考虑其长期所依赖的环境等诸多因素。一般来说,当一个事件很少发生或意外发生时,那么它就会被界定为“异常”。

在人群拥挤场景类型的视频中,异常构成即为各种罕见形状或罕见动作,针对未知形状或运动实施寻找是一项非常耗时的任务,因此,最高效的学习方法即为把区域或斑块正常帧作为研究中的参考模型,主要为其训练数据和相关区域的正常形状或动作,那些与正常模型不同的区域通常会被认为是异常的,要想将这些区域归类为正常和异常,需要收集大量的训练样本来描述每个区域的属性。在实际应用中,用来描述区域属性的方法有很多,目标轨迹估计是其中一个很重要的方法,一个物体如果不遵循已知的正常轨迹,就会显示异常。这种检测方法通常存在很多缺点,比如不能有效地处理过于复杂的遮挡、拥挤的场景问题。

为了避免上述这些缺点,学者们提出了各种解决方案,如光流或梯度。文献[5]使用马尔可夫随机场(MRF)模拟视频的一些特征模式,如稀缺性、意外性和相关性。文献[6]认为如果一个事件使用先前的观测数据无法重建,那么就说明这个事件是不正常的。文献[7]使用指数分布来模拟局部区域的光流直方图。文献[8]提出了一种用于表示视频的混合动态纹理(MDT),而且该方法所表示的特征符合高斯混合模型。文献[9]对MDT 进行了更详细的扩展和解释。文献[10]利用混合的概率主成分分析(MPPCA)模型来表示局部光流模式,并使用MRF来学习正常的模式。文献[11]引入社会力(SF)并将其视为群体异常运动建模的一种有效技术,并利用文献[12]所提出的基于时空定向能量滤波的方法来实现对异常行为的检测。文献[13]从正态数据中构造了一个相对完备的正态基集,如果不能用这个基集重建图像块,则认为该图像块不正常。文献[14]提出了一种基于光流特征对测试数据进行聚类的方法。文献[15-16]利用稀疏负矩阵分解(SSMF)来实现对像素局部模式的学习,同时也充分考虑到空间和时间背景。

卷积神经网路(CNNs)是一种人工神经网络结构,其在图像和语音识别等领域的优秀表现,使得这一技术被广泛应用。文献[17]提出将CNNs 用于拥挤场景异常检测,但在实际应用过程中主要存在两个问题,一是运行速度慢,二是由于CNNs 视为完全监督式的学习过程。由于这些困难的出现,使得近年来基于CNNs 算法进行优化以应用于实际的趋势越发活跃。文献[18]使用全卷积网络(FCNs)提取区域特征,之后再将传统的分类神经网络视为全卷积网络,并且使用区域特征提取器来实现计算成本降低的目的。总的来说,由于CNNs 和FCNs 都是基本的监督方法,所以无论是CNNs 还是FCNs 都不能完全独自胜任异常检测的任务。为了更好地拟合大规模的数据集,有专家提出使用更多的卷积层和更大的参数空间来进行数据集的拟合,即深度神经网络。AlexNet 是第1 个深度卷积神经网路模型,使用了许多现在深度卷积网络的技术方法。

因此,为了克服CNNs 和FCNs 在异常检测中存在的问题,本文提出在深度卷积神经网络的应用下建构视频检测以及定位方法。该方法利用全卷积神经网络和时间数据,将一个预先经过训练和监督的全卷积神经网络转移到一个无监督的全卷积神经网络,进而确保能够检测全局场景中的异常,提出利用级联检测的方式来降低算法的计算复杂度,从而使其在速度和精度方面获得较高的性能。本文提出在全卷积神经网络的应用下,针对异常行为检测架构检测模型,解决特征表示和级联离群值检测两个主要任务。仿真实验基于基准数据集,实验结果表明,本文所提方法在检测和定位精度上优于现有算法,且运行速度更快,从而表明本文所提算法的有效性和可行性。

1 本文算法

首先对本文所提出的方法总体思路进行阐述,然后对其中涉及的技术细节进行详细描述。

1.1 总体思路

视频数据中的异常事件被定义为不规则的形状或运动,或者可能是两者的结合。基于此定义,识别形状和运动是异常检测和定位的基本任务。单个帧不包含运动属性,它只提供该特定框架的形状信息,因此,为了识别事件的运动属性,需要一系列的帧。

为同时分析形状和运动,定义帧的平均像素It和前一帧It-1,则It'表示为

在尺寸为w×h 的网格上表示视频帧时,从序列Dt开始;Dt即为定义在w0×h0大小的网格Ω0上,之后实施序列Dt传递,将其逐渐传递到第k 个中间卷积层定义的全卷积网络(FCN),每个FCN 定义在大小为wk×hk的网格Ωk上,其中,wk>wk+1,hk>hk+1,用L=3 来表示卷积的数量层。

FCN 第k 个中间卷积层输出特征向量即为fk∈Rmk(具体表示为各个其中均存在有mk个实特征值),且可以确保mk≤mk+1,m0=1 开始。针对输入序列Dt,第kth个卷积层输出矢量值矩阵的具体表示为:

kth表示FCN 的中间卷积层,其中,k=1,…,L。该表示用于标识Ωk中的一组部分成对重叠的区域,也被称为感受野。因此,要想准确地表示坐标系It,就需要按顺序Dt对Ωk进行排序,然后再乘以mk,即

其中,l=1,2,…,mk,k=1,…,L。wk×hk的大小随k 值的增加而减小。

假设有q 个来自视频的训练帧,并且它们均被认为是正常的。使用长度为mk的wk×hk×q 的向量来定义二维的正常帧,它们是由预先训练好的FCN 自动生成的。本文使用高斯分布对正常行为进行建模。

图1 变换表示示意图Fig.1 Schematic diagram of transformation representation

本文所提的检测方法的工作流程如下:首先可以把预先训练完成的FCN 通过输入帧实施传递。然后,hk×wk在Kth的输出中能够将其生成是区域特征向量层,之后可以在高斯分类器G1的应用下验证分析以上特征向量。更具体地说,G1是高斯分布,它适合于所有正常提取的区域特征向量,与G1完全不同的区域被认为是异常。针对所检测的低置信度可疑区域,可以将其在稀疏自动编码器中实施分配。在这一过程中,和G1相似的高斯分类器G2标记这些区域,G2为高斯分类器,对从训练视频数据所提取的相关区域特征向量,可以实施验证,自动编码器即可以表示出训练视频数据。最后,可以通过在FCN 上回滚来注释那些异常区域的位置。

1.2 异常检测

在本文中,使用一组区域特征来表示视频,这些特征被密集地提取,并且它们的描述由第Kth个卷积层的输出中的特征向量给出。

高斯分类器G1符合FCN 生成的所有正常区域的特征。当G1的区域距离特征大于阈值α 时,则会被认为是不正常的,而那些和G1相容的(例如,他们的距离和阈值β 相比偏小),此情况下即会标记为正常。如果验证发现这一区域和G1的距离为α、β间,即可以判定为这一区域可疑。针对所检测的可疑区域,可以集中提供给下一个卷积层,以能够通过预训练生成正常区域实施训练。在此过程中以上可疑区域的新表示更具区别性,表示为

其中,n=1,2,…,h,h 为自动编码器所生成的特征向量,在大小上等同于隐藏层的大小。

在此步骤中,仅处理可疑区域。因此,网格(wk,hk)中的某些点(i,j)被忽略。类似于G1,在自动编码器表示的所有常规训练区域特征上创建一个高斯分类器G2。那些和G2的不太适合区域即为异常。

式(5)和式(6)实现了对两个拟合高斯分类器异常检测过程的总结分析。首先,有

此处,d 是区域特征向量x 与G 模型的马氏距离。

1.3 视频定位

第1 卷积层具有大小为x1×y1的m1个内核。考虑到第t 帧,将它们卷积在序列Dt上,作为该卷积的结果来提取特征。FCN 的每个输入区域都是由长度为m1的特征向量所表示的。在此连续过程中,将mk个图作为第k 层的输出。 因此,第k 层输出中的一点是对FCN 输入中重叠的(x1×y1)th个感受野子集的描述。

在AlexNet 的修改版本中,层的顺序表示为

其中,C 和S 分别表示的是卷积层和下采样层符号,在最后还需要实现对卷积层以及下采样层的全连接。

假设在网格Ωk上的Ck层中所生成区域特征向量为n 个区域特征向量(i1j1)…(injn)被标识为显示异常。Ωk中的位置(i,j)对应于

即原坐标系中的矩形区域部分。

下采样(平均池化)层也可以被视为只有一个内核的卷积层。之后,通过检测原始帧所确认的所有异常区域,均为部分重叠和大块组合。这也是导致其定位性能较差的根本原因。

1.4 用于异常检测的FCN 结构

本节主要分析了一个预先训练好的且用于生成区域特征向量的CNN。仅应用卷积层,本文中将CNN 的分类调整为FCN,其中选择能够代表视频的最佳图层是非常重要的一个环节,需要充分考虑到以下两个方面的要素:

1)虽然更深层次的特征通常更具独特性,但是在对这些更深层次的特征进行实际应用时是非常耗时的。此外,由于CNN 主要是用于图像分类的,所以在对其开展更加深入的过程中可能会产生一系列用于图像分类的过拟合特征。

2)越深入,所获得输入数据的感受野就会越大,结果定位不准确的可能性就会相应增加,甚至会对性能产生截然相反的影响。

对于FCN 模型的前两个卷积层的处理,本文选择了一个改版的AlexNet 且名为Caffe 参考模型。FCN 有3 个卷积层,为了便于找到最好的卷积层k,先把k 设为1,然后把它的值增加到3。但是需要明确的一点就是,当最好的k 被确定时,即会忽略更深的卷积层。首先,使用C1层的输出。想要实现对正常和异常区域的良好区分,所获取的感受野尺寸相对较小,且生成特征不能够得到良好结果。因此,这里有很多误报。之后,C2的输出会被作为更深的层使用。在该阶段,能够收获比C1更好的性能,由于C1的输入帧中有与之对应且足够大的感受野以及更深层次的特征,使其更具有辨别能力。当k=3 时,将在C3层得到结果即为输出数值。就算是增加了网络容量,然而所得结果和第2 卷积层相比较差,通过增加一层,获得了更深的功能。然而,由于网络是为了ImageNet 才训练的,这些特征难免会与图像分类任务过度拟合。因此,本文将C2输出作为是提取区域特征。首先可以在卷积层的应用下,描述分析各个生成的区域特征进而进行变换,然后使用稀疏自动编码器学习该层的内核。这个新层称为CT,它位于C2的上面CNN 的其中一层。一个预先训练好的CNN 加上一个额外的(新的)卷积层,这是本文用于检测异常的新架构。表1 给出了预训练的CNN 不同层的性能。

表1 评估CNN 卷积层以进行异常检测Table 1 Evaluation of CNN convolution layer for abnormal detection

2 实验与结果分析

为检验本文所提算法的有效性和可行性,在UCSD 和Subway 两种通用基准数据集上对所提出方法的性能进行评估。

2.1 UCSD 和Subway 数据集

UCSD 数据集中主要的动态对象是步行者,人群密度变化过程即为从低到高,汽车、轮椅以及滑板等目标即为导致出现异常的主要因素。在这一数据集中包含的所有训练帧都是正常的,并且只包含行人。该数据集有12 个序列用于测试,16 个视频序列用于训练,分辨率为320×240。为了评估定位,所有测试帧的ground truth 都是可用的,异常帧数≈2 384,正帧数≈2 566。Subway 数据集包含两个序列,分别是:记录一个地铁站的入口(1 h 和36 min,144,249 帧)和出口(43 min,64,900 帧)。进出车站的人一般情况下行为正常。异常事件的定义即为人们在出入口或进入出口方面出现错误方向移动,或者是出现逃避付款行为。这一数据集也存在一定的局限性,即为异常数量少,并且存在可预测的空间定位。

2.2 评价方法

本文使用受试者工作特征曲线(ROC)、等错误率(EER)和AUC 来评价所提算法与现有算法的优劣。使用的帧级和像素级两种测量方法,为区别帧是异常(正)还是正常(负)。定义措施如下:

1)帧级:如果一个像素被检测到存在异常,则认为它是异常的。

2)像素级:如果算法检测到像素覆盖至少40%的异常ground truth 像素,则认为该帧显示异常。

2.3 定性和定量结果分析

图2 展示了这一系统在应用,在UCSD 和Subway 数据集样本上出现的输出情况,可以实现对样本中异常情况的正确检测和定位。其中在应用中的异常检测系统问题主要集中在假阳性率较高上,在这一方法应用下,出现的错误检测异常区域间如图3 所示。在应用中,出现假阳性原因主要为:场景过于拥挤,人们行走方向存在较大差异。因为在训练视频中没有与其他行人相反的步行者,因此,本文的算法将该动作也被视为异常。

图2 本文方法在UCSD 和Subway 数据集上的输出,红色为异常区Fig.2 Output of the method on UCSD and Subway datasets.The red is the abnormal area

图3 系统中误报的一些例子Fig.3 Some examples of false report in the system

下页图4 给出了本文所提算法与其他方法在两个数据集的帧级和像素级ROC 的比较。从ROC显示,所提出的方法优于UCSD 数据集中的其他方法,如图4(a)和图4(c)。Subway 数据集的帧级ROC 如图4(b)所示。在此数据集中,对入口和出口场景中都进行了评估。从ROC 结果可以看出本文所提的方法比文献[9]和文献[13]所提方法具有更好的性能。

图4 帧级和像素级ROC 比较Fig.4 Frame level and pixel level ROC comparison

表2 比较了本文所提的方法和其他最新方法的帧级和像素级EER。本文所提算法的帧级EER为13%,其中,Tan Xiao 等人实现的最佳结果通常为12%[16]。除此之外,本文所提算法的表现均优于其他方法。另一方面,本文所提方法的像素级EER 为16%,次佳结果为18%。在像素级EER 指标中,本文所提方法优于其他方法。

表2 在UCSD 数据集上进行帧和像素级别比较的EER 结果Table 2 EER results of frame and pixel level comparison on UCSD dataset

表3 给出了该数据集的AUC 和EER 比较。在出口场景中,本次所提出的AUC 和EER 措施方面应用方法和其他方法相比具有一定优势,其中在AUC 和EER 方面优于0.51%和0.39%。在入口场景,这一方法在应用中和其他所有方法相比,所提出方法的AUC 效果更好。

表3 Subway 数据集上的AUC-EER 比较Table 3 AUC-EER comparison on subway dataset

2.4 运行时分析

表4 中给出本文所提出的用于处理单个帧的方法的运行时详细信息。用于检测帧中异常的总时间约等于0.002 8 s,运行效率明显高于其他算法。

表4 运行时的详细信息(s/帧)Table 4 Runtime Details(s/frame)

表5 显示了本文所提方法与其他方法相比的速度。本文使用的全卷积神经网络,同时执行特征提取和定位,因此,大大提升了速度。

表5 UCSD 上的运行时间比较(s)Table 5 Running time comparison on UCSD(s)

此外,通过将6 个帧组合成一个三通道输入,本文所提算法仅需1 个前向通过就可以处理1 个视频帧的立方块。如前所述,为了检测异常区域,本文仅处理两个卷积层,对于某些区域,使用稀疏自动编码器对其进行分类。处理这些浅层会减少计算量。基于这些方法,除了并行处理完全卷积网络外,与其他方法相比,本文所提算法具有更快的处理速度。

3 结论

针对拥挤场景下异常行为快速检测问题,本文提出了一种新的用于视频异常区域生成和描述的FCN 架构。首先利用全卷积神经网络和时间数据,将一个预先经过训练和监督的全卷积神经网络转移到一个无监督的全卷积神经网络,进而确保能够检测全局场景中的异常,然后提出利用级联检测的方式来降低算法的计算复杂度,从而使其在速度和精度方面获得较高的性能。仿真实验结果表明,本文所提方法具有定位快速、准确的特点,在检测和定位精度上优于现有算法,且运行速度更快。

猜你喜欢

特征向量卷积像素
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
像素前线之“幻影”2000
克罗内克积的特征向量
基于3D-Winograd的快速卷积算法设计及FPGA实现
“像素”仙人掌
从滤波器理解卷积
一类特殊矩阵特征向量的求法
基于傅里叶域卷积表示的目标跟踪算法
ÉVOLUTIONDIGAE Style de vie tactile
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用