基于改进SSD的人群异常行为检测算法研究

2022-12-24亢洁，田野，杨刚

红外技术 2022年12期

亢洁，田野，杨刚

亢洁1，田野1，杨刚2

（1. 陕西科技大学电气与控制工程学院，陕西西安 710021；2. 西安邮电大学通信与信息工程学院，陕西西安 710121）

针对人群异常行为检测任务中存在的算法复杂度较高，重叠遮挡等带来的检测精度低等问题，本文提出一种基于改进SSD（Single Shot Multi-box Detector）的人群异常行为检测算法。首先采用轻量级网络MobileNet v2代替原始特征提取网络VGG-16，并通过可变形卷积模块构建卷积层来增强感受野，然后通过将位置信息整合到通道注意力中来进行特征增强，能够捕获空间位置之间的远程依赖关系，从而可以较好处理重叠遮挡问题。实验结果表明，本文提出的算法对人群异常行为具有较好的检测效果。

深度学习；异常行为检测；SSD网络；可变形卷积；注意力机制

0 引言

现如今，异常行为检测作为机器视觉领域和图像处理中的热门研究方向，在公共场所的安全防范方面有着重要意义[1]，备受研究人员关注。公共安全事件的频发对百姓的人身安全造成了严重威胁，如果使用智能监控系统实时监控异常情况，并对异常情况进行报警，这样一来可以减轻公共安全事件对社会带来的危害。由此可见，对人群中异常行为的检测具有至关重要的意义。

传统方法一般先从视频序列中分割出待测目标，然后特征提取并比对提取到的人群行为特征和标准库中异常行为样本，最后交给分类器判断异常行为是否存在。但是如果数据量较大，传统的方法则显示出计算能力不足，深层次特征无法表达的问题。

相比传统方法，深度学习的方法更能高效地解决问题。在某些场景下，监控画面中所包含的人群异常行为特征通常受到背景环境复杂、拥挤、遮挡等影响[2]，这些因素都会导致人群异常行为检测算法的准确性和检测速度大大降低。胡等人[3]提出一种基于深度时空卷积神经网络的群体异常事件检测算法，其利用每帧视频的空间特征与前后帧的时间特征，将二维卷积运算扩展到了三维空间，并将视频区域划分为若干子区域获取其空间特征，最后将空间特征输入到深度时空卷积网络进行训练和分类。Almazroey等人[4]提出一种基于深度学习的算法来检测监控视频中人群的异常行为，该算法利用视频中提取到的关键帧光流的大小、方向、速度特征生成多个2D模型特征，最后将2D模型特征输入预训练的AlexNet模型中进行判断。穆等人[5]基于生成对抗网络（generative adversarial networks，GANs）提出了一个人群异常事件检测的算法，该算法使用正常事件样本训练出一对生成对抗网络，将其中一个生成对抗网络作为输入并生成对应的光流特征，再将光流特征输入另一个生成对抗网络并产生对应的帧，最后分析生成的帧图像和真实帧之间的差异来检测和定位异常事件。

1 人群异常行为检测模型

1.1 改进SSD模型架构

Wei Liu[6]提出的SSD网络是主要的目标检测算法之一。SSD网络由两部分构成，第一部分中VGG-16网络对图像进行特征提取，在SSD网络中删除其全连接层；第二部分是对目标分类检测，用2个常规卷积层代替VGG-16中的2个全连接层，并且增加了4个卷积层，还加入了特征金字塔网络（feature pyramid network，FPN）的检测方式，从而实现多尺度目标检测。

SSD网络的优点是提取6个尺度不同的特征图对目标进行检测，深层特征图检测和浅层特征图被分别用来检测大目标和小目标，因此SSD网络具有更好的检测尺度。但由于SSD网络不同层的特征图之间是相互独立的，并且SSD的特征提取网络采用VGG-16网络，这样导致模型参数较大，收敛速度较慢。

针对SSD网络存在的问题，本文提出一种基于改进SSD的人群异常行为检测模型，如图1所示，该模型将原始主干特征提取网络VGG-16更换为轻量网络MobileNet v2，然后使用可变形卷积模块提升感受野，最后通过坐标注意力机制（coordinate attention，CA）[7]使用精确的位置信息对通道关系和长期依赖性进行编码，根据未遮挡部分得到上下文关系来预测遮挡部分，对重要图像特征进行特征增强，以此来提高人群异常行为检测算法的检测效果。

图1 基于改进SSD的人群异常行为检测模型

1.2 人群异常行为定义

在不同场景中，异常行为的定义各不相同。由于人群异常行为种类繁多，不能用统一的标准去衡量，所以对异常行为的定义需要考虑周围环境。一般来说，研究人员把不寻常的、和现有模式不同的、不可预测的行为定义为异常行为[8]。

本文应用背景面向校园中的监控视频画面，将异常行为分为两类情况：人行道上非行人通过和异常的行人运动模式。人群异常行为大致包括：骑自行车的人，滑滑板的人，小型机动车，轮椅以及行人踏入草坪等异常种类，所有异常均是自然发生的。

1.3 人群异常行为检测模型建立

1.3.1 MobileNet v2网络

为了提高特征提取的效率，模型的前置基础网络采用了轻量网络MobileNet v2[9]，该网络共有17个Bottleneck层（其中每个Bottleneck包含两个逐点卷积层和一个深度卷积层（depthwise convolution），一个标准卷积层和两个逐点卷积层（pointwise convolution），整个网络总计有可训练参数层54层。MobileNet v2网络中采用线性瓶颈（linear bottleneck）和倒残差（inverted residuals）结构对网络优化，虽然加深了网络层，但是模型体积变小了，速度加快了。

图2为MobileNet v2网络模块，该模块先通过扩展层来扩展维度，接着采用深度可分离卷积来提取特征，再使用映射层来压缩数据，让网络体量变小。由于扩展层和映射层存在可学习的参数，故整个网络可以学习如何更好地扩展数据和重新压缩数据。

图2 MobileNet v2网络模块

在输入图片尺寸相同的前提下，使用VGG-16的参数量约为13.835×107，而使用MobileNet v2参数量约为0.347×107。因此使用该网络可减少网络参数，进而达到减少计算量的目的。

1.3.2 可变形卷积模块

如果某一帧中出现了异常行为，我们需要对其特征进行提取并学习，传统的卷积核通常是尺寸固定、大小固定的，提取到的特征可能包含背景，或者提取的特征未能全部覆盖异常行为的目标主体，使网络学习不够精确，进而影响到目标检测的准确性。如图3所示，在传统卷积的基础上，可变形卷积[10]增加了方向向量来调整卷积核，使其可以根据实际情况调整自身的形状，使其形态更贴近特征物，从而更好地提取输入的特征。

众所周知，每一卷积层是在衔接的前一卷积层的基础上提取更加抽象的特征，考虑到如果将该模块放置位置过于靠前，则提取的信息较为冗余，若放置位置靠后，则信息丢失过多。通过实验可知，将其嵌入到MobileNet v2的第五层卷积层时，提高了算法对几何形变的建模能力，特征提取可以取得最佳的效果。

卷积核的定义：

＝{(－1,－1), (－1, 0), …,(0,1), (1,1)} (1)

式中：定义了感受野的大小和扩张。

传统的卷积输出是：

式中：为输入；为输出；为权重矩阵；0为特征图上的每个点；P是网格中的个点。

可变形卷积的输出是：

式中：DP为坐标偏移量。

对于输入的一张特征图，假设原来的卷积操作是3×3的，为了学习偏移量，定义了另外一个3×3的卷积层，输出的维度和原特征图相同，通道数等于2。图3下半部分的可变形卷积可认为是在上半部分生成的偏移量基础上进行一个插值操作，然后再做普通的卷积。

图3 可变形卷积模块

可变形卷积通过改变特征提取方式，使网络学习更为充分，并为解决遮挡问题起到辅助作用。虽然增加了少量的计算量，但可以使网络性能得到很好的提升。

1.3.3 注意力机制模块

一张特征图中包含了特征通道和位置等信息，图中有些内容是我们比较关注的，而有些内容对目标检测任务的结果贡献不大。如图4所示，可将CA模块看为一个计算单元，通过学习的方式，抑制不显著的特征，增强网络中特征的表达能力，进而提升目标检测效果。

本文使用的注意力将通道注意力分解为两个并行的一维特征编码过程，把空间坐标信息有效整合到生成的注意图中。具体操作就是对和（即水平与垂直方向）执行平均池化得到两个一维向量，接下来在空间维度上拼接和1×1卷积来压缩通道，然后通过BN层和ReLU来编码两个方向的空间信息并切分，接着各自通过1×1卷积得到和输入特征图相同的通道数，然后归一化加权。最后与原特征图相乘，以此来对特征进行自适应调整。

将注意力机制模块置于卷积层之后、批量归一化层（batch normalization，BN）之前，通过将位置信息整合到通道注意力中进行特征增强。图5为特征增强结构图，分别用CA模块增强6个经MobileNet v2提取的输出特征图。

注意力机制的加入，可以进行多尺度信息的融合，还可以根据未遮挡部分得到上下文关系，以此来预测遮挡部分，可以有效改善遮挡问题。这对异常行为检测任务非常重要。

2 实验相关工作

2.1 实验环境搭建

本文实验操作系统为Windows10，使用Pytorch深度学习框架，实验显卡型号为NVIDIA GeForce RTX 2080 Ti，使用数量为1，显卡内存为11GB，CPU型号为Intel(R) Xeon(R)E5-2678 v3@2.50GHz，CPU数量为6，使用PyCharm的编译环境。设置实验初始学习率为0.01，采用随机梯度下降法（Stochastic Gradient Descent，SGD）更新网络参数，学习动量为0.9，伽马系数0.1，权重衰减率为0.0005。

图4 坐标注意力模块

图5 特征增强结构

2.2 数据集预处理

本文选取UCSD（University of California, San Diego）异常检测数据集[11]完成实验任务，该数据集由安装在高处的摄像头拍摄获得，可俯视人行道。人行道上的人群密度从稀疏到拥挤。样本数据由98个视频片段组成，分为Ped1和Ped2两个不同的场景，Ped1场景拍摄的是人群沿垂直方向运动，Ped2场景中为人群沿水平方向运动，每个场景拍到的视频片段被分成约200帧的不同片段。

首先对数据集进行视频帧截取操作，选取最有代表性的视频帧作为数据样本，然后使用LabelImg软件对得到的数据样本进行标注，LabelImg是一个可视化的图像标注软件，工作界面如图6所示。通过标注生成相应的xml文件，最终获得4010张标注后的数据集。将训练集与测试集按比例分为8:2，并将输入图片缩放调整为300×300像素的图像，作为训练模型的原始输入，然后训练网络模型，使其能够判断输入的图像或视频数据中是否存在异常行为。

图6 LabelImg工作界面

2.3 实验设计与模型训练

将训练样本送入改进后的SSD模型中训练，将batch_size设置为32，max_iter设置为10000。对Ped1和Ped2依次进行消融实验，并多次调参及模型优化训练，然后进行对比实验。

3 结果与分析

3.1 评价标准

通常在人群异常行为检测任务中，使用的评估指标为AUC（area under curve）。AUC为受试者工作特征（receiver operating characteristic，ROC）曲线下方区域所围面积，在0～1之间取值，其表示的意义是正例排在负例前面的概率。如果某一检测算法的AUC数值较高，则可认为该算法具有良好的性能。

ROC曲线的横、纵坐标分别表示假正例率（false positive rate，FPR）、真正例率（true positive rate，TPR）。其中：TPR表示在所有真正例的样本中，被正确地判断为正例的比率。FPR表示在所有真反例的样本中，被错误地判断为正例的比率。

计算公式如下：

式中：TP表示判断为正例，实际为正例；FP表示判断为正例，实际为反例；TN表示判断为反例，实际为反例；FN表示判断为反例，实际为正例。

3.2 模型检测结果与分析

3.2.1 消融实验

为验证本文方法的有效性，将本文提出的模型（MobileNet v2＋Deformable Conv＋CA）与标准SSD模型（VGG-16）、更换特征提取网络后的SSD模型（MobileNet v2）以及更换特征提取网络并嵌入可变形卷积模块的SSD模型（MobileNet v2＋Deformable Conv）进行了消融实验，表1为测试集在不同模型下的参数对比结果。

从表1可以看出，在测试集Ped1和Ped2上，使用VGG-16的模型检测速度分别为21.96fps和20.36fps，使用MobileNet v2后，较使用VGG-16的模型检测速度涨幅明显，而使用MobileNet v2+Deformable Conv的模型检测速度虽然较使用MobileNet v2稍有下降（这是因为可变形卷积模块的加入增加了少量的计算量），但检测速度较使用VGG-16仍有较大提升。使用MobileNet v2+Deformable Conv+CA的模型检测速度分别为26.59 fps和25.41 fps，对比VGG-16，由于模型的特征提取网络替换为轻量网络MobileNet v2，所以模型检测速度分别提升了21.08%和24.80%。

表1 基于改进SSD的消融实验

AUC结果在使用VGG-16的模型上为61.98%和63.81%，使用MobileNet v2的模型，AUC值稍微上升，而使用MobileNet v2+Deformable Conv的模型，AUC结果较使用VGG-16提升了12.63%和22.20%，表明改变特征提取方式的方法对模型检测精度有明显效果。再加入注意力机制后，使用MobileNet v2+Deformable Conv+CA的模型的AUC结果继续提升，分别为74.50%和88.93%，较使用VGG-16的模型提升了20.20%和39.36%。AUC结果表明，注意力机制的加入，可以有效改善对存在遮挡的异常行为的检测，这对检测精度的提升有很大的帮助。综上可知，本文所提模型（改进后的SSD网络）在检测速度和精度方面优于标准SSD网络，实验验证了该方法的有效性。

3.2.2 模型损失曲线

图7和图8分别为本文提出的模型在数据集ped1和ped2上的训练损失曲线，包括模型的分类损失、回归损失和总体损失。由图可知，在数据集训练过程中，模型的损失值随着迭代次数的增加逐渐趋于收敛。

3.2.3 对比分析实验

表2为本文方法与其他3种检测算法的性能对比分析。为评估本文方法对人群异常行为检测的有效性，使用检测速度和AUC两个指标来进行判定。

由表2可知，文献[12]使用Social Force模型检测和定位人群视频中异常行为，使用词袋方法将帧分类为正常和异常，在测试集上的检测速度分别为23.36fps和23.18 fps，AUC结果为67.5%和70.00%。文献[13]使用不同的主干特征提取网络，在测试集上的检测速度分别为25.21fps和24.85fps，AUC结果分别为71.7%和83.2%。本文方法的检测速度为26.59fps和25.41fps，AUC结果为74.50%和88.93%。对比不同检测模型，本文方法在模型检测速度提升的同时，AUC结果也有不同幅度的提升，说明本文提出的模型具有检测速度快、准确度高的特点，从而验证本文方法的有效性。

图7 本文模型在Ped1上的训练损失曲线

图8 本文模型在Ped2上的训练损失曲线

3.2.4 可视化结果

为了直观地展现本文方法的有效性，将本文方法的检测结果与其他算法的检测结果进行了可视化，如图9所示。

由图9可以看出，在检测画面1中，4种方法均可完整检测出一处异常。在检测画面2中，存在3处异常，标准SSD算法可以检测出其中两处异常，由于存在遮挡，第三处异常（图中蓝色虚线框）并未检测出来；Social Force算法检测出一处异常（图中紫色实线框），由于数据集分辨率较低的原因，第二处异常（图中黄色虚线框）存在漏检，第三处存在遮挡的异常（图中蓝色虚线框）仍未检测出来；由于画面存在遮挡，并未学习到足够的特征信息，Pang等人的算法[13]也有一处异常（图中蓝色虚线框）未检测出来；相比以上3种算法，本文方法可以完整检测出检测画面2中的3处异常，包含其中存在遮挡的一处异常，不存在漏检问题。

表2 不同检测模型性能对比分析

图9 可视化结果

实验结果表明，加入可变形卷积模块和注意力模块后，特征提取更加准确，网络有效地学习到了图像中重要的特征信息，并根据上下文关系来预测遮挡部分，可以有效解决遮挡问题。综上，检测结果说明了本文方法的可行性。

4 结语

本文主要面对人群异常行为检测算法面临的问题开展工作，针对现有模型算法复杂度高的问题，将特征提取网络替换为轻量网络MobileNet v2，从而减少模型参数，提高模型运行速度；针对在复杂场景如重叠遮挡下检测准确性低的问题，采用可变形卷积来改变特征提取方法，并加入注意力机制进行特征增强，通过学习上下文关系来预测遮挡部分，进而有效解决遮挡问题。从UCSD数据集上的实验结果可以看出，本文提出算法的检测速度为26.59fps和25.41fps，AUC结果为74.50%和88.93%，较其他方法在检测速度和精度上均有不同程度的提升，表明本文的模型可实现对人群异常行为的快速准确检测。

[1] HU Y. Design and implementation of abnormal behavior detection based on deep intelligent analysis algorithms in massive video surveillance[J]., 2020, 18(2): 227-237.

[2] 张欣, 齐华. 基于YOLOv4的人体异常行为检测算法研究[J]. 计算机与数字工程, 2021, 49(4): 791-796.

ZHANG X, QI H. Research on human abnormal behavior detection algorithm based on YOLOv4[J]., 2021, 49(4): 791-796.

[3] 胡学敏, 陈钦, 杨丽. 基于深度时空卷积神经网络的人群异常行为检测和定位[J]. 计算机应用研究, 2020, 37(3): 891-895.

HU X M, CHEN Q, YANG L. Detection and localization of abnormal crowd behavior based on deep spatiotemporal convolutional neural network[J]., 2020, 37(3): 891-895.

[4] Almazroey A A, Jarraya S K. Abnormal events and behavior detection in crowd scenes based on deep learning and neighborhood component analysis feature selection[C]//(AICV2020), 2020: 258-267.

[5] MU Y L, ZHANG B. Abnormal event detection and localization in visual surveillance[C] //, 2020: 1217-1225.

[6] LIU W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//, 2016: 21-37.

[7] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C] //2021(CVPR) 2021: 13708-13717.

[8] Ali K, MOHAMMAD S M. Improved anomaly detection in surveillance videos based on a deep learning method[C]// 8th10, 2018: 73-81.

[9] Sandler M, Howard A, Zhu M, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks[C]//2018, 2018: 4510-4520.

[10] DAI J F, QI H Z, XIONG Y W, et al. Deformable Convolutional Networks[C]//2017(ICCV), 2017: 764-773.

[11] Mahadevan V, LI W, Bhalodia V, et al. Anomaly detection in crowded scenes[C]//(CVPR) 2010: 1975-1981.

[12] WU W H, CHEN M Y, LI J H, et al. Visual information based social force model for crowd evacuation[J]., 2022, 27(3): 619-629.

[13] PANG G S, YAN C, SHEN C H, et al. Self-trained deep ordinal regression for end-to-end video anomaly detection[C]//2020(CVPR), 2020: 12170-12179.

Research on Crowd Abnormal Behavior Detection Based on Improved SSD

KANG Jie1，TIAN Ye1，YANG Gang2

(1. School of Electrical and Control Engineering, Shaanxi University of Science and Technology, Xi'an 710021, China;2. School of Communication and Information Engineering, Xi'an University of Posts and Telecommunications, Xi'an 710121, China)

Aiming at the problems of high algorithmic complexity and low detection accuracy caused by overlapping occlusions in abnormal crowd behavior detection, this paper proposes an algorithm for crowd abnormal behavior detection based on an improved single-shot multi-box detector(SSD). First, the lightweight network MobileNet v2 was used to replace the original feature extraction network VGG-16, and a convolutional layer was constructed by a deformable convolution module to enhance the receptive field. Feature enhancement was performed by integrating the position information into the channel attention, which can capture long-range dependencies between spatial locations, allowing for better handling of overlapping occlusions. The experimental results show that the proposed algorithm has a good detection effect on abnormal crowd behavior.

deep learning, abnormal behavior detection, SSD network, deformable convolution, attention mechanism

TP391

1001-8891(2022)12-1316-08

2022-04-03；

2022-07-12.

亢洁（1973-），女，博士，副教授，主要研究方向：模式识别、机器视觉、智能控制。E-mail: kangjie@sust.edu.cn。

陕西省重点研发计划项目（2021GY-022）。