APP下载

基于监控视频的校园车辆管理

2018-01-29俞士贤陈湘军周睿康马静

科技资讯 2018年22期
关键词:目标检测深度学习

俞士贤 陈湘军 周睿康 马静

摘 要:监控视频智能分析是智慧校园的关键内容之一,可自动提取并识别监控视频中的有效事件信息。本文基于深度学习实现校园监控车辆管理,基于深度图像特征提取识别车辆,基于车辆检测实现跟踪、速度检测和超速以及违停等事件检测,实现了应用系统,检测效果优于传统方法。

关键词:监控视频分析 深度学习 目标检测 事件识别

中图分类号:TN94 文献标识码:A 文章编号:1672-3791(2018)08(a)-0013-04

Abstract: Intelligent analysis of surveillance video is one of the key elements of smart campus, which can automatically extract and identify effective event information in surveillance video. This article realized vehicle management of campus surveillance based on depth learning. The extraction and identifications of vehicles is constructed on the depth image feature, and based on vehicle detection to achieve tracking, speed detection is realized, which can help find events of over speed and illegal stop. At last, an application system is realized, and demonstrates better detection effect than the traditional method.

Key Words: Monitoring video analysis; Deep learning; Object detection; Event recognition

隨着经济水平的提高和高校社会化管理的增强,高校校园车辆日益增多,校园车辆超速行驶和车辆违停等事件给校园管理带来了诸多挑战。虽然目前校园普遍安装了监控摄像,但安保人员难以实现24h全方位监控。而近几年,深度卷积神经网络[1]成为了计算机视觉领域的研究热点,从5层的LeNet[2],到8层的AlexNet[3],再到19层的VGG[4]和22层的GoogleNet[5],甚至到上百层的ResNets[6],无论是其网络的学习能力还是深度都得到了显著的提高。从技术的角度来看,基于计算机视觉的校园监控自动分析已经可行。因此,本文通过构建深度学习神经网络框架,通过残差网络训练行人和车辆的目标特征,实现监控视频车辆目标检测与跟踪,进而提取速度,实现校园监控视频中的车辆违停及车辆超速检测,实现对违规事件的自动识别与取证。深度学习理论拓展至校园监控视频分析中,有望突破传统图像特征因场景复杂而鲁棒性不足、缺乏自主学习能力等限制。

1 深度学习环境和网络模型

基于深度学习的校园监控视频车辆管理系统采用SSD模型,SSD[7]通过直接采用卷积的方法对不同的特征图像进行提取检测。对于每个单元的每个检测框,SSD都会输出一套独立的检测值,对应一个边界框,其检测值主要分为两个部分:一是各个类别的置信度或者评分;二是边界框的location,其中包含4个值,分别表示边界框的中心坐标以及宽高。SSD的训练包括确定样本和损失函数两部分,在验证匹配并确定样本后,便可利用损失函数,得出位置误差与置信度误差的加权和,其中,损失函数表示为公式(1):

(1)

式(1)中,Xi表示第i张图片的数据,W为权重矩阵,Δ为所定的一个参数,得分结果由向量Si=f(Xi,W)表示,则第j类的得分可记作Syi=f(Xi,W)j。

Caffe[8]是流行的深度学习实现框架,支持卷积神经网络的实现,具有表达力强、速度快和模块化的思想,广泛应用于图像目标检测和分类的工程领域。深度学习图像特征提取方法常用深度残差网络(ResNets)实现,采用残差网络块作为网络的基本组成部分,以解决深度神经网络随着深度增加而带来的网络退化问题。ResNets在原始卷基层外部加入越层连接支路构成基本残差块,使原始的映射被表示为H(X)=F(X)+x。ResNets通过残差块结构将网络对H(X)的学习转化为对F(X)的学习,而对F(X)的学习较H(X)而言,更为简单。基于残差块更易学习的特性,ResNets通过顺序累加残差块成功地缓解了深度神经网络的退化问题,提高了网络的性能。

残差网络原理如图1所示,其中,ReLU表示激活函数,用来缓解过拟合的问题,weight表示权重,通过取权重的最佳值,使训练结果更加准确。残差网络的具体实现如公式(2)(3)所示。其中,F(x)表示残差映射,x和y分别代表残差块的输入和输出。当F维数和x相同时,用公式(2),此时越层连接既没有增加额外参数也没有增加计算复杂度,反之,当F维数和x不相同时,用公式(3),通过越层连接执行1x1卷积映射G(x)以匹配维数。

(2)

(3)

2 系统设计与实现

2.1 系统实现流程

校园车辆管理系统实现流程如图2所示,具体步骤如下:读取监控视频、车辆目标检测,基于车辆目标检测,实现车辆跟踪与车辆速度检测,判断车辆是否超速与违停。当服务器检测出车辆超速、车辆违停时,记录车辆违规信息,并将信息推送给有关人员,如学校保卫人员或车主。

2.2 车辆目标检测

从校园监控视频中收集车辆的图像,使用残差网络对图像进行卷积,在最后一层得到1×1024×15×20的特征图阵列,把它转置成300×1024的特征图阵列。然后通过SSD子模块处理每一个1024维向量。对于每一个输出的状态,经过两个不同的全连接层,一个直接输出框的位置和宽高,一个再经过softmax层输出这个框的置信度。每个1024维向量经过SSD处理之后可以得到对应原图中64×64的5个检测框以及对应的置信度。通过一个给定的阈值去掉置信度底的框。對于已经确定的框,如果一个待选框与它相交,则去掉这个框。使用(m,d)衡量上述的匹配,m评估二者是否相交,取值(0,1),d衡量两个框之间的曼哈顿距离。先比较m大小,如果不能得出结论,再比较d的大小。模型训练时的损失函数如公式(1)所示,匹配算法如公式(4)所示:

(4)

式(4)中,oij取值为{0,1},若待选框中心落在真值框中,则为0,否则为1,rj为待选框生成的序号,目的是在匹配的时候,偏于先生成置信度高的框,故匹配同一个目标时,排序越靠前的代价越低,dij是两个框之间的距离误差。深度神经网络训练完成后,学习到了颜色、车辆边缘、复杂纹理、车身等比较有区别性的特征,选取这些特征,进行车辆目标的检测。

2.3 车辆跟踪

由上文车辆目标检测去除图像干扰获得车辆目标,并利用以下公式(5)和公式(6),计算车辆中心点:

(5)

(6)

其中,n为车辆目标所占像素个数,(xi,yi)为像素点坐标。

根据车辆目标在连续帧间的位置与相似度,可确定车辆移动轨迹,从而实践目标的跟踪。

设ft-1,f,ft+1分别表示3个时间的帧图像,t-1,t,t+1表示三个跟踪时刻,每个时刻中目标车辆的目标中心点Vi,f,t在帧矩阵f中的位置为(x,y)i,t,利用车辆特征的相似度计算,可得邻近目标中心点的运动轨迹,取目标特征矩阵D,则相邻帧的两个目标相似度计算方法如公式(7):

(7)

对S进行归一化处理,得S,当相似度S大于设计阈值时,则认为是同一目标,文中取阈值0.7。

在实际跟踪中,可能出现目标在某帧中未检出,或者存在多个相似车辆目标的情况,可根据前后帧的位置进行区分。

最终得出车辆目标Vi,运动轨迹Trac={…,(x,y)i,t-1,(x,y)i,t, (x,y)i,t+1,…}。

2.4 车辆速度检测

相机设备将三维场景中的物体以光学投影方式转化为二维图像后,由于维度降低,导致成像结果与现实场景中存在一定的投影变化,同时现实场景中的平行道路因相机缩放,图像中同一物体所占像素随着与相机距离变化而变化。可以通过图像中标定物观测值,构建整幅图像中像素与距离之间的对应关系。

如图3所示,在道路中设置两条检测线,记检测点Z1、Z2,测量现实场景中测量Z1、Z2实际距离,记为L。

由2.2的车辆跟踪轨迹Trac,当车辆中心点进入检测区Z1时,该帧视频对应的时间记为t1,经过一段时间,车辆进入检测区域Z2,该帧视频对应的时间记为t2。由式(8)得出车辆速度V:

(8)

系统在实际运行时,外界环境会对结果产生很大影响,尤其是受光照的影响。

2.5 车辆违停检测

车辆违停检测算法步骤如下。

(1)预设检测区域,启动车辆检测模块。

(2)当检测区出现车辆目标时,启动车辆跟踪与速度检测。

(3)实时判断跟踪目标速度与位置的变化。若目标驶出目标区域,则放弃跟踪,若目标速度为零,则开启计时器T。

(4)当计时器T>0时,若车辆速度>0,则将计时器T置0,当计时器T>阈值时,则记录并发送违停信息。

3 实验与成果

本文的目标检测系统在GPU环境下的Caffe框架中实现,实验条件如下。

(1)软件环境:Ubuntu 16.04, Python2.7,OpenCV3.2,Caffe框架。

(2)硬件环境:CPU,Intel Xeon E5-2620 v3 @2.40 GHz六核;内存;GPU,Nvidia GeForce CTX TITAN X。

(3)样本训练:本文基于ImageNet数据集的行人和车辆训练监控目标模型,并在校园监控中标注了1200帧视频作为补充,训练SSD目标检测模型。

本文实现了基于校园监控视频的车辆速度检测及车辆违停检测,实际场景下的目标检测、车辆速度提取和车辆违停检测,检测效果见图4(a)~(b)。

表1列出了各种场景下目标检测、车辆跟踪、车辆速度、违停事件的检测效果,实验数据表明,不同视角与拥挤会影响目标检测的准确率,进而影响基于目标检测的车辆跟踪,夜间红外视频成像目标轮廓清晰,不影响检测效果。从实验效果可以看出,本文基于深度学习的监控视频目标检测和车辆跟踪、事件检测应用,相比于传统的机器学习,无论在准确率或者运行效率上都大大提高,完全能满足校园监控视频实时自动检测的需求。

4 结语

实际应用中,也表现出一些问题,例如:校园中有大量不规则的快递车、外卖电瓶车,由于标准训练样本未覆盖,漏检率比较高,并且校园人流较大,摄像机角度变化时,也明显影响检测效果,后续将进一步研究迁移学习等机制,提高复杂条件下检测的准确率。

参考文献

[1] Long J,Shelhamer E,Darrell T.Fully c-onvolutional networks for semantic seg-mentation[A].Proc of IEEE Conference o-n Computer Vision and Pattern Recogni-tion.[S.l.]: CVPR Press[C].2015:1109-1123.

[2] LeCun Y,Bottou L, Bengio Y,et al.Gr-adientbased learning applied to docum-ent recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[3] Krizhevsky A,Sutskever I,Hinton GE.Imagenet classification with deep conv-olutional neural networks[A].Advances in neural information processing systems[C].2012:1097-1105.

[4] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale im-age recognition[EB/OL]. https://arxiv.org/abs/1409.1556.

[5] SZEGEDY C,Liu W,JIA Y,et al.GoingDeeper with Convolutions [A]. IEEE Conference on Compute-r Vision and Pattern Recognition[C].2015:1-9.

[6] K Zhang,M Sun,Tony X. Han,et al.Residual Networks of Residual Networks: Multilevel Residual Networks[J].IEEE Transactions on Circuits & Systems for Video Technology,2016,28(6):1303-1314.

[7] Liu W,Anguelov D,Erhan D,et al.SS-D: Single Shot MultiBox Detector[A].Eu-ropean Conference on Computer Vision[C].2016.

[8] Jia,Yangqing,Shelhamer,et al.Caffe:convolutional architecture for fast feature embedding[A].MM'14 Proceedings of the 22nd AcM international conference on Multinedia[C].2014:675-678.

[9] 劉明.基于目标检测与跟踪的机动车视频测速方法研究[D].南昌:南昌大学,2007.

猜你喜欢

目标检测深度学习
视频中目标检测算法研究
行为识别中的人体运动目标检测方法
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
移动机器人图像目标识别
基于背景建模法的运动目标检测