监控视频中枪支自动检测研究综述
2020-01-10田师思
田师思
(中国人民公安大学 侦查与刑事科学技术学院,北京100038)
1 概述
由于涉枪案件对社会安全和稳定影响极大,对此类案件的预防和打击一直是各国警方工作的重中之重。利用数量众多的监控摄像头发现非法的枪支使用,毫无疑问是严格枪支管理、打击涉枪犯罪的一把利剑但我们仍不能低估潜在的枪支威胁。Darker 等人在Multi Environment Deployable Universal Software Application(多环境可部署通用软件应用)项目中通过一系列资料调查和比较试验,得出了用人工的方式检测监控视频中出现的枪支效率很低,并且容易遗漏真实信息的结论[1-3]。如果我们有一套高效准确的枪支自动检测系统安装在城市监控系统中,就能为警方提供先期预警,特别是发现一些案发于隐蔽环境或者人烟稀少地区,没有目击者报警的涉枪案件,在重大活动和特殊场所的安全保卫中也能发挥巨大作用。所以希望通过对该问题研究成果的整理,为国内有志于这方面研究的研究者提供参考。
2 研究成果介绍
枪支自动检测是目标检测领域里的一个问题,目前目标检测的主流方法包括传统的人工提取特征的检测方法和基于深度学习的检测方法,基于深度学习的检测方法又包括基于Region Proposal 的检测方法和基于回归的目标检测方法[4]。
2.1 基于人工提取特征的枪支自动检测方法
Darker 等利用尺度不变特征变换匹配算法(Scale Invariant Feature Transform,SIFT)来检测枪支。首先利用运动分割算法将提取监控视频中运动的人,然后去除阴影,最后用一个最小的矩形来选取最终的感兴趣区域。将SIFT 特征库与感兴趣区域的SIFT 特征进行配对,来检测是否存在枪支[5]。Micha Grega 等利用基于MPEG-7 视觉描述符的分类器来检测枪支。作者发现神经网络输出的结果特异性低,假阳性数量多,于是使用了下一个基于MPEG-7 视觉描述符的分类器,该分类器使用了区域形状描述符。描述符计算候选区域中的形状描述符与手枪的通用描述符之间的欧几里得距离,两者之间的距离低于阈值,则该区域检测到枪支[6]。Gyanendra K.Verma 等对枪支自动检测的问题做了提出了三种解决方案,2015 年发表的两篇文献是基于是传统的目标检测方法,分别使用了Harris 角点检测+Freak 特征提取和加速稳健特征(Speeded up robust features,SURF)两种方法。两篇文章都使用K-means 聚类进行基于颜色的图像分割,然后再提取特征[7,8]。第三种是基于深度学习的方法。Halima 等首先从图像集合中提取SIFT 特征[9]。朱捷晨等对网络图像中涉及的枪支自动检测提出了Hu 不变矩和模糊聚类相结合的方法[10]。
2.2 基于Region Proposal 的枪支自动检测方法
GyanendraK.Verma 在2017 发表的文章提出使用深度神经网络VGG-16 来检测枪支,并且比较了SVM、KNN 和Ensemble ree 三种分类器,最后得出VGG-16+Fine Gaussian 核支撑向量机能得到最佳的表现[11]。Justin Lai 等比较了VGG-16 和三种不同学习率和置信度下的Overfeat 网络,发现在30%置信度和0.0003 的学习率下的Overfeat 能够到达最好的表现。他们对1.3s/张的处理速度并不满意,并提出要在今后的工作中提高精度和速度[12]。Roberto Olmos 等比较了基于sliding window 和region proposals 两种候选区域提取方法,两者都使用VGG-16网络作为分类器,其中基于region proposals 的实验采用Faster R-CNN 提取候选区域[13]。雷青等在安卓平台上利用Faster R-CNN 网络检测网络视频中的枪支,提出在训练集中,对含有枪支的图像依据遮挡部位和遮挡程度分别标注为gun、gunHead、gunMid、gunEnd,检测过程中分别对四种类型采用不同的阈值,同时增加每个类别的负样本,标注为nGun、nGunHead、nGunMid、nGunEnd,以提高检测精度[14]。
2.3 基于回归的枪支自动检测方法
吴晋等在FPGA 开发析DE5-Net 上运行YOLOv2 网络检测刀枪棍等,并且通过卷积算法加速、池化算法加速、BN 算法加速来尽可能减少运算时间。同时对比在CPU、GPU 上运行YOLOv2网络检测目标,发现在FPGA 平台上的计算时间和计算功率都远小于前两者,特别是率减小到27.3w,仅仅是在CPU、GPU 上计算功率的1/5 和1/10[15]。
3 总结与展望
上述检测方法,通过特征设计或者网络的自我学习或多或少地解决了尺度、旋转、方向、光照的变化、遮挡、枪支种类带来的问题。
在基于深度学习的检测方法中,研究人员都不约而同的采用了迁移学习的方法,对网络进行预训练。这样的做法,能够减少训练速度,加快收敛。并且通过预训练获得一般化的共性特征,再针对特定问题进行训练,在共性特征的基础上,获得强有力的针对性特征,是提高网络精度的好方法。
在我国严格的控枪环境下,一般犯罪使用制式枪支已然不多见,大量仿制枪、自制枪应该是我们关注的主要对象。而这些非制式枪支,特别是自制枪,形态各异,有的甚至和一般枪支的形态相差甚远,怎么让神经网络学会识别这些非制式枪支,是枪支自动检测在我国应用必须解决的问题。
监控视频中枪支自动检测问题还是处于探索期,研究人员提出各自的解决方法,但离实际应用还相差甚远。但是基于公安工作的特点,我们期待这个问题的早日解决。同时可以展望的是,监控视频中的实时目标检测可以越来越多的应用于行人、车辆、摩托车、等各种对象,为预防、发现、打击犯罪提供预警,为侦查提供更多的关于客体种类、来源方面的线索,为摄像头加上“大脑”,构建起新一代的城市智能监控体系,服务于未来的城市管理。