基于深度学习算法的校园吸烟检测方案设计
2023-09-15葛啸
葛 啸
(无锡商院职业技术学院,江苏 无锡 214000)
0 引言
目前,吸烟群体已逐渐呈低龄化趋势,高校学生在校园公共区域吸烟的行为屡见不鲜。教育部联合国家卫生健康委印发《关于进一步加强无烟学校建设工作的通知》要求将学生吸烟行为作为学生日常行为规范管理的重要内容,明确提出建设无烟校园的要求,通过宣传教育定期检查等多种方式维护无烟环境。目前,校园中禁烟管理工作的展开主要通过人工实现,对吸烟行为进行劝导和处罚为主要管理手段。然而,人工管理效率较低,需要消耗大量的人力、物力,难以及时全面地对吸烟行为监管并进行处置。因此,如何利用吸烟检测技术提升校园的禁烟监管效率成为亟待解决的问题之一。
1 研究背景与现状
在过去的几十年中,旨在对吸烟行为进行检测的技术取得了长足的发展,包括传感器、计算机视觉与模式识别等[1]。传感器技术对吸烟行为的检测效果受空间大小、通风情况、光照强度等因素影响,多适合于较小的空间范围如酒店房间、车站卫生间等。可穿戴设备对吸烟的手势动作、胸部的起伏程度等因素进行检测,虽然能起到一定的检测的效果但也易受其他日常行为动作的干扰。较高的设备成本使其在实际推广中存在较大的阻力。
随着计算机处理能力的提升,结合图像处理技术与深度学习方法对监控获取到的视频及图片进行针对性的目标检测已成为热点之一。目前,基于图像处理技术对吸烟图像数据进行分析主要从以下几个角度进行:(1)检测图像中的香烟烟雾,但烟雾形状抽象、烟雾浓度不可控等因素都易对检测效果造成影响;(2)对吸烟图片中的手部姿势进行分割,该方法要求吸烟手部姿势特征更具有代表性,因此对其他手势的识别效果较差;(3)将香烟作为检测目标,但由于其尺寸较小,易与背景信息混淆。陈睿龙等[2]设计一系列卷积神经网络模块,定位图像中的烟头位置,取得了较好的检测效果;孙召龙等[3]采用YOLOv5深度学习算法对油田作业现场吸烟行为进行检测,检测准确率达89%;韩贵金等[4]基于结合图像分割方法与Faster R-CNN算法能较好地对烟支目标进行检测。以上研究表明,图像处理技术与深度学习算法结合能够有效地解决检测吸烟行为的问题。
通过分析存在的问题与研究现状,为简化对吸烟行为的判断,本文将嘴部存在香烟视为吸烟行为即将或正在发生,主要检测过程可分为两个阶段。第一阶段:对采集的图像中人脸的位置进行定位并裁剪以降低背景图像的干扰;第二阶段,选取人脸图像中的嘴部作为感兴趣区域(Region of Interst,ROI),利用目标检测算法结合迁移学习方法对嘴部是否存在香烟做进一步检测研究,本文检测流程如图1所示。
图1 吸烟行为检测流程
2 本文相关算法介绍
2.1 RetinaFace算法
RetinaFace算法是一种自然场景下较为精确的人脸检测算法,利用多任务联合额外监督学习和自监督学习的优点,可以对不同尺度的人脸进行定位[5],该算法在WIDER FACE 数据集上有着优秀的表现。RetinaFace在实现人脸检测的同时还能够对人脸中的关键点进行定位。
2.2 MobileNet V2网络
MobileNet V2网络是由谷歌提出的准确率更高、模型更小的卷积神经网络。该算法在ImageNet数据集有着优秀的表现。该网络除延续V1版本的深度可分离卷积外,还引入了线性瓶颈(Linear Bottleneck)和倒残差(Inverted Residual),进而减少信息的丢失,丰富特征数量,有助于提高检测精度[6]。本文考虑到模型在终端部署时应尽量降低内存需求,因此在实际的吸烟行为目标检测中,MobileNet V2网络轻量化的特点更适用于本方案。
3 校园吸烟行为检测方案设计
3.1 数据集的采集与处理
目前,基于图像处理技术与深度学习方法对吸烟行为进行分析的诸多研究主要围绕香烟烟雾、手部姿势、香烟特征等建立了数据集,且并无通用的、标准统一的数据集。因此,在对吸烟行为进行检测前,本方案需建立吸烟数据集。数据集一部分可通过网络下载获取,另一部分可通过对教学楼走廊、实训楼、食堂门口等校园公共区域的吸烟行为进行拍摄获得。本文对采集到的图像进行对比度变换、亮度变换、旋转等操作从而扩充数据集规模,在去除无效数据后将图片调整为合适的输入尺寸。
3.2 人脸检测与嘴部区域定位
本文以校园环境中教学楼课间为例,下课时学生流量较大,人脸密集程度较高,对密集人脸进行检测就对算法的检测效果与实时性提出了较高的要求。除此之外,数据集中的图片或是采集到的视频中通常并非仅有人脸,还包括诸多环境背景信息。为降低背景信息对实验结果的影响,本文首先需对图片中的人脸区域进行定位。当吸烟行为发生时,人脸与监控间的角度随机并不固定,户外环境因素也会对人脸的定位产生影响。为获得较好的人脸检测效果,本文引入RetinaFace算法对人脸中的关键点进行定位。由于香烟目标较小,为了进一步减少背景信息对检测效果的影响,本文对裁剪后的人脸图像中的嘴部区域进行定位。由于RetinaFace算法的特点在于对人脸图像进行检测的同时,对人脸的关键点也会进行标注,因此本方案可确定嘴部关键点、眼部关键点、鼻部关键点。本文纵向选取鼻部关键点至图像底边,横向选取人脸图像左侧边缘至右侧边缘,从而尽可能将嘴部区域以及存在香烟的区域选取进来。
3.3 香烟检测模块
在完成上述的步骤后,本文进行香烟目标检测模块的设计。香烟作为较小的目标,检测难度较大,因此MobileNet V2网络被引入以对香烟目标进行检测。在确定了嘴部感兴趣区域(ROI)后,本文将获取到的图像尺度归一化为适合MobileNet V2网络输入的大小。考虑到建立的数据集规模有限,直接对其进行训练易造成过拟合,而迁移学习常用作解决实际目标检测任务中数据集图片数量不足的常用手段[7]。由于MobileNet V2网络是经过ImageNet训练过的卷积神经网络,因此其模型参数结构与其他任务具有较高的关联性[8]。本文基于MobileNet V2的预训练模型,设计通过迁移模型参数结合吸烟数据集做进一步优化。在自建的吸烟数据集上,本文使用预训练的神经网络对图像进行特征提取,得到特征向量作为输入用于训练新的神经网络,通过多次迭代更新得到较优的网络模型,从而达到节约训练时间、提升检测精度的效果。
3.4 系统物理架构设计
系统物理架构主要包括图像采集摄像头、交换机、管理员主机、服务器等设备,具体拓扑如图2所示。本文为兼顾实时性与检测精度,将摄像头采集到的视频流通过交换机传输至服务器并通过代码进行抽帧处理,对抽出的帧做预处理后交给目标检测算法进行检测。本设计中,存在吸烟行为的帧将被标注并保存在本地。检测结果以图片的形式出现在管理员主机上进行提醒。
图2 物理架构拓扑
4 结语
本文提出了校园场景下吸烟行为检测方案,并将任务分为人脸检测与香烟检测两个子任务。本文使用RetinaFace算法,降低背景信息与冗余信息带来的影响。为提升模型的训练速度,方案引入MobileNet V2并对其进行迁移学习,旨在解决数据集规模较小易导致过拟合的问题。MobileNet V2网络轻量化的特点也有助于在移动端进行部署,从而进一步增强了本方案的实用性。基于以上设计,本文能有效地检测校园吸烟行为,有助于纠正校园内的不文明行为。此外,吸烟群体除抽香烟外,抽电子烟的群体也占据了一部分的比例,后续研究拟对抽电子烟的吸烟人群作进一步检测以提升检测方案的适用性。