口罩实时检测系统的设计与应用
2022-10-08曾广华杨桂忠郭寿南陈朝明罗晓松夏琪凯徐贵良
曾广华,杨桂忠,郭寿南,陈朝明,罗晓松,夏琪凯,徐贵良
(1.江西广播电视台,江西 南昌 330006;2.江西省广播电视监测中心,江西 南昌 330038)
0 引 言
江西广播电视台每天播出大量的视频内容,疫情常态化期间,播出的视频涉及大量戴口罩的相关视频。江西广播电视台目前的检测系统只能对节目黑场、静帧、超过3 s的静音进行报警,对于是否画面中人员是否正确佩戴口罩的检测工作,只能通过人工审核的方式进行。以江西卫视为例,针对《江西新闻联播》《社会传真》《新闻夜航》等节目,如播出的节目场景在疫情检测现场、公共场所出现人员未佩戴口罩的画面,将对受众释放错误的防疫信号。
相较于传统的目标检测算法,基于深度学习的目标检测算法在精度、速度以及泛用性方面都得到了很多的提升[1]。鉴于此,基于深度学习的目标检测算法也被应用于小区门禁、火车站刷脸进站以及无人机拍摄等各个场景。疫情发生以来,大量的研究将目标检测应用于口罩佩戴识别领域,如王艺皓等[2]改进YOLOv3算法网络,使其在复杂场景下能够精准地检测人员是否佩戴口罩。本文提出基于YOLOv4算法的口罩检测模型,能够实现对口罩的识别并对人员是否佩戴口罩进行检测,同时融入MobileNetv2分类网络,快速准确地完成分类。该模型能够有效地提高节目审核的效率和准确性,同时为新闻工作者制作节目提供良好的参考,为更好地宣传江西形象提供技术支持。
1 系统总体设计
1.1 系统结构
该系统能够对待审核节目进行预审并检测出人员是否佩戴口罩,并根据是否正确戴口罩将对象分为两类,一类是口罩配戴整齐,另一类是口罩未佩戴整齐。系统通过摄像头模块提取视频流图像,也可以对图像画面一帧一帧地提取检测。通过YOLOv4算法检测模型[3]对画面进行检测,判断画面中的人员是否佩戴口罩;再对口罩在人物面部的位置进行精准定位,输入MobileNetv2分类网络,判断口罩佩戴是否正确。
1.2 功能结构
该系统主要包括图像采集、图像处理、图像显示功能模块。图像采集模块包含两台上载录像机,两台应急上载录像机。在平时的节目中,将需要上载的节目载体(如P2卡、磁带、蓝光盘)插入上载录像机中,在上载模块提取与之对应的节目,对应的上载通道显示出节目视频。如出现节目制作、审核时间紧张等情况,可直接插入图像采集模块下方的应急录像机中,在应急录像机打开文件,将节目视频内容显示在液晶屏上。上载的节目一路储存于主备视频服务器中,提供播出视频;另一路上传至近线服务器中,进行视频技术审核。图像处理模块由两台计算机组成。一方面,可通过OpenCV使用Python语言编程连接近线视频服务器,对节目内容进行技术审核。另一方面,在节目紧急播出的情况下,可由OpenCV打开计算机的摄像头采集应急录像机中的视频,从而实时获取应急录像机中的图像信息。图像处理模块将采集的口罩样本输入检测网络[4]中,运用深度神经网络对图像进行检测分类。图像显示模块将口罩检测分类的结果显示在系统的可视化界面上,可直观看到系统检测分类的结果。
2 系统检测的技术支持
2.1 YOLOv4的检测算法
YOLOv4是一种实时性的单阶段目标检测算法,由主干网络Backbone、特征融合的颈部和检测头组成。YOLOv4网络将输入图像划分为N×N网格,当被测物体的中心坐标落入其中一个网格时,则该网格负责目标检测。在识别过程中,每个网格单元预测B个边界框,每个边界框包含5个预测值:tx,ty,tw,th以及置信度[5],置信度表示预测目标框的置信水平与预测精度。在本次实验中,置信度设置为1.00。按式(1)计算预测框的中心坐标bx,by和高度bh、宽度bw,σ是sigmoid函数,pw、ph分别为先验框的宽和高,tw、th是要学习的参数。
YOLOv4网络检测待播出节目中的人员是否佩戴口罩时,首先将需要检测口罩的报道,如在核酸检测现场[6]、火车站、医院等公共场所采访的视频输入YOLOv4网络中。YOLOv4算法神经网络将图片划分为一张张网格,对图片中可能出现口罩的区域进行划分,精准地检测出口罩,并输出口罩在系统中的先验中心坐标(x,y),框的宽、高以及置信度等信息。
2.2 MobileNetv2分类算法
将上述YOLOv4算法神经网络中输出的先验中心坐标(x,y),框的宽、高以及置信度等信息输入MobileNetv2网络模型中,对待分类的图片进行分类。MobileNetv2模型在原有的算法基础上增加了线性瓶颈及有助于提高精度构建更深网络的倒残差。实验中,通过对口罩在人眼睛、鼻子、耳朵、脸部的位置等比例的准确比照,能够准确地判断人员是否正确佩戴口罩。其模型如表1所示,n代表瓶颈层重复的次数,t代表瓶颈层内部升维的倍率,c代表特征的维数,k表示宽度缩放因子,s代表瓶颈层中第一个卷积的步幅。
表1 MobileNetv2模型
3 实验结果与分析
3.1 数据集构建
本文通过线上线下采集数据集。线上的数据集来自哔哩哔哩、央视频、江西网络广播电视台中的视频;线下数据集采集来自火车站、地铁、核酸检测现场等公共场所。数据集包含未佩戴口罩、正确佩戴口罩、口罩佩戴不整齐的图片。通过LableImg软件对图片进行标注,将佩戴口罩的标注为Pass,口罩佩戴整齐的标注为Other,如检测的图片未佩戴口罩标注为Out,设置的置信度为1.00。
3.2 评价指标
本文通过以下指标评价人脸佩戴口罩检测算法的性能。
式中:Tp表示检测到的目标类别与真实目标类别一致的样本数量,FP表示检测到的目标类别与真实目标类别不一致的样本数量,FN表示真实目标存在但未被检测出的样本数量。
准确率和平均准确率计算如下:
式中:N表示所有目标类别的数量,AP表示准确率,mAP表示平均准确率。
3.3 实验结果及分析
使用YOLOv4算法神经网络对江西广播电视台的节目进行口罩检测,并将得到的数据输入MobileNetv2网络中进行分类,模型能够精准地检测出视频中未佩戴口罩的人物并报警。正确佩戴口罩的结果如图1所示。Pass代表江西广播电视台节目中人员佩戴口罩的结果,Other代表正确佩戴结果。如检测出人员未佩戴口罩或者未正确佩戴口罩的图片,输出的结果为Out。此时对该节目报警并停留在该视频的具体画面,显示该帧在节目中的具体时间。该系统由专门的技术员进行操作,为了确保节目审核的准确性,可以人为地对模型输出的结果进行干预,以确保审片工作顺利进行。经测试,该模型的平均准确率mAP高达97.6%。
图1 正确佩戴口罩检测结果
4 结 语
本文运用YOLOv4算法对江西广播电视台节目中人员是否佩戴口罩进行检测,同时引入MobileNetv2网络对人员是否正确佩戴口罩进行分类。实验检测平均准确率达到97.6%,动态检测速度最高每秒65帧,满足高清电视画面每秒25帧的标准。该口罩检测系统有效地弥补了江西广播电视台对节目审核、制作中人员口罩是否正确佩戴的工作只能通过人工审片方式的不足。由于有户外目标较小、人物遮挡、强风强雨环境等其他外界的干扰,导致实际检测中仍然存在少量的漏检、错误检测的情况,以后将针对这些情况进行更深入的研究。