基于互联网的公共场所监控人脸特征目标检测

2023-03-12赵旭东

互联网周刊 2023年2期

摘要：随着社会发展，公共场所对于安全性的要求日益提高，监控数据量也呈指数级增加，如何准确并快速地对监控视频中人脸进行特征检测筛选，从而提高整体工作效率，对于维护社会稳定、保护人民生命财产安全具有重要意义。本文提出了一种基于互联网上传的海量监控数据的人脸特征目标检测方案，通过对人脸特征，如胡须、眼镜、口罩等特征，对互联网联机多场所监控视频进行检测，筛选出目标人群，从而减少机器人脸识别或传统人工识别工作量，提高识别速度，降低成本，最后以口罩佩戴检测系统的实现案例验证了系统可行性及精准度，并对目标检测技术应用前景进行了展望。

关键词：互联网；目标检测；人脸特征；监控视频

引言

近年来，监控作为视频证据采集的主要工具被大量安置在城市公共区域各个角落，有效保证了人民群众的生命财产安全，但随着摄像头增多，监控视频数据量也成倍增加。在证据调取时，线下监控存储销毁时限规定不一、收集处理视频监控数据缺乏隐私保护手段、侦查人员取证能力欠缺等问题[1]，一直困扰着工作人员与场所管理人员。

伴随互联网高速发展，多地區多场所监控视频线上整合成为可能，通过多地区多单位联网，将监控摄像头拍摄视频数据由本地服务器发送整合至线上服务器，相关人员取证时只需由线上系统平台选定人脸特征，由线上服务器执行检测功能并返回筛选结果，降低了人力交通成本，同时也降低了对本地检测设备的要求。但庞大的数据量无疑增加了传统人工检测成本，造成人力浪费，若直接采用深度学习，快速精准人脸识别也将难以实现，同时大多肖像描述也局限于部分特征描述，故如何高效地对公共场所人群监控进行特征分析、筛选出对应特征人员成为一大关键问题。

1. 相关研究与发展

1.1 目标检测相关研究

目前，目标检测发展已有20余年，作为计算机视觉领域中重要的一项研究课题[2]，主要研究内容为将图像或视频中目标物体与其他无关信息进行区分，即判断是否存在目标物体，若存在则输出目标坐标位置。经过数十年发展已经分为两种类型：基于手工标注特征的传统目标检测方法、基于深度学习的目标检测方法。

其一，传统目标检测[2]利用滑动窗口提取候选区特征并进行分类，存在着时间复杂度过高、手工设计特征局限等问题，随着神经网络算法研究与推广，传统检测算法逐渐退出。其二，基于深度学习的目标检测方法相较于传统方法，具有结构灵活、检测精度高、速度快等特点。近年来关于人脸特征目标检测多采用深度学习方法，根据应用场景及响应时间需求有着不同选择。

有学者针对复杂施工环境下小目标安全帽佩戴检测，提出了基于无锚框机制的安全帽检测器[3]，也有学者选用的是Faster R-CNN改进算法在增加锚点条件下完成安全帽佩戴检测[4]。除此之外，还有学者利用YOLOv3进行人脸检测[5]，在对安全帽潜在区域进行图像增强并利用传统分类器进行判断，YOLO算法优势在于实时性，对于实时目标检测无疑有着更大的优势。对于其他人脸特征，如胡须、帽子等特征，有学者提出基于卷积神经网络的检测方式，并在图片输入前进行人脸关键点标记及放射变换[6]，消除扭曲旋转影响从而提升了测试效果。

1.2 互联网线上平台发展

近年来，互联网飞速发展，依靠5G技术高速率、低延迟、大连接特点，互联网将曾看似不相关的载体连接在一起，将曾因延迟过高、效率过低而暂缓的线上平台移植成为可能。互联网正推动各行各业的发展，在互联网快速发展、线上平台技术日益成熟的背景下，各地方单位更应引入互联网思维，整合系统资源，优化事务处理流程并减低人力物力成本，打造互联网线上平台，将各地区各场所信息整合，从而提高服务效率与质量。

2. 人脸特征目标检测模型

对于深度学习目标检测模型的选择，由检测阶段数量及模型复杂程度可分为单阶段检测算法及二阶段检测算法。根据监控视频中目标密度高、尺度小，且对实时性要求低的特征，本次人脸特征检测选用基于深度学习的二阶段检测Faster R-CNN算法[7]，算法检测流程如图1所示。该算法较其他算法的最大优势在于检测框生成改进，提出了“anchor”，并改进了目标候选框生成机制，提高了检测框生成速度，从而突破原有R-CNN模型速度瓶颈，且该算法相较其他一阶段检测算法有着明显的精准度优势，故在满足检测速度要求的前提下，选用Faster R-CNN算法能极大地提升在特定公共区域人脸佩戴检测需求。

3. 总体设计方案

3.1 系统架构

基于互联网的公共场所监控人脸特征目标检测系统整体架构设计如图2所示，整个系统由本地摄像头、本地视频服务器、线上服务器、本地查询服务器构成，首先由本地摄像头将录制视频保存至本地，再由本地视频服务器将视频文件保存时间、文件名称等信息传至线上服务器，当本地查找服务器有特征筛选需求时，连接至线上服务器，提交所需目标人脸特征及地点时间信息，线上服务器筛选对应视频并对视频进行人脸特征目标检测，并将最终结果返回至本地查找服务器。

3.2 检测系统设计方案

基于深度学习的人脸特征检测系统架设在线上服务器，系统结构如图3所示，整体由PyQt5设计图形化界面封装，系统设计共分为图像检测与视频检测两个部分，由外部接口将视频或图像数据输入，其中视频需要抽帧为图片，之后将图像进行预处理，再交由已完成训练的深度学习目标检测模块，最后再输出图片或拼帧为视频。

4. 系统设计原理

本系统基于互联网线上平台部分目前已有成熟体系，下面仅介绍主要模块人脸特征检测系统设计原理。

4.1 基于Faster R-CNN的人脸特征检测模型

人脸特征检测模型是整个系统核心，要实现训练数据收集与处理、模型训练、训练结果分析与优化三个阶段，模型训练的好坏直接关系到整个系统检测的速度及精准度。

4.1.1 人脸特征数据收集与处理

作为整个模型的基础，数据集设计与处理对模型有效性有着较深的影响，数据的真实性和广泛性至关重要。根据所需人脸特征的不同，有着不同的数据收集方法，对于已有公开数据集的特征，可直接选用公开数据集，其数据标注与训练集、测试集分配更为合理；对于无公开数据集特征，则需要自行爬取清洗、标注数据制作数据集，并以2：1数据量分为训练集与测试集。

4.1.2 模型训练

将训练集数据导入Faster R-CNN模型进行训练。

4.1.3 训练结果分析与优化

将测试集数据输入已训练模型中，再针对错误判定数据进行分析并调整参数优化模型，重复训练直至测试集准确率满足需求。

4.2 输入图像预处理

现实检测中，真实环境背景较为复杂，真实检测效果需要以真实反馈判断，故对识别框位置准确性要求较高，当外界输入图像后，由于无法保证图像清晰度及对比度，需要对图像进行预处理，以满足检测条件，如通过图像变换算法调节，可通过灰度直方图直观判定预处理结果。

4.3 系统图形化界面设计

受益于python语言强大的第三方库所带来的高开发效率，笔者推荐图形化界面可由PyQt5设计，PyQt5是一套Python绑定Digia QT5应用的框架，作为Python的一个模块，拥有620多个类以及6000个函数和方法，可用于Python 2和3，可以运行在所有的主要操作系统，满足了本系统在不同环境下的使用需求。

5. 系统实现

将人脸特征定为口罩佩戴，实现基于深度学习的人脸口罩佩戴检测系统的设计与精准度检验。

5.1 人脸口罩佩戴识别数据集收集与制作

笔者爬取与收集共计10000余张图片数据，其中包括不同颜色口罩佩戴人脸、手遮挡人脸、无遮挡人脸三种数据，统一图片大小，对数据进行清洗标注处理。将测试数据集与训练数据集数据比例按2：1分配。

5.2 检测算法测试与综合优化

选用Faster R-CNN算法将训练数据集导入训练，并根据测试集输出结果调整训练参数，本次实验由PR曲线及平均精度值（Mean Average Precision，mAP）作为测试结果评价指标，PR曲线即Precision（精准度）-recall（召回率）曲线，Precision（精准度）表示正确检测是否佩戴口罩的比例，recall（召回率）则表示测试集中被正确检测的图片所占全部数据比例，平均精度值为两种类别检测准确率的平均值。理论上mAP值越高（最大值为1），PR曲线越高越好。

经过对参数调整及模型锚点修改，最终检测结果如图4所示，其中have_mask曲线为口罩佩戴检测精准度，达到88.83%，基本满足检测需求。

5.3 图像预处理

对于本次口罩佩戴检测系统设计，由于口罩多为白色或蓝色，如背景色仍为浅色系再加上光线干扰，模型难以判断出口罩与环境边界，故需对图片亮度及对比度调整，经过对比实验，最终选取限制对比度自适应直方图均衡化图形变换算法，再次出入图片测试后结果明显改善。

5.4 系统封装

将系统由PyQt5框架设计图形化界面，如图5所示。

5.5 系统可行性检验

系统封装完成后，先后进行本地图片、视频与摄像头视频导入测试，检测效果良好，结合模型设计优化阶段精准度88.83%检测结果，表明本次系统设计成功完成，基于深度学习的人脸特征目标检测系统具有可行性。

本文基于目前互联网以及目标检测技术发展，提出了一种基于互联网的公共场所监控人脸特征目标检测系统，并以实际样例验证了系统可行性，打破了传统壁垒，通过互联网线上平台，整合监控视频资源，并依靠深度学习技术对人脸特征目标检测，从而筛选出对应人脸目标，反馈给线下本地工作人员，减轻工作人员前期数据收集、筛查工作强度，降低了对本地服务器的硬件需求，有效提高了工作效率，减轻了地区人力、物力压力。

结合目标检测技术的普适性及应用场景，我们未尝不可将其移植于其他场景，随着移动端互联网及目标检测技术发展，将更加轻便、更加快速的目标检测算法移植于移动端，可摆脱PC机携带困难等问题，并应用于便携式扫描设备，又比如将目标检测移植于工厂生产，对于特定物体的定位及筛选工作，可极大减少人力消耗，从而降低生產成本。现阶段，已有部分目标检测系统投入实际生产之中，其中最为典型的便是自动驾驶中应用的目标检测[8]，应用于对周围物体尺寸、距离、位置等信息进行精准判断，从而给自动驾驶系统提供路径规划数据，虽然目前自动驾驶中目标检测仍存在多传感器融合误差、特征提取策略存在改进空间、标注数据依赖过高等问题，但不可否认其给汽车领域所带来的巨大变革，为自动驾驶领域提供了一个目前最优的解决方案。

自动驾驶领域的兴起，打破了原有传统车企对于汽车行业的掌控，从人工智能领域另辟蹊径，为众多科技企业打破行业隔阂、探索陌生领域提供了可能。目前，谷歌、特斯拉、蔚来、百度、华为等企业已纷纷开始布局自动驾驶研发及测试，结合与互联网类似的车联网系统，实现车辆与车辆之间位置速度等信息交流，将更加准确地为汽车自动驾驶提供最优路径选择。除此之外，还可应用于农作物生产水产养殖领域的病虫害识别以及鱼群检测等问题[9]，机器目标检测技术的鉴别速度快、稳定性、准确度高等特点，能够帮助养殖者提高处理效率，节省劳动力，从而扩大养殖规模，提高经济效益。

结语

总而言之，在即将到来的工业5.0时代，随着中国经济发展与对实体产业布局的重视程度不断加深，以互联网为基础的信息技术将逐步进入并改变传统工业生产，转变现有行业理念，目标检测也将不仅仅局限于人脸特征检测等传统功能。笔者相信随着目标检测技术的不断进步与创新，将会有更为轻便、准确的新型模型被提出，从而应用于实际生产之中，突破已有生产瓶颈，提升社会整体运行效率，创造出新的社会财富，提升我国经济实力，为我国社会主义现代化社会建设提供有效助力。

参考文献：

[1]王纪锋.刑事诉讼中视频监控数据收集程序问题研究[D].北京：中国人民公安大学，2021.

[2]叶钊.目标检测技术研究进展[C]//中国计算机用户协会网络应用分会.中国计算机用户协会网络应用分会2019年第二十三届网络新技术与应用年会论文集.北京：中国计算机用户协会网络应用分会，北京联合大学北京市信息服务工程重点实验室，2019：245-249.

[3]王子明.基于深度学习的安全帽佩戴检测方法研究[D].吉林：东北电力大学，2022.

[4]吴冬梅，王慧，李佳.基于改进Faster RCNN的安全帽检测及身份识别[J].信息技术与信息化，2020，（1）：17-20.

[5]何超.基于改进YOLOv3的安全帽检测系统研究[D].武汉：华中科技大学，2019.

[6]顾旸铖，邱卫东.基于卷积神经网络的胡须及帽子特征检测[J].信息技术，2017 （09）：121-124，129.

[7]Ren S，He K，Girshick R，et al.Faster R-CNN：Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence，2015， 39（6）：1137-1149.

[8]任柯燕，谷美颖，袁正谦，等.自动驾驶3D目标检测研究综述[J/OL].控制与决策：1-24[2022-09-27].

[9]杨奉水，王志博，汪为通，等.人工智能识别茶树病虫害的应用与展望[J].中国茶叶，2022，44（6）：1-6.

作者简介：赵旭东，本科，研究方向：机器学习、大数据分析。