基于视觉AI的执岗行为监控系统在地铁 车站特定工作场景的应用研究
2022-09-07严磊车靓王宝会
严磊,车靓,王宝会
1.北京地铁科技发展有限公司,北京,100072;2.北京航空航天大学软件学院,北京,100000
0 引言
2022年初,国内有50座城市建成了城市轨道交通,运营里程9192.62公里。其中地铁占比78.9%,人们对地铁的依赖程度与日俱增。随着线路里程与客流大幅度增长,发车间隔缩短,运营时间延长,极大地增加了车站运营压力,对车站服务工作的要求也越来越严格,车站的运营安全风险问题也随之更为突出、复杂,对地铁运营安全风险识别和管理也提出了更高的要求[1]。
地铁车站不同岗位的工作人员人数众多,职业素养、工作能力、工作负荷、工作疲劳程度各不相同,出现风险隐患的时候,急需智能化、自动化工具及时、全面、精准地提醒执岗员工及其上级监管人员。
目前,国内地铁公司针对重点岗位员工执岗行为的监控与管理,主要通过主管部门及管理者人工检查视频安全监控系统这种传统的方式进行。传统的安全执岗行为监控系统,存在着如下问题:①看不及时,视频录像只为查证内容而无预警功能;②看不过来,过多的监控画面无法得到实时的监控;③看不全面,监控值守人员面对繁多视频画面疏忽、大意;④特定场景(如车辆驾驶员连续动作的执行)下的风险预警几乎无法实现。这些问题会导致重点岗位员工执岗行为风险隐患无法及时、全面地给以警示,导致运营安全风险事故概率增高,同时也会增加主管部门及管理者的监管压力,间接导致风险隐患的产生及管理成本的升高。
基于视觉AI技术、机器学习技术等进行执岗行为监控系统的设计及应用研究,根据地铁领域特定的重点岗位执岗行为的应用场景,定制构建一系列的安全生产预警模型,实现安全监控的无人值守,做到隐患和事故的提前预警,及早发现问题,避免重大事故的发生。对重点岗位员工执岗行为识别,作业过程加强监控,及时、全面地感知和预警人员违章违纪等行为,强化对员工执岗过程和执岗行为的监督与管控[2],具有深远的意义。
1 相关技术
1.1 AI机器视觉技术
AI深度学习技术的应用是基于视觉AI的执岗行为监控系统实现隐患预警、安全行为诊断的关键。图像、视频流识别与分析等技术其实都采用AI深度学习技术,通过大量的图像、视频的样本数据,提取了地铁业务领域的图像、视频的典型特征,并构建专业诊断模型,再通过对模型的长期训练学习,来不断提高算法的准确率和识别准确率[3-4]。
1.2 目标检测技术
经典的目标检测算法模型有faster-rcnn系列[5-6]、SSD[7]、YOLO系列[8-10]等。其中YOLO系列算法应用最为广泛。
YOLO v1版本采用了回归的方式直接获取目标的分类信息和回归信息,但近距离及小目标检测效果不尽人意且泛化能力偏弱。YOLO v2在v1版本的基础上添加了批规泛化层,加速网络的收敛,采用了新的提取网络结构,新增转移层连接高低分辨率的特征图,提高小物体的检测能力,同时设置预选框,降低位置预测的计算量,性能明显提高。但由于未采用类似残差的网络结构,多目标和小目标检测能力,依然有待提升[12-13]。
YOLO v3采用Darknet-53经典的网络结构,通过调节卷积步长控制输出特征图的尺寸,在保证检测速度的前提下,同步提升检测精度[12-13]。该模型采用多个尺度图像融合的方式做预测,小目标检测及实时检测方面表现良好,但在物体遮挡的时候,检测效果不好[12-13]。
YOLO v4模型,则采用了CSP DarkNet-53结构作为特征图提取网络,引入Mish激活函数并通过Mosaic进行数据增强,同时进行上下采样对特征融合进一步加强。检测速度和检测精度大幅提升。如图1所示,在COCO数据集上,v4达到了43.5%AP和65FPS, v4模型的AP和FPS比v3模型分别提高了10%和12%[11-12]。
在本文项目中,使用了YOLO V4模型算法。
YOLO v4网络结构主要包括特征提取网络(CSPDarknet53)、空间金字塔池化结构(SPP)和路径聚合结构(PANet)。CSPDarknet53包含5个CSP模块,解决深度CNN中网络优化的梯度信息重复问题,减少网络计算量,在特征融合层利用了PANet融合两个特征金字塔对应的尺度特征,增强该网络在三个特征尺度的特征提取能力和对不同尺度目标的检测能力。该网络由输入层、卷积层、池化层、输出层构成,检测效果进一步提升[12-13]。
首先,Backbone的选择:YOLO v4卷积层使用group(1-8)比较小的卷积,并将ResNeXt50、Darknet53分别与CSP结合,组成了CSPResNeXt50和CSPDarknet53。实验证明CSPResNeXt50更适合于分类网络,CSPDarknet53更适合于检测网络,因此YOLO v4的backbone选择CSPDarknet53,参见图2 Darknet-53。
其次,neck主要考虑如何扩大感受野以及如何更好地进行特征融合。对应检测网络而言,主要有三个要求:提高网络输入的分辨率和检测小目标的可能性;更多的网络层,扩大网络的感受野用以支持大分辨率的输入;更多的网络参数用于检测不同尺寸的目标。选择SPP module和PANet中的path-aggregation neck作为YOLO v4的neck。
最后,Head则沿用YOLO v3的Head。
1.3 行为识别技术
人体关键点检测是人体行为识别非常重要的一个步骤,在人体步态识别、人体行为检测、人体跟踪识别等领域都具有重要的作用[15]。但该项技术在应用场景可能会受现场光照、识别角度、物体遮挡等因素的影响,需进一步研究[16]。
人体关键点主要提取表示人体骨骼特征的部位,重点检测人体的头、颈、手、腿、臂、脚踝等多处关节点。多人骨骼关键点检测粗略分为自顶而下和自底而上两种检测方式[18]。自底而上的检测方法步骤:关键点检测和关键点聚类,即先找到人的关键点,检测完成,再利用聚类算法把关键点聚类,从而完成每个人的关键点检测。Openpose是最为常用的算法[19]。Openpose姿态估计算法是利用人体关键点亲和域(part affinity fields,PAFs)以及自底而上的多人骨架提取算法,此方法可以提取2D和3D两种人体骨架[17]。整体执行大致为图像输入、关键点检测、关键点聚类和关键点联结组装骨架[14]。
2 基于视觉AI的执岗行为安全监控系统设计
2.1 执岗行为安全监控系统总体设计
基于视觉AI技术执岗行为安全监控系统,其核心在于利用深度学习技术,是一套完备的智能视频监控、分析、处理、预警体系,包括模型构建及训练、视频数据接入及视频流解析、推理分析、结果生成、预警告警、分析统计、校验审核。
系统分层设计,按基础设施层、数据资源层、业务逻辑层及应用展示层进行总体规划、设计。上层调用下层服务,下层为上层提供服务,每层各司其职。
(1)基础设施层。支持系统运行的网络环境、软件环境及硬件资源。主要包括网络、主机、存储、备份、软件系统等。
(2)数据资源层。数据资源层是重点岗位员工执岗行为分析数据统一集合和后台处理中心的重要组成部分,实现了视频数据从接入、标注、建模、分析完整的处理过程,是整个视频分析功能的数据基础,为业务逻辑层提供数据服务。
地铁内部现有的视频监控系统的数据通过视频数据接入部分对接。执岗行为模型及模型训练是该层的重要组成部分,基于YOLO V4、OpenPose模型,实现对目标及动作的识别,使用Labelimg实现对所有图片的精准标注,最终利用Darknet深度学习框架进行YOLO V4模型的训练。
(3)业务逻辑层。部署业务逻辑组件分业务应用功能组件和系统运行技术支撑等。功能组件主要包括视频分析、视频配置、告警统计、告警设置、样本库、角色管理、用户管理、配置引擎和规则引擎等;技术组件部分,包括JAVA、SpringBoot框架、FFmpeg视频推流、Websocket实现实时告警等及 YOLO V4等算法模块。样本库为针对地铁重点岗位生成员工执岗行为违规样本库和员工执岗行为标准样本库。
(4)应用展现层为用户使用系统功能的窗口,提供多样化的界面展现形式和数据发布手段,通过调用业务逻辑层的相关组件,实现对重点岗位员工执岗行为分析结果的展示。主要对地铁重点执岗场景员工执岗违规行为视频分析及告警,针对综控室、司机室、电梯场景的实时视频和历史视频,通过视频分析,识别员工执岗违规行为并进行告警。支持多路视频同时接入和分析、本地视频上传分析等功能。
利用视频数据,对重点岗位员工执岗行为分析,通过算法模型构建高准确度等级的违规行为识别,将识别结果生成告警信息,通过学习、感知、认知、行动、告警等流程,实时发现、实时处置。
2.2 执岗行为模型设计
根据地铁领域特定的重点岗位执岗行为的应用场景,定制构建一系列的安全执岗行为模型、生产预警模型,及时、全面、精准地发现执岗行为中存在的不规范、具有安全隐患的行为。
重点岗位员工执岗行为分析基于地铁内部视频系统,对视频进行标注,进而进行模型的构建及训练,对拟分析对象与模型进行比对形成分析结果,并对分析结果进行展示,支撑违规行为告警功能及其他相关功能。地铁监控场景下视频数据的收集,这部分数据需要长期的积累和收集,且需要人工对数据进行标注和打标签。系统上线阶段属于冷启动阶段,在初期构建的模型基础上进行运行。而在运行后依然需不断优化、学习和训练。通过业界所公开的行为和动作识别的相关数据集,择取和地铁业务相关的作为识别的学习、训练样本。两者数据相辅相成,构建地铁重点岗位的执岗行为库。
系统运行分为训练环境和生产环境。在训练环境中,对原始样本进行数据处理、特征提取及映射,生成训练样本;根据地铁车站(及司机室)特定业务场景,选择不同的算法模型,进行标签创建、数据抽取、数据标注、标注质检、模型训练、模型评估。
在生产环境中,根据既定的业务逻辑规则,对采集到的视频进行实时的检测、识别、分析,最终系统会给出及时、全面的警示信息。安全模型设计如表1所示。
3 基于视觉AI的执岗行为监控系统应用研究
本文将基于视觉AI的执岗行为监控系统实际运用到北京地铁车站重点岗位的执岗工作监管环境中,在实际生产环境中验证系统的功能及性能,重点场景介绍如下。
表1 重点岗位执岗行为视觉AI安全模型
3.1 综控员违规行为监测与告警
综控室(即综合控制室)是车站的中枢,分为多个监控分区。如果综控室工作人员离开岗位,或者拨打手机及把玩手机等处于非工作状态,系统则发出带告警事件的图片信息[3],立即推送给相关管理人员,并启动声光告警,提示执岗人员有违规动作的出现,对执岗工作人员行为进行有效的监督和提醒。综控员违规使用手机告警如图5所示。
3.2 电扶梯现场检修人员违规行为监测与告警
电扶梯属于特种设备,必须定期对地铁电扶梯特种设备进行维护保养及随时加强对地铁电扶梯的日常检修管理。在指定时间特定区域没有穿制服的维修人员出现、未携带工具箱、在指定时间未完成一定的操作都定义为违规行为。
系统模型设定对辅助工作人员(蓝色T恤)、维修人员(绿领深灰工作服)、围挡进行识别。通过识别到指定的员工类型,判定检修人员规范工作。指定的维修时间内若未发现有上述特征目标出现在维修作业区域,则发出声光报警并推送至管理人员,避免在计划的作业时间工作人员没有按时出现或作业中着装不规范、未按规定设置围挡等带来的安全隐患,减小管理存在漏洞而导致的安全事故发生概率[3]。参见图6所示。
3.3 驾驶员序列动作识别、监测与告警
在行车过程中,驾驶员起立观望、操作、抬手平移、坐下、操作发车等操作动作及顺序,是有严格要求的。如果驾驶员未完成规定动作其中一个或多个、顺序颠倒、打电话、乘务室人员大于4人时等,都定义为违规行为。系统将进行提醒,同时系统可对动作范围及时间进行调整,如人员接打电话时间过长,如超过5秒,则告警。
系统实现驾驶员整套动作序列按顺序按规范的识别功能。如发现违规情况,即刻发出声光报警,同步推送相关管理人员,避免由于其动作不规范而带来的安全隐患,减小人员管理方面存在漏洞而导致的安全事故发生概率[3]。参加下图7所示。
4 系统实现与评估
基于北京地铁的实际数据,对系统进行评估。为了验证基于视觉AI的执岗行为监控系统在实际业务场景中的可用性及优势和特性,本文选择了违规使用手机、驾驶员序列动作识别、电扶梯检修三个场景,主要验证系统的AI检测准确率、事件响应率等指标,并与常规传统的视频监控系统下的安全监控效果做对比。对比结果,参见表2所示。表中的“传统监控”场景是指利用北京地铁CCTV系统,人员现场值守监控所得的实测值。
表2 应用场景监测验证结果
由表2结果数据可知,本文设计的执岗行为监控系统在生产运营环境中的应用,可以达到实时监测的效果,全部都是在秒级就可识别到并且产生告警、预警,而传统的利用视频监控系统,只能依靠值守人员进行事件的响应,且都是在分钟级别,并且还存在误报、漏报可能。综上所述,相对于传统人工监控方式,本系统确实可以做到及时、全面、精准的实时监测及告警,改善了人工耗时、耗力、低效且存在漏报、误报的可能,改变了监管方式。
5 结语
针对现代地铁运营线路增多、客运量增大、运营时间变长等对地铁运营和服务造成的压力,该研究对基于视觉AI的执岗行为监控系统进行了研究分析,并以北京地铁某车站为示范,进行设计研究的验证。该研究进行了以下技术设计:
(1)构建一套基于视觉AI技术执岗行为安全监控系统,通过该系统,将智能视频监控、分析、处理、预警体系融为一体,实现模型构建及训练、视频数据接入及视频流解析、推理分析、结果生成、预警告警等一体化设计。随着科学技术的发展,基于视觉AI的执岗行为监控管理成为各地铁监控管理发展的趋势。
(2)构建执岗行为模型并选择适合的算法模型。根据地铁领域特定的重点岗位执岗行为的应用场景,基于YOLO V4、OpenPose模型,定制构建一系列的安全执岗行为模型、生产预警模型,并根据深度学习框架进行模型训练。
本文研究设计的系统在地铁生产运营环境中的应用,改善了传统监控系统的低效、漏报、误报的情况,改变了监管方式;可以实现地铁运营全面监管及安全隐患的实时提醒,做到及时、全面、精准的告警,降低了企业管理成本、提高了地铁运营安全管控水平。