基于视频分析的空管员违规行为识别方法*

2023-02-24奉鑫鑫揣明瑞

中国安全生产科学技术 2023年1期

唐豪，奉鑫鑫，高曙，罗帆，揣明瑞

（1.武汉理工大学计算机与人工智能学院，湖北武汉 430070；2.武汉理工大学管理学院，湖北武汉 430070）

0 引言

随着航空技术的发展，航空业以其安全、快捷的特点，在交通运输领域发挥重要作用。空中交通管制员（以下简称“空管员”）是航空运输系统的重要参与人员，据不完全统计，因陆空通话（空管员与飞行员之间为确保飞机安全完成飞行任务而进行的交流）错误引起的不安全事件占所有不安全事件的41%。而Shappell研究表明，70%～80%的航空事故均由人为错误导致[1]。

为保障飞行安全，遏制不安全事件发生，鉴于空管员工作的重要性及特殊性，需要严格确保其行为的规范性要求，防止违规行为发生。目前，对空管员违规行为的识别主要采用人工巡查和视频监控方式，对于每天产生的海量视频数据，在需要时采用人工进行识别和审核，尚未采用智能化违规行为分析，耗费大量人力和宝贵的数据资源，使视频监控系统没有得到充分利用。因此，快速准确地智能化识别空管员违规行为，具有重要的现实意义与实际应用价值。

随着人工智能的快速发展，在利用视频监控数据识别人员违规或不安全行为方面，国内学者进行相关研究，温廷新等[2]将迁移学习与残差网络相结合，用于矿工不安全行为分类，有助于避免安全事故的发生；张洪亮[3]利用数据仓库技术和大数据手段，从大量数据中提取重要特征并识别数据异常情况，找出煤矿潜在违规操作，消除安全隐患。由于部分场景下，违规行为亦称作异常行为，因此可以借鉴异常行为相关研究，如Chang等[4]通过构建卷积自动编码器体系结构，分别捕获空间和时间信息表示，并设计深度k-means聚类算法对外观进行限制以及运动编码器提取数据中相同变化因子，从而有效地检测异常行为；Zhong等[5]设计图卷积网络纠正噪声标签，基于特征相似度和时间一致性，图卷积网络将监控信号从高可信度的片段传播到低可信度的片段，以更好地检测异常行为；Liu 等[6]提出基于未来帧预测方法，即通过衡量预测的未来帧和真实未来帧差异判断异常，该方法使用U-Net网络作为未来帧的生成器，并从空间、时间和对抗角度对训练进行约束，最后通过判别器判别预测帧和真实图像之间的相似程度，检测异常行为。

目前，利用视频数据分析空管员违规行为的研究较少，而在煤矿、建筑工程等领域，违规行为研究一般直接对违规行为图像数据进行分类，并未从监控视频中检测并定位违规行为发生的起、止时间（以下简称时序区间）；在异常检测领域[4-6]中，主要采用半监督、弱监督以及无监督等方法检测异常发生的时序区间，而缺少对检测出异常行为的分类。

为了对监控视频中空管员的违规行为进行识别，即检测发生的时序区间并进行违规行为分类，本文在分析空管员的行为规范、工作环境特点基础上，结合弱监督学习，利用异常回归网络（anomaly regression Net，ARNet）[7]和ResNeXt网络[8]，提出2 阶段的空管员违规行为识别方法，能够有效识别空管员的违规行为，排除潜在隐患，为保障空中交通安全奠定基础。

1 总体研究思路

1.1 空管员违规行为界定与特点

通过实地调研某空管分局获知，其区调、进近和塔台室等均安装视频监控系统，全天候采集空管员工作情况，摄像头角度一般采用侧面俯视视角。视频中空管员大部分时间为正常工作状态，偶尔可能会出现违规行为，违规行为界定为：睡岗、脱岗、使用非工作所需电子产品（如手机）、看书（报）、未佩戴耳机以及聊天等，这些违规行为具有动作幅度小（即细粒度动作，除脱岗外）、出现频率低、持续时间短的特点。

1.2 研究思路

违规行为研判需要根据其所处时空上下文环境决定，具有很强的场景相关性，依据前文分析，基于视频监控数据的空管员违规行为识别，需要在大量正常工作行为中检测偶发的违规行为，而且这些行为具有细粒度、持续时间短的特点。因此，本文采用从少量标注信息中提取特征的弱监督学习方法，对空管员违规行为进行检测，该方法只需视频级的粗粒度标注样本，即仅告知某段视频中存在违规行为（以下简称弱标注样本），从而避免样本标注成本高的问题，同时加入少量的违规行为标签信息，可以更精确地引导模型识别细粒度的空管员违规行为。

综上，本文将空管员违规行为识别问题转换为检测违规行为发生时序区间和对违规行为分类问题，结合弱监督学习方法，设计2 阶段识别模型AR-ResNeXt。第1 阶段即检测阶段：通过ARNet网络对视频中出现的违规行为进行检测，ARNet网络是1 种弱监督学习模型，少量的弱标注样本以多示例学习（multiple instance learning，MIL）方式引入，既帮助模型更加准确地检测违规行为，也解决样本标注成本高的问题。第2 阶段即分类阶段：使用ResNeXt网络对YOLOv4 网络定位的违规行为视频片段进行细粒度分类，区分其类别（诸如睡岗、脱岗、使用非工作所需电子产品（如手机）、看书（报）、未佩戴耳机以及聊天等），并对检测阶段生成的结果进行修正，进一步提升违规行为识别效果。

2 空管员违规行为识别模型的构建

2.1 AR-ResNeXt模型总体架构

为有效识别空管员违规行为，构建AR-ResNeXt模型，该模型由视频预处理层、违规行为检测层、违规行为分类层和违规行为结果输出层组成，如图1所示。其中，视频预处理层用于对视频数据的预处理，将视频按固定间隔提取图片，输入到特征提取网络TSN[9]中，使用TSN网络提取视频数据的RGB信息和光流信息并进行融合，获得视频数据特征；违规行为检测层用于完成检测阶段任务，使用ARNet[7]网络得到视频片段的违规行为分数向量，通过分数预测违规行为发生时序区间；违规行为分类层用于完成分类阶段任务，该层获取违规行为检测层结果，使用YOLOv4[10]网络模型定位空管员所在区域，并输入到ResNeXt[8]网络进行违规行为的分类；违规行为结果输出层是对结果进行处理，输出所有违规行为发生时序区间和类别标签。

图1 AR-ResNeXt模型结构Fig.1 Str ucture of AR-ResNeXt model

2.2 基于TSN的视频预处理层设计

为检测空管员的违规行为，首先需要提取视频的视觉内容特征。本文选用能够同时提取时序特征和空间特征的TSN网络，用于提取视频的双流特征，作为违规行为检测层的输入，即将视频数据切分成片段，并按固定间隔提取图片作为TSN网络输入，TSN网络将每个片段进行随机采样，将采样视频片段通过双流网络分别获得空间和时间特征，并采用加权求均值的方式进行合并，设置空间网络与时序网络的权重比为1 :1.5，可以获得最佳检测效果[9]，最终得到片段级别的视频特征。

2.3 基于ARNet的违规行为检测层设计

违规行为检测层基于TSN网络优化提取的视频特征，使用ARNet网络检测空管员工作中的违规行为，输出其发生时序区间，作为检测阶段的输出结果。

ARNet网络结构如图1所示，其优势在于设计动态多实例学习损失函数和中心损失函数，前者用于扩大违规行为实例与正常工作行为实例之间的类间距离，后者用于减小正常工作行为实例之间的类内距离。通过最小化这2 个损失函数，获得用于视频违规行为检测的判别特征表示，使用该特征表示能够从长时间监控视频中检测出偶发的违规行为时序区间。

1）动态多实例学习损失函数

ARNet网络将违规行为检测视为1 项多实例学习任务。为扩大空管员违规行为实例和正常工作行为实例之间的类间距离，设计动态多实例学习损失函数（见图1中DMIL Loss），该函数分别计算所选前k个违规行为分数和视频标签之间的交叉熵作为损失，并计算平均值，以避免噪声标签影响样本特征的评分，如式（1）所示：

式中：ki表示对于第i个视频，选取k个最大违规行为分数用于损失函数的计算；yi={0，1}是视频标签，1代表该视频中包含违规行为（即弱标注样本），0 代表该视频全部为正常工作行为；Si表示第i个视频的违规行为分数集合；sji表示对第i个视频违规行为分数集合按从大到小排序后，第j个违规行为分数。

2）中心损失函数

动态多实例学习损失函数目的是为增大违规行为与正常工作行为之间的类间距离，但在实际检测中，正常工作行为之间的类内距离也会因为动态多实例学习损失函数而扩大，从而导致检测阶段精度下降。故增加1 种用于违规行为评分回归的中心损失函数（见图1中Center Loss）以解决上述问题。该损失函数学习每个类的特征中心，将正常工作行为的特征进行聚合，并分离违规行为特征与中心特征之间的距离，如式（2）～（3）所示：

式中：ti表示第i个视频片段；ci表示第i个视频的特征中心。

ARNet网络工作流程如图1中“违规行为检测层”所示，首先使用3 层时序卷积层捕捉空管员的时序信息和运动信息并进行融合；通过1 维卷积层得到视频片段的违规行为分数，该分数是评估视频片段中空管员发生违规行为的概率，分数越高表示该视频片段发生违规行为的概率越高；根据违规行为分数是否达到阈值，判断当前视频帧是否为违规行为，当连续n 帧违规行为分数超过阈值，则判断该片段为违规行为片段。通过设置n的大小，能够筛选出持续时间长短不同的违规行为。实验表明，设定阈值为0.8，n 为10，对于空管员的违规行为检测有较好的效果。

2.4 违规行为分类层设计

违规行为检测层输出的是违规行为发生时间段，无法识别违规行为类别，因此提出将YOLOv4[10]网络和ResNeXt[8]网络相结合的行为分类模块作为第2 阶段，对违规行为检测结果进一步分析，得到违规行为类别。若分析结果为正常工作行为，则对误检的违规行为进行剔除，提高检测的准确率；若分析结果为某类违规行为，则输出分类结果及对应时序区间。

1）基于YOLOv4 的空管员定位方法

针对视频数据同一背景下含有多名空管员的特点，使用YOLOv4 网络模型对输入的视频数据进行目标定位，截取精确定位后的空管员图像，再输入到后续分类模型进行处理。YOLOv4 模型由CSPDarknet53、PANet、YOLOhead 组成，并引入SPP注意力模块。CSPDarknet53 对图像进行特征提取；PANet和SPP模块对不同尺寸特征图的特征信息进行融合，同时增大感受野，提高对空管员的定位能力；YOLOhead 通过提取特征进行结果预测。YOLOv4 采用CIOU（Complete-IOU）作为损失函数，CIOU回归时的损失函数如式（4）～（6）所示：

式中：IOU为检测结果重叠比例；h，w分别为真实框的长和宽；hgt，wgt分别为检测框的长和宽；（b，bgt）代表真实框和检测框的中心点坐标；p2（b，bgt）代表预测框与真实框的中心点距离；c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离；a 为权重参数；v为长宽比的相似性。

采用CIOU作为损失函数综合考虑到重叠率、距离、尺度大小等多种信息，使得收敛更稳定，速度更快。用YOLOv4 模型定位到空管员的具体位置并进行裁剪，同时将裁剪后的空管员图像输入ResNeXt网络，进行违规行为类别的判定。

2）基于ResNeXt的违规行为分类方法

由于空管员动作幅度小且缺少连续动作间的关联性时序信息，要求模型有较高的准确度，故使用101 层的ResNeXt网络进行违规行为分类。ResNeXt网络是基于ResNet网络[11]和Inception 网络[12]构建的新型网络结构，其模块结构如图2所示。

图2 ResNeXt模块结构Fig.2 Str uctur e of ResNeXt module

ResNeXt与ResNet网络的核心思想均为引入1 个恒等快捷连接，将拟合映射结果F（x）用（F（x） +x）代替（如图2中虚线所示），有效解决由于网络模型深度增加引起的梯度消失和退化问题。ResNeXt对ResNet中的卷积层进行改进，采用简化版Inception 网络的分组卷积结构，与Inception 网络不同的是，ResNeXt分支的拓扑结构相同，无需单独人工设计。对比同等深度的Res-Net网络，ResNeXt在相近参数复杂度下能取得更好的分类效果，说明ResNeXt网络对空管员的细粒度违规行为分类效果更优。

3 实验与分析

3.1 实验目的与实验环境

本文实验目的是使用AR-ResNeXt模型对视频数据集中空管员违规行为进行检测，定位其发生时序区间并分类，识别睡岗、脱岗、使用非工作所需电子产品（如手机）、看书（报）、未佩戴耳机以及聊天等违规行为，并与当前流行的违规行为检测模型比较，以验证ARResNeXt模型的实用性、有效性与准确性。

本文实验的计算集群包括1 个Master节点和10 个装有GPU的计算节点，其中，硬件条件为：Intel Gold 5218（2 颗）、32GB DDR4 2666MT/s（8 条）、NVIDIA Tesla GPU P100 16G。

3.2 实验数据及处理

由于空管员工作的特殊性，实验数据源自某空管分局空管员培训室的视频录像，帧率为30 fps。本文实验在违规行为检测阶段将视频数据集（视频总时长为350 min，其中正常工作行为257 min，含违规行为视频93 min）划分为2 min 相等时长的视频片段，对视频片段进行人工标记，若该视频片段中包含违规行为，则标记为1，反之标记为0；在违规行为分类阶段，以10 帧/s的速率对视频数据进行图片提取，并截取空管员所在空间区域，用于违规行为分类阶段的输入，全部图片数据共5 431 张，其中包含正常工作行为4 700 张、睡岗100 张、使用非工作所需电子产品（如手机）189 张、聊天112张、未佩戴耳机120 张、看书（报）210 张（由于空管员脱岗行为较明显，通过YOLOv4 剪裁出的空管员人数判断空管员是否出现脱岗行为，相比ResNeXt直接判断脱岗行为具有更好的效果）。实验数据集按照8 :1 :1 的比例划分为训练集、验证集和测试集。

3.3 评价指标

1）检测阶段评价指标

目前针对违规行为没有合适的评价指标，故使用异常行为检测领域中帧级AUC（area under curve）作为本文评估违规模型的性能指标。AUC为被试工作特征曲线（receiver operating characteristic curve，ROC曲线）与坐标轴形成的面积，是0～1 之间的值，该值越大，表明检测模型的性能越好。

2）分类阶段评价指标

采用准确率Accuracy作为分类效果的评估指标。准确率Accuracy代表所有正确预测的样本占总数的比例，即预测正确的概率，如式（7）所示：

式中：TP表示预测正确的正样本；FP表示预测错误的正样本；TN表示预测正确的负样本；FN表示预测错误的负样本。

3.4 实验结果及分析

1）基于AR-ResNeXt的违规行为检测实验及分析

实验对AR-ResNeXt模型检测违规行为发生的时序区间进行测试，结果分别用可视化形式以及指标评估形式展示。图3是在某段视频数据上测试结果的可视化展示。其中，AR-ResNeXt模型检测阶段的结果简化为ARNetTSN，表示ARNet的输入是经TSN优化特征提取后的结果，AR-ResNeXt模型执行2 阶段（检测阶段和分类阶段）后的检测结果。从图3中可以看出，ARResNeXt模型在第1 阶段（即ARNetTSN结果）能基本检测所有的违规行为，但存在一定偏差，可能会对正常工作行为误判；但融合第2 阶段的分类结果后，自动对第1阶段检测结果进行修正，使最终结果（即AR-ResNeXt的结果）更加准确。同时，从指标评估结果表1可得到同样结论，在帧级AUC指标上，相对于第1 阶段（即ARNetTSN结果）检测结果（80%），融合第2 阶段分类结果后，最终违规行为检测结果（即AR-ResNeXt）为82.9%，提升2.9%，验证本文提出的2 阶段AR-ResNeXt方法的有效性，可进一步提高对违规行为的检测效果。为进一步验证AR-ResNeXt模型对违规行为发生时序区间检测的有效性，采用帧级AUC标准对Liu 等[6]、Sultani等[13]、ARNet、ARNetTSN以及AR-ResNeXt进行对比实验，实验结果见表1。由表1可知，本文检测阶段改进的ARNetTSN方法，相较于ARNet方法的AUC提升6.1%，相较于Liu 等[6]提出的半监督方法、Sultani等[13]提出的弱监督方法，其检测效果更有较大幅度提升（分别提升32.7%，8%）；本文提出的2 阶段模型ARResNeXt，通过对检测阶段ARNetTSN的结果进一步修正，其帧级AUC值达到82.9%，相较于ARNetTSN提高2.9%，性能相对较优。

图3 检测违规行为发生时序区间的可视化结果Fig.3 Comparison chart of visual results on detecting occurrence time ordered interval of violations

表1 违规行为检测指标评估结果Table 1 Evaluation results of violations detection index%

综上，本文提出的基于AR-ResNeXt的空管员违规行为识别方法，与弱监督学习方法相结合并进行2 阶段检测与修正，引导模型更加准确地检测违规行为，同时避免样本标注成本高问题，具有实用性且能够更准确地定位违规行为发生的时序区间。

2）基于AR-ResNeXt的违规行为分类实验与分析

实验对检测违规行为发生的时序区间进行违规行为分类。本文模型与Efficientnetv2[14]在空管员视频数据集上对违规行为分类的指标评估见表2，AR-ResNeXt模型对正常工作行为的识别综合准确率为90.5%，对违规行为（除正常工作类型外）识别平均准确率为87.8%，相对于Efficientnetv2 方法分别提高2.2%，2.1%；在违规行为分类中，对睡岗、脱岗以及看书（报）的识别率较高，对玩手机识别率较低。

表2 违规行为分类指标评估结果Table 2 Evaluation results of violations classification indexes%

空管员违规行为分类结果可视化如图4所示。结合表2和图4，发现部分违规行为识别率较低且不同违规行为识别率差异性较大，原因可能为：1）不同违规行为本身差异性较大，因此识别难度不同，例如脱岗与玩手机，脱岗行为较明显且动作幅度大，反之，玩手机行为不显著且动作幅度小；2）由于监控视频角度为侧面俯视视角且空管员工位较密集，导致空管员之间有时产生遮挡，降低违规行为识别的准确率；3）某些违规行为（如聊天、玩手机）与正常工作行为相近，导致模型产生误判。

图4 违规行为分类结果可视化Fig.4 Visual display of violations classification results

本文提出的2 阶段识别模型AR-ResNeXt对于违规行为具有较好的区分度以及较高的识别准确率，原因可能是：1）在第1 阶段结合弱监督学习方法，并在TSN优化视频特征提取基础上采用ARNet网络进行检测，可以较准确检测违规行为发生的时序区间；2）在第2 阶段，结合YOLOv4 高精度的人员定位方法，并采用101层的ResNeXt网络进行违规行为分类，解决退化和梯度消失问题，实现对空管员违规行为的细粒度分类，同时，基于分类结果对违规行为检测层产生的误判结果进行修正，进一步提升违规行为识别准确率。