基于异步交互聚合网络的港船作业区域人员异常行为识别*

2022-05-14陈信强郑金彪王梓创吴建军

交通信息与安全 2022年2期

陈信强郑金彪凌峻王梓创吴建军阎莹

（1.上海海事大学物流科学与工程研究院上海 201306；2.上海海事大学商船学院上海 201306；3.长安大学运输工程学院西安 710064）

0 引言

我国航运业快速发展，海上货物运输呈现逐年显著增加的趋势，船舶进出港数量及频次也在快速增加，导致近海水域交通常常出现严重拥堵，这对港口的安全生产和船舶安全航行提出了更高要求。近年来出现的突发公共卫生事件（如新冠肺炎疫情）为港航工作环境下的人员、货物安全运输等任务增加了潜在的风险[1]。高效、快速、准确识别码头现场工作人员及在航船舶船员的异常及危险行为，为港口安全生产、智慧管控及船舶安全航行提供有效预警信息，对提高港口工作生产效率及船舶安全航行具有重要意义[2-3]。

视频监控已被广泛应用于港航相关领域的全业务、全生产作业过程中。面向港口工作环境的视频监控任务需要专职工作人员监管观看现场作业监控视频以提前研判可能发生的异常或者危险事件。船舶驾驶台的不同角度可布设相机以监控船员实际工作状态。为实现异常行为快速、准确的自动识别，越来越多的学者倾向于基于计算机视觉和人工智能技术开展港船人员异常行为识别研究。传统的计算机视觉方法基于帧间特征提取、帧内特征融合和特征编码及分类等步骤实现视频数据驱动的行为识别[4]。改进的密集轨迹算法被认为是经典的行为识别方法，算法性能明显优于其他行为识别方法[5]。

相比于传统机器学习方法，研究人员发现深度学习相关方法处理行为识别任务的精度更高。秦宇龙等[6]设计了1种结合注意力机制和多尺度时空信息的深度卷积神经网络识别人体行为。Yang等[7]提出了1种基于在线更新扩展信念规则行为识别方案，以应对不同工作环境下的安全态势感知挑战。谭等泰等[8]提出了1种基于多帧图像特征融合的行为识别模型，以解决视频序列中部分动作行为间隔时间较长导致识别精度较低的问题。部分学者结合双流神经网络、3D卷积神经网络和长短时记忆神经网络开展人员行为识别相关工作[9-11]。海事领域学者基于最新的计算机视觉和人工智能相关算法，挖掘海事监控视频和船舶自动识别系统数据（AIS）等数据源隐藏的行为时空数据信息[12]。已有研究表明基于港船监控视频的异常（或危险）行为识别任务需要人工主动干预[13]。基于AIS数据的船舶异常行为分析为水上交通事故溯源提供了数据支撑[14-15]，基于船载监控视频预警并研判船员异常行为的相关研究不多。

已有研究主要利用计算机视觉技术识别日常生活场景的能见度较好情况下的危险行为，海事领域相关学者主要聚焦于AIS数据的宏观交通安全行为分析，基于船舶监控视频数据开展微观交通安全行为分析（即船员异常行为分析）的相关研究不多。针对港船环境的人员异常行为识别任务，笔者提出了1种融合人员检测、跟踪和行为识别框架，该框架利用深度学习方法检测识别港船图像序列中的人员及物体位置，基于联合学习检测和嵌入范式（joint learning of detection and embedding model，JDE）提取图像特征，并将其作为异步交互聚合网络（asynchronous interaction aggregation network，AIA）的输入[16]，以判定港船图像序列人员异常行为时序变化，实现港船图像中异常行为识别。

1 视频数据驱动的港船人员异常行为识别框架

该框架首先使用JDE范式进行实验人员信息提取，得到人员和物体的图像特征信息及在视频中的序列，JDE范式中使用YOLO V3（you only look once）算法实现人员和手机等港船人员异常行为相关联的元素检测，此基础上应用异步交互聚合网络（asynchronous interaction aggregation network，AIA）模型识别人员、物体和异常行为之间的交互，实现港船人员异常行为识别任务，本研究提出的异常行为识别框架见图1。

图1首先使用YOLO V3模型的DarkNet-53作为骨干网络对输入的图像进行卷积操作，进一步采用特征金字塔结构对网络的输出信息进行优化处理，得到港船图像中人员和物体特征信息及视频序列信息，并以JDE范式将所有信息同时输入到交互聚合模型进行深度融合，其中港船人员相关图像时空特征信息将被传递到特征池，更新后的特征信息将被传递到AIA交互聚合模型中以输出最终的行为识别结果。

图1 港船环境下人员异常行为识别流程图Fig.1 Flow chart for detecting abnormal behaviors of workers at ship working fields

1.1 基于JDE范式的特征信息提取

通过对港船相关监控视频数据的分析，可发现港船环境下工作人员与其周围的其他工作人员和物体（如手机、安全帽）总是存在时空关联互动，这种关联性在基于视频数据的行为识别任务显得尤为重要。基于此，需要提取并保留港船图像中异常行为相关的人及物体的时序图像特征。引入JDE范式，融合港船图像特征提取过程与目标检测过程（基于YOLO模型的darknet网络），为后续的异常行为识别提供时序图像特征。

对于输入的每一帧图片，经过卷积神经网络及特征金字塔网络对港船图像特征进行增强，得到港船图像行为识别任务相关的预测引导信息。其中对图像特征信息提取的网络包含了卷积层和激活层，卷积函数和激活函数见式（1）~（2）。

式中：F(u,v)为图像特征的像素值；ω为卷积核模板；Fl+1和Fl分别表示卷积层第l+1层和第l层的输出；b为偏差量；⊙为卷积运算；激活层采用Leaky-ReLU激活函数，xn和Yn分别表示激活层的第n层输入和输出；an为激活层的固定参数。

预测引导信息是由多个叠加的卷积层组成，其输出(6P+Q)×W×H的概率预测图，其中，P为该尺度下锚模板的数量；Q为嵌入的维度，W和H为锚点图的宽和高。预测引导信息类型由3个部分组成：①尺度大小为4P×W×H的分类结果；②尺度大小为2P×W×H的回归参数；③尺度大小为Q×W×H的嵌入图。本文引入前景/背景的分类损失函数La、边界框的回归损失函数Lb及嵌入学习损失函数Lc这3类损失函数实现JDE范式的特征信息获取。交叉熵损失函数La和Lc见式（3），边界框的回归损失函数Lb见式（4）。

式中：p(xs)为真实概率分布；q(xs)为预测概率分布。JDE范式将每个预测引导信息的学习目标建模为1个多任务学习问题，即联合学习目标可以表示为每个尺度和每个分量的加权线性损失和，联合学习目标函数Lunite见式（5）。

式中：M为预测引导信息的种类数；M;j=a,b,c)为上述3种损失函数对应的权重；为不同预测引导信息类型对应的损失函数。本研究基于文献[17]的任务独立不确定性的理论确定自动学习损失权重的方案。具有自动损失权重均衡的学习目标函数Lunite见式（6）。

1.2 异步交互聚合模型

在上述基于JDE范式的特征信息提取过程可获得港船图像中人及物体（手机、安全帽等）的实例级特征Pi、Oi和时间记忆特征Ni，利用异步交互聚合网络建立交互聚合（interaction aggregation，IA）结构以探索港船图像中人与人、人与物及长时间的人与异常行为之间的时空关联性。此外，引入异步记忆更新算法（AMU）加快网络训练的速度。

1.2.1 交互聚合结构

IA结构的输入为港船图像中人和物体的实例级特征Pi、Oi及时间记忆特征Ni，输出动作特征为Yi=Y(Pi,Oi,Ni,δ)，δ为IA结构中的参数，Yi最终输入到分类器进行港船人员异常行为识别结果。IA结构由多个针对单一行为交互而制定的交互模块组成，交互模块之间深度嵌套以获得具有辨识度的深层行为特征。基于交互模块的Softmax层输出的点积注意力信息，可选择查询特征激活程度高的特征值，并将其合并以增强港船人员异常行为的查询特征。本研究的交互模块包含3种类型：P模块、O模块和N模块。

P模块用于描述港船图像中人员之间的交互。它对不同的人员交互特征信息比较敏感，例如谈话和倾听，P模块的输入是目标人员特征或增强的人员特征Pi。O模块主要识别人员与物体之间的交互，其对港船图像中人员在物体上的相关动作更加敏感，该模块的输入是检测获得的物体特征Oi。检测的物体种类较多的情况下，会根据检测的置信度进行抽样提取。N模块处理时空关联较强的异常行为动作，例如港口作业人员在港区不同位置违规看手机。N模块的值输入为时间记忆特征Ni。建立3种交互模块结构后，AIA模型构建了密集串行IA结构，见图2。IA结构的任意1个交互模块对其前置的交互模块输出分配不同权重以整合学习。其对第n个模块的整合查询见式（7）。

式中：D为先前模块的索引集合；Vm为索引集之间用Softmax函数归一化后可学习的多维特征向量；Fi,m为第m个模块输出的增强特征。

1.2.2 异步记忆更新算法

长期的记忆特征可以为港船环境下异常动作识别提供有用的时间语义，要求获取更多的港船图像视频序列以得到比较准确的时间记忆特征Ni，增加了算法收敛时间。为此，本研究中采用异步记忆更新算法对记忆特征进行持续更新，更好地利用异步内存特性，加快算法的收敛速度。该算法基于对记忆池的读写操作完成计算过程。记忆池C记录港船图像的行为记忆特征，该记忆池的任意1个特征均为算法的估计值。算法在每次训练迭代通过读和写这2个基本操作实现港船人员行为特征识别的异步记忆。在给定的港船视频片段sn(n=1,2,…,N)，从记忆池C中读取目标片段中的记忆此过程称为读操作。算法更新迭代完成后，利用目标视频片段中人的行为特征Pi作为估计特征写进记忆池C，此过程为写操作。

2 实验结果分析

在港口环境和船舶驾驶舱环境下，具有安全隐患的行为动作主要表现为：在工作区域长时间走动、在非工作区域长时间站立、接打手机、玩手机、和他人长时间谈话等，因此本文设置的异常行为识别动作包括站立、行走、打电话、看手机、谈话、倾听，现实场景中可根据异常行为判别机制来判断工作人员是否在岗正常工作。为验证提出的港船环境异常行为识别框架的有效性，采集港船环境下典型异常行为监控视频并手动标定各片段，不同视频片段具体信息见表1。视频1、视频2和视频3均为模拟的港口工作环境，分别包含1名工作人员（即实验人员）和多名工作人员，视频4为船舶驾驶台得到的监控视频，其中包含多名船员在驾驶台值班。

表1 港船人员异常行为的视频片段信息Tab.1 Details for the collected video clips involved with anomaly behavior

港口工作环境视频片段包含5种典型的异常行为：站立、行走、谈话、看手机和打电话，即视频1、视频2和视频3的典型异常行为。船舶驾驶台的视频片段（即视频4）包含的异常行为有站立、行走、谈话和倾听。实验过程中使用的服务器搭载的显卡为NVIDIA Quadro RTX 5000，内存64GB，中央处理器为Intel(R)Xeon(R)Gold 6230 CPU@2.10GHz，运行环境为Ubuntu 20.10，训练过程中随机丢弃率参数设为2×10-1，学习率设为4×10-4，每次输入的批样本数量为1，算法的训练次数为7×105。本文中用作训练数据集的是原子可视化行为（atomic visual actions，AVA）数据集[18]。AVA数据集是1个用于时空行为检测的数据集，来源于电影片段。主要提供扩展视频序列中每个人的多个动作标签，包含的动作标签有80类，主要分为姿势、人-物互动和人-人互动这3类。

图3为不同视频片段的异常行为识别效果。图3（a）显示视频中实验人员的异常行为均被精准识别捕获，如看手机、打电话、站立和行走。图3（b）显示构建的异常行为识别方法能有效识别同1个视频片段的多人异常行为。图3（c）显示了复杂环境下（光线较暗、实验人员被遮挡）多人异常行为的准确识别结果。船舶驾驶台的监控视频识别效果显示船员目前的状态行为是异常行为（如谈话、倾听和行走），见图3（d）。图3（d）的图像序列显示，船员站姿与正常值班状态站姿及朝向明显不同，这说明船舶值班员在驾驶台工作的时候并没有完全集中注意力，为船舶安全航行埋下引患。

实验中视频异常行为动作的识别精度Ji见式（8）。

式中：Di为异常动作标签检测的帧数；Ri为异常动作标签真实的帧数；i=1,2,3,4,5,6分别对应站立、行走、看手机、打电话、谈话、倾听这6种港船视频中的异常行为动作。

图3（a）模拟了港口环境下工作人员（标记为#1）站立、行走、看手机和打电话的行为，人员#1这4种行为对应的真实标签数据分别为64，186，95，155帧，对应识别结果分别为69（包含5帧行走行为的误识别结果），181，132（包含37帧打电话行为的误识别结果），118帧。识别结果见表2，站立、行走、看手机、打电话的识别精度分别为100%，97%，100%，76%，由实验结果可知，将打电话行为误识别为看手机的数据较多，且多发生在由看手机行为向打电话行为过渡片段。

表2 视频1序列的异常行为识别结果Tab.2 Abnormal behavior recognition results for video 1 clips单位：%

为了验证该框架在多目标情况下的识别效果，图3（b）在与图3（a）相同的港口环境下模拟对多名工作人员同时识别，实验结果见表3。视频2中模拟了3名工作人员（分别标记为#1、#2、#3）站立、行走、看手机和打电话的行为，人员#1这4种行为对应的真实标签数据分别为0，250，209，0帧，对应识别结果分别为0，250，202帧，7（7帧均为看手机行为的误识别结果），站立行为、看手机行为的识别精度分别为100%，97%；人员#2这4种行为对应的真实标签数据分别为205，45，250，0帧，对应识别结果分别为181，69帧（包含24帧站立行为的误识别结果），250，0帧，站立行为、行走行为、看手机行为的识别精度分别为88%，100%，100%。

表3 视频2序列的异常行为识别结果Tab.3 Abnormal behavior recognition results for video 2 clips单位：%

图3（b）中人员#3这4种行为对应的真实标签数据分别为90，160，220，30帧，对应识别结果分别为71，179（包含19帧站立行为的误识别结果）、223（包含3帧打电话行为的误识别结果），27帧，站立行为、行走行为、看手机行为、打电话行为的识别精度分别为79%，100%，100%，90%。实验结果表明人员#2、人员#3的站立行为误识别为行走行为的数据较多，且多发生在2个动作转换阶段。

图3（c）为复杂港口场景下（光线不佳、实验人员被遮挡）多实验人员的识别，结果见表4，实验中6名工作人员（分别标记为#1、#2、#3、#4、#5、#6）的行为包括站立、行走、谈话、看手机，人员#1这4种行为对应的真实标签数据分别为0，195，195，0帧，对应识别结果分别为0，190，190，0帧，行走行为、谈话行为的识别精度分别为97%，97%；人员#2这4种行为对应的真实标签数据分别为0，195，195，0帧，对应识别结果分别为0，146，146，0帧，行走行为、谈话行为的识别精度分别为75%，75%；人员#3这4种行为对应的真实标签数据分别为195，0，195，195帧，对应识别结果分别为174，0，195帧谈、141帧，站立行为、谈话行为、看手机行为的识别精度分别为89%，100%，72%。

图3 不同场景下的异常行为动作识别效果图Fig.3 The proposed framework performance on recognizing abnormal behavior from different video clips

表4 视频3序列的异常行为识别结果Tab.4 Abnormal behavior recognition results for video 3 clips单位：%

图3（c）中人员#4这4种行为对应的真实标签数据分别为55，140，195，9帧，对应识别结果分别为48，139，189，9帧，站立行为、行走行为、谈话行为、看手机行为的识别精度分别为87%，97%，99%，100%；人员#5这4种行为对应的真实标签数据分别为0，195，195，0帧，对应识别结果分别为0，122，122，0帧，行走行为、谈话行为的识别精度分别为62%，62%；人员#6这4种行为对应的真实标签数据分别为195，0，195，195帧，对应识别结果分别为137，0，137，135帧，站立行为、谈话行为、看手机行为的识别精度分别为70%，70%，69%。实验中人员#2、人员#5、人员#6行为动作被遮挡的时间较多，导致识别精度较低，其他遮挡较少人员的识别精度较高，结果表明该框架对人员完全被遮挡时的识别效果不佳，对光线较暗情况下的识别效果较好。

为进一步验证所提框架的有效性和可靠性，我们选取经典行为识别算法SlowFast进行对比[19]，使用SlowFast算法对视频3中的实验人员行为进行识别，视频场景中光线不佳且存在人员被遮挡情况，识别结果见图4。实验结果表明，SlowFast算法识别的动作较单一，无法同时对实验人员多个行为动作进行高精度识别，当实验人员部分被遮挡或者全部被遮挡时无法对其进行识别。本文的识别框架在此场景下进行的实验结果见图3（c），结果表明，本文所提框架识别行为动作多、识别精度高，Slow-Fast算法识别精度及动作识别种类远小于本文的行为识别框架。

图4 SlowFast算法对视频3序列识别结果Fig.4 The recognition results of SlowFast for video 3 clips

图3（d）为船舶驾驶舱真实场景，实验结果见表5，实验中4名工作人员（分别标记为#1、#2、#3、#4）的行为包括站立、行走、谈话、倾听，人员#1这4种行为对应的真实标签数据分别为250，0，250，0帧，对应识别结果分别为250，0，243，7（7帧均为谈话行为的误识别结果），站立行为、谈话行为的识别精度分别为100%、97%；人员#2这4种行为对应的真实标签数据分别为7，243，250，0帧，对应识别结果分别为41（包含34帧行走行为的误识别结果），209，250，0帧，站立行为、行走行为、谈话行为的识别精度分别为100%，86%，100%。

表5 视频4序列的异常行为识别结果Tab.5 Abnormal behavior recognition results for video 4 clips单位：%

图3（d）中人员#3这4种行为对应的真实标签数据分别为250，0，183，67帧，对应识别结果分别为250，0，163，87帧（包含20帧谈话行为的误识别结果），站立行为、谈话行为、倾听行为的识别精度分别为100%，89%，90%；人员#4这4种行为对应的真实标签数据分别为250，0，0，250帧，对应识别结果分别为250，0，0，250帧，站立行为、倾听行为的识别精度分别为100%，100%。实验中人员#2行为动作转换较多，其他人员多处于稳定状态，人员#2的行走行为误识别数据高于其他人员，且误识别数据多发生于2个行为动作转换阶段。

以上4组实验视频的所有行为动作识别的平均精度为88%，对实验结果进行观察发现，实验人员的动作行为没有发生频繁变化的时候，识别结果精度较高，而误识别或无法识别情况基本上发生在以下情况：①实验人员被遮挡较多或完全被遮挡时；②1个动作向另1个动作转变的时候（例如当行走行为和站立行为进行交替时容易误检）；③2个动作具有很高的相似度时（例如当看手机行为转变到打电话行为过程中的动作与看手机动作相似，故容易误检，误检时间在1 s左右）。

3 结束语

港船工作环境中人员的规范操作是港口生产和船舶安全航行的基本保障。基于港船监控视频数据研判和预警人员异常行为（或不安全行为），为港口安全生产和水上交通安全决策提供重要数据依据。提出的异常人员识别模型基于深度学习模型和JDE范式的提取人员异常行为特征，并利用异步交互聚合模型识别确定异常行为类型。实验结果表明，提出的人员异常行为识别框架在不同港船工作环境中都能获得较好的精度。在港口工作环境下的监控视频数据的实验结果显示算法能识别的人员异常行为精度为85%，基于船舶驾驶台监控视频显示，提出的异常行为识别框架能识别97%的不安全船员行为（如谈话、行走等）。本研究提出的框架能准确识别港船工作环境下典型的人员异常行为。后续将进一步拓展算法可识别的异常行为类型（未戴口罩、打架、未佩戴安全帽等）及工作人员被遮挡情况下异常行为识别。