基于PSPNet的变电站人员巡检危险行为检测

2021-11-25朱建宝马青山俞鑫春邓伟超

自动化与仪表 2021年11期

朱建宝，马青山，俞鑫春，邓伟超

（国网江苏省电力有限公司南通供电分公司，南通226001）

智能全感知是“泛在电力物联网”[1]对新型变电站运行时提出的新要求，涉及智能机器人技术[2]、电网的自动控制与决策技术[3]等多种技术。其中，视频监控作为变电站智能全感知的关键一环，已被广泛地应用于变电站生产、运行环节。然而，当前变电站的视频监控模式仍属于“被动监控”[4]，监控场景由监控人员密切、时刻关注，或在安全事故发生后提供事后分析材料。为了实现变电站智能化和安全生产管控自动化，有必要开展变电站视频监控下的异常事件检测研究。

视频监控下的异常事件检测指的是利用图像处理、计算机视觉等技术对视频监控内容进行自动化的分析，进而准确快速地检测出视频中的异常行为。由于视频分析以及模式识别技术的快速发展，异常事件检测取得了巨大的进步，但目前的研究工作大都无法达到落地和布控要求。在视频监控场景中，视频成像时容易受到光照条件、遮挡、背景等影响，场景复杂多样且一些摄像头广角较大，使得监控视频存在景深过大等问题，这些都给异常检测带来困难，容易出现漏检和误检的情况。现有的方法大都基于块或兴趣点轨迹进行特征提取，特征大多是手工特征或单一特征，很难充分地表征时空信息，使得后续的分类器分类效果不好。与此同时，异常检测最大的挑战在于如何对异常行为的精确定义和归纳，需要考虑上下文信息。视频中的异常事件被定义为在视频中很少出现或者其不符合正常行为模式[5]，且分为两种类型，包括异常目标的侵入和目标的异常行为模式。人工智能等技术为解决视频监控下的异常事件检测问题提供了可能[6]。

当前视频监控中异常目标侵入的感知方法分为两种，但首先都需要将视频拆分为图像帧。一种是对视频的前后多帧的关系进行建模，另一种是对单独的图像帧进行智能分割，并对图像各个部分进行分析，以充分理解图像中的内容。采用第一种方式的研究有：文献[7]提出了一种改进的融合外观和运动信息的异常检测方法，基于目标对象提取光流，并使用了一种结合动能的多尺度光流直方图来捕获目标的局部运动统计信息，该方法减少了监控场景中由于遮挡、光照变化、景深等带来的目标漏检情况；文献[8]提出的双流卷积网络使用二维的卷积网络来进行视频流的行为识别，将视频看成图片帧流的形式，挖掘帧流之间的光流特征。在空间维度上，以单帧上的外观形式，携带视频描绘的场景的目标信息，以其自身静态外表作为一个有用的特征；在时间维度上，以多帧上的行为，表达了摄像头和目标之间的行为，最后根据分数落在的区间来得到最后的分类结果；文献[9]提出了一种3D-CNN 网络—C3D，使用3D 卷积和3D 池化层来搭建网络，从而直接识别视频中的异常行为。上述方法都是对视频监控下的异常检测的有益尝试，但实验效果均高度依赖数据集。第二种方式则应用了基于深度学习的图像分割算法，区别于使用灰度值的不连续和相似性质的传统图像分割算法，全卷积神经网络搭配数据集进行端到端训练的架构使得该类算法具有较高的鲁棒性和抗干扰能力，如LaneNet[10]，Seg-Net[11]，E-Net[12]，FCNs[13]，deeplabv3[14]，PSPNet[15]等。因此本文拟采用基于语义分割的PSPNet 网络对单独的图像帧进行内容的感知，辅助以逻辑判断，最终达成对变电站监控视频中人员危险行为的理解。

1 变电站人员危险行为检测整体流程

本文将变电站人员危险行为定义为离开安全通道。基于此，本文提出的检测方法整体流程如图1所示。

图1 变电站人员危险行为检测整体流程Fig.1 Overall flow chart of detection of personnel dangerous behaviors in substation

整个任务具体被划分为3 个步骤：

步骤1从变电站监控设备导出视频流，将视频流中每一帧输入到PSPNet 语义分割模型中，对变电站视频监控场景进行实时的语义分割，分割出安全通道及人员轮廓；

步骤2对各自的轮廓处理结果进行形态学处理，解决各自轮廓的断裂问题并平滑轮廓形状，最后利用Canny 算子提取轮廓的外边缘；

步骤3利用逻辑与运算，得出安全通道和人员的轮廓交并关系，从而判断人员是否离开安全通道，进入危险区域。

2 基于PSPNet 模型的人员和安全通道的轮廓分割

2.1 算法框架

PSPNet 模型是经典的语义分割网络模型，全局的自适应池化方式使得整体的语义分割效果较好。其网络结构包括特征提取模块、全局特征融合模块以及最后的轮廓掩码预测模块，如图2 所示。

图2 整体网络结构图Fig.2 Diagram of overall network structure

2.2 网络结构

2.2.1 特征提取模块ResNet101

ResNet101 中包含101 个卷积组，每一个卷积组中包含卷积操作、批次正则化以及ReLu 激活操作。其中大小为3×3 以及1×1 的卷积核的作用是对图像进行滤波，提取人员和安全通道特征相关的有用信息，生成初始的特征图，如图3 所示。

图3 卷积组的组成结构Fig.3 Components of convolutional group

2.2.2 全局特征融合模块PSP Module

如图2 所示，全局特征融合模块采用了4 种尺度的自适应平均池化层，最终生成尺度比为1∶2∶3∶6的特征图，再由大小为1×1 的卷积组将各自的通道数目压缩为原来的1/4，经双线性插值为与初始特征图相同尺度后与初始特征图共同拼接生成最后用于分割的融合特征图。

2.2.3 轮廓掩码预测模块

在轮廓掩码预测模块中，网络包括一次上采样层、dropout 层和一次1×1 卷积层，将特征图进一步扩大为与原始图像尺寸相同的轮廓掩码特征图。

2.2.4 PSPNet 整体流程

具体地，一张大小为（720，720，3）的变电站监控图像，在特征提取模块ResNet101 中，通过多次的空洞卷积以及残差连接得到尺度为（90，90，2048）的初始特征图，在全局特征融合模块中，通过全局自适应平均池化层分别获得尺度为（1，1，2048），（2，2，2048），（3，3，2048）以及（6，6，2048）的特征图，再通过参数可学习的1×1 卷积层将通道压缩成尺度为（1，1，512），（2，2，512），（3，3，512），（6，6，512）的特征图，接着使用双线性插值将特征图都变为（90，90，512），最后将初始特征图、经双线性插值后的特征图在通道上进行拼接获得尺度为（90，90，4096）的融合特征图，在轮廓掩码预测模块中，经过卷积层、dropout 层以及上采样层，得到尺度为（720，720，19）的掩码特征图，利用该特征图对原图每个像素点进行类别的预测。

2.3 损失函数

PSPNet 网络模型损失函数采用了多分类的交叉熵损失函数，对安全通道和人员进行像素级别的分类。单个像素输出长度为类别数目的预测向量X=［x1，…，xC-1］后，首先利用softmax 函数对其进行向量归一化成p=［p0，…，pC-1］，使其表示概率为

得到预测的概率分布p 后，对其进行交叉熵损失计算，交叉熵损失函数公式为

式中：p=［p0，…，pC-1］表示预测的概率分布，每个元素pi表示像素属于第i 类别的概率，各元素之和为1；y=［y0，…，yC-1］表示像素标签的one-hot 编码，当像素属于第i 类别时yi=1，否则yi=0；c 表示像素的标签；C 表示像素类别数。

2.4 模型迁移和微调结果

最后获得微调后的模型权重后，从变电站视频监控流中抽取图像帧，并输入到PSPNet 网络中进行语义分割，获得人员和安全通道的粗轮廓，模型微调后测试结果如图4 所示。

图4 基于PSPNet 模型的人员和安全通道的轮廓分割Fig.4 Semantic segmentation of personnel and safe passage outline based on PSPNet

图像中红色区域为巡检人员，紫色区域为安全通道区域，从结果图中可以看到模型的初始分割达到了预计的效果。

2.5 示例

从某一变电站视频监控流中抽取图像帧，对输出结果进行二值化，最终的人员和安全通道轮廓提取结果如图5 所示。

图5 轮廓提取结果Fig.5 Results of outline extraction

可以看到安全通道轮廓中存在小目标和孤立的噪声区域，而人员轮廓有断裂和内部的空洞。因此需要对其进行基于形态学处理的轮廓滤波以及合并，使其更有利于提取外轮廓，并进行交并关系的判断。

3 基于形态学处理的轮廓预处理、外轮廓提取以及危险行为判断

使用迁移后的PSPNet 语义分割网络处理变电站监控视频中的图像帧并获取人员和安全通道的粗轮廓后，发现各自的轮廓存在不可避免的轮廓断裂和缺损，因此需要对其进行基于形态学处理的轮廓滤波和合并。在图像形态学中，开运算能够完全删除不包含结构元素的对象区域，平滑对象轮廓，断开轮廓中狭窄的连接，去掉细小的突出部分；闭运算能够将狭窄的缺口连接起来形成细长的弯口，并填充比结构元素小的洞[16]。腐蚀和膨胀定义了形态学中的开闭运算，是形态学图像处理的基础。

3.1 基本概念

膨胀运算是求局部最大值的操作[17]，可以使得二值图像中的线条“加长”或“变粗”。这种特殊的方式和变粗的程度由一个称为结构元素的集合控制。在数学上，膨胀定义为集合运算，A 被B 膨胀，记为A⊕B，定义为

式中：Ø 为空集；B 为结构元素。A 被B 膨胀是所有结构元素原点位置组成的集合，其中映射并平移后的B至少与A 的某些部分重叠。在图像处理中，A⊕B 的第一个操作数为图像，而第二个操作数为结构元素，结构元素往往比图像小得多。通过膨胀运算可以使得目标的边界从内向外进行扩张，因此能够有效地填充目标内部的空洞，连接相近但断开的前景目标。

腐蚀是在二值图像中“收缩”或“细化”的操作。与膨胀一样，收缩的方式和程度由一个结构元素控制。在数学上，膨胀定义为集合运算，A 被B 腐蚀，记为A，定义为

A 被B 腐蚀是所有结构元素的原点位置的集合，其中平移的B 与A 的背景并不叠加。通过腐蚀运算，可以有效去除目标区域的边界点，使目标边界从外向内收缩，因而图像经由腐蚀操作后，目标区域的面积会缩小，小目标和孤立噪声点能被去除。腐蚀和膨胀的组合能够有效地解决轮廓的断裂、平滑轮廓形状。

3.2 形态学和轮廓提取步骤

人员轮廓和安全通道轮廓存在轮廓断裂和内部空洞，因此需要先进行开运算，去除细小的杂乱轮廓，然后再对开运算结果进行闭运算合并轮廓间的断裂或空洞，处理结果如图6 所示。

图6 基于形态学处理的轮廓预处理Fig.6 Contour preprocessing based on morphological processing

接着使用Canny 边缘提取算子对预处理后的人员和安全通道轮廓进行外轮廓边缘的提取，如图7 所示。

图7 外轮廓边缘提取Fig.7 Edge extraction of outer contour

3.3 危险行为检测

在获得人员和安全通道轮廓2 个外部轮廓后，对矩阵图进行按位的与运算来检测轮廓间的相交情况。具体地，分别为每个轮廓创建2 个单独的图像矩阵，然后对它们使用逻辑与运算，生成与原始图像大小相同的布尔矩阵。交点为具有正值（1 或True）的任何点。如果整个矩阵都为False，即人员和安全通道轮廓之间不存在交集，说明人员进入危险区域，并控制监控同时发出警报；若矩阵中存在一个True，则表明轮廓会接触且相交，说明人员仍处在安全的安全通道中。在本例中，两轮廓相交表明人员处在安全区域内。

4 结语

为了减少变电站监控人员工作压力、提高监控的实时性，促进变电站视频监控的智能化，本文提出了一种基于PSPNet 语义分割模型的变电站人员危险行为检测模型。该模型包括3 个子任务，分别是基于PSPNet 的变电站人员和安全通道的轮廓分割、基于形态学处理的轮廓滤波、外轮廓的提取以及巡检危险行为检测。通过在变电站监控数据集下的训练和测试，该模型在实验环境下获得了较好的识别与检测效果，同时检测速度也能满足实时性要求。

本文将语义分割网络应用到变电站视频监控中，但在进行轮廓填充时，采取的卷积核参数需要具体实验调整获得最佳的参数。因此，还需要进一步研究，提出一种端到端的解决方法来进行危险行为具体类型的判断。