基于边云协同框架的煤矿井下实时视频处理系统

2022-01-19李敬兆秦晓伟汪磊

工矿自动化 2021年12期

李敬兆，秦晓伟，汪磊

(安徽理工大学电气与信息工程学院，安徽淮南 232001)

0 引言

煤矿井下视频监控在确保煤矿生产安全和井下人员生命安全中起到了重要作用[1-2]。目前，多数煤矿企业仍然采用人工方式对监控视频进行分析处理，存在效率低下、对井下突发事件反应不及时等问题。随着智慧矿山理论[3]的提出与发展，在煤矿井下实现实时化、智能化的视频监控成为趋势。智能化视频监控将以神经网络模型为代表的机器视觉技术应用到视频监控中，替代传统的人工识别方式，既能更快、更好地对煤矿井下视频进行处理，也能大大减少煤矿企业的生产成本。

由于视频监控数据量规模庞大，且数据增长速度快，只有计算和存储资源都十分强大的云服务器上才能够顺利地对视频数据进行智能处理。但是由于受到网络带宽的限制，对海量视频数据进行分析时需要耗费大量的计算时间，会导致较高的延迟，使得井下视频监控系统无法实时响应监控区域发生的紧急事件，因此云服务器并不适合处理对实时性要求高的任务。边缘计算[4-5]的提出解决了云计算存在的高延时、高网络占用率等问题。将原本在云服务器上集中处理的数据下放到边缘端进行处理，可极大地缓解云计算的计算压力，同时缓解海量数据传输对网络的压力[6-7]。因此，本文提出了基于边云协同框架的煤矿井下实时视频处理系统，对云端和边缘端的任务进行划分，将实时性强的目标识别任务下放至边缘端，而将计算量大且实时性弱的边缘设备整合等任务放至云端处理，以此来提高煤矿井下视频监控效率。

在边云协同框架中，为了保证监控的实时性，将神经网络模型部署在边缘设备上。受到边缘设备处理器计算资源和存储资源的限制，边缘设备端难以实现大型神经网络的移植。随着各种轻量级神经网络的提出和发展，以YOLO系列为代表的“one-stage”目标检测方式因具有检测速度快、参数数量少的优点，被大量应用在实时目标检测中[4-6]。文献[7]通过YOLOv2算法和线性成像模型，实现了煤岩图像目标的精准识别与定位。文献[8]通过YOLOv2算法对海上监控视频进行分析，实现了海上船只识别，并能排除海岸线对识别结果造成的干扰。文献[9]依据图像金字塔结构完成视频图像数据的特征融合，通过YOLOv3算法模型实现施工现场工作人员安全帽佩戴监测。YOLO算法在目标监测方面的大量应用证明了其网络结构的先进性，而其优秀的实时性和较少的网络参数也使得其能够应用于边缘端。

Tiny-YOLOv3是YOLOv3的精简版本，相对于YOLOv3，Tiny-YOLOv3模型更加小巧，更容易在嵌入式平台进行部署，同时，其参数数量和计算量更少，实时性更高，但由于卷积层数量少，无法提取到图片的深层特征，且随着网络深度增加，模型训练易出现梯度消失和过拟合现象。针对该问题，本文依据残差结构设计下采样残差模块，对Tiny-YOLOv3目标检测模型进行改进，提高模型的泛化能力，使其在边缘端有限的资源下完成井下人员等目标的准确识别。此外，在边云数据交互的基础上，对系统中各边缘目标检测模型进行针对性场景优化，以提高边缘设备端模型检测的准确率。

1 系统架构

基于边云协同框架的煤矿井下实时视频处理系统可划分为边缘层、网络层和云服务层。对边缘层的功能和结构进行了设计，对云服务层提供的服务进行了规划，针对煤矿井下复杂的通信环境，构建了煤矿井下异构融合网络，以实现边云协同下数据的交互传输。

1.1 实时高效的边缘层

边缘层为视频监控终端提供智能视频监控服务,主要由嵌入式设备构成的边缘节点组成。根据边缘节点结构及其发挥的作用，边缘层又分为硬件层、交互层和服务层，如图1所示。硬件层由微处理器、异构通信接口、控制接口、摄像头等组成。微处理器包含视频编解码模块，采用H.264标准对视频进行量化、编码和压缩，为通信接口提供图像传输来源。交互层通过通信接口与云服务器之间进行通信，完成边云数据实时交互、监控平台控制参数获取及模型更新。服务层以硬件层的摄像头和控制接口为基础，获取实时监控图像，通过微处理器分析处理后，利用控制接口对现场设备进行实时控制。

图1 边缘层框架Fig.1 Edge layer framework

1.2 异构融合的网络层

煤矿井下实时视频处理系统在边缘层的视频监控是实时的，而云服务器的数据获取、模型训练等可看作非实时性任务。根据煤矿井下网络环境，云服务器管理的边缘节点可分为2类：第1类边缘节点所处网络环境好，对监控场所进行实时智能监控的同时，可将井下画面实时传输至云服务器；第2类边缘节点网络环境差，无法传输实时监控画面，但是能够在边缘端提供实时智能视频监控，保障井下工作人员安全。

针对边缘节点所处的2种网络环境，提出煤矿井下异构融合网络。第1类边缘节点能够利用井下现有网络与云服务器进行数据交互，而第2类边缘节点无法通过现有网络与云服务器进行通信，因此，需要融合井下已有的各种有线、无线网络，同时根据井下人员与车辆的运行路径构建移动机会网络，形成有线网络+无线网络、固定通信节点+移动通信节点、传统网络与移动机会网络相互协作的井下异构融合网络，为井下所有边缘节点提供与云服务器进行数据交互的通道。煤矿井下异构融合网络如图2所示。

图2 煤矿井下异构融合网络Fig.2 Heterogeneous fusion network in underground coal mine

1.3 统筹全局的云服务层

在边云协同框架中，云服务层主要承担以下任务：

(1) 整合边缘节点的数据。边缘节点通过异构融合网络将数据发送到云服务器，云服务器对数据进行分类和存储，以用于模型训练和升级。

(2) 优化边缘设备模型。云服务器具有强大的运算能力，利用边缘设备传输的现场数据对模型进行训练，将优化后的模型通过异构融合网络发送至边缘节点，使得节点设备中的模型能够不断优化。

(3) 边缘设备管理。井下边缘设备分布在各个监控场所，云服务器对这些设备进行统筹管理。

云服务层在边云协同框架中起到全局协调的作用，通过和边缘节点进行数据交互并且返回优化模型，在整体框架中形成数据-模型的良性循环，是提高系统视频监控质量的重要保障。将视频分析处理任务下放至各边缘节点，在边缘层实现目标检测识别，可节省井下网络带宽资源，同时大幅提高云服务及整个系统的实时性。云服务层架构如图3所示。

图3 云服务层架构Fig.3 Cloud service layer architecture

2 Tiny-YOLOv3目标检测模型改进

2.1 基于残差模块的改进

Tiny-YOLOv3网络模型如图4所示。Tiny-YOLOv3的主干网络通过标准卷积+最大值池化对图片进行特征提取和下采样，由于卷积层数量少，无法提取到图片的深层特征，此外，最大值池化作为下采样会导致图像中的一些信息被滤除。相对于池化下采样，卷积操作能够更多地保存图像中的特征，同时，通过增加标准卷积深度，可对图片特征进行深层次提取。但随着网络深度的增加，模型训练易发生梯度消失和过拟合，而残差结构能够有效地解决该问题[14-15]。

图4 Tiny-YOLOv3模型Fig.4 Tiny-YOLOv3 model

残差结构在轻量化模型中的应用非常广泛。本文设计了一种下采样残差模块，该模块首先通过1×1卷积将输入特征的通道数由1C(C为卷积核个数)扩展到2C，再采用标准卷积进行特征提取，最后通过另一个1×1卷积将特征通道数恢复到1C，并与输入特征进行累加。为了降低移动端设备的精度损失，采用Relu6作为该模块前3个卷积层的激活函数，同时，采用线性激活函数作为模块最后一层的输出，防止Relu6函数的非线性对数据造成破坏。基于残差模块改进的Tiny-YOLOv3模型如图5所示。

图5 基于残差模块改进的Tiny-YOLOv3模型Fig.5 Improved Tiny-YOLOv3 model based on residual module

2.2 特定监控场景优化

以Tiny-YOLOv3为代表的小型轻量化神经网络可在高性能的边缘嵌入式处理终端实现部署，但轻量化神经网络存在数据泛化能力不足、目标检测准确性差等问题。考虑到煤矿井下视频监控的特征，每个监控设备的监控区域在长时间内不会发生变化，因此，边缘设备上部署的神经网络只需要对该设备监控区域的场景表现出优秀的监控性能即可。

将神经网络模型分为通用模型和专用模型。通用模型采用煤矿井下各个区域的综合数据集进行训练，使其可用于煤矿井下任何区域的监控。专用模型基于迁移学习理论[16-17]，在原有的通用模型基础上，采用该边缘设备实际监控的特定场景的数据集进行优化训练，调整模型参数，使边缘计算模型更加适应其所监控的场景，从而提高边缘计算模型的准确度。

采集井下各个区域的监控图像，使用这些图像对改进的Tiny-YOLOv3模型进行训练，形成改进的Tiny-YOLOv3通用模型，将训练好的模型部署在嵌入式设备上，在边缘端对井下相应区域进行智能监控。边缘设备进行监控时，会将监控区域的视频上传至云服务器，在云服务器中使用这些场景的视频数据对相应的边缘计算模型进行进一步训练，以优化模型对该场景的适应能力。边缘计算模型的优化过程如图6所示。

图6 边缘计算模型优化过程Fig.6 Optimization process of edge computing model

3 测试与分析

为了对提出的边缘计算模型进行训练，并验证边云协同框架对系统性能的提升，针对单一场景监控，在安徽淮南矿业(集团)有限责任公司顾桥煤矿采集了4 000张图片；针对井下多场景监控，在安徽淮北矿业股份有限公司涡北煤矿采集了7 000张图片，并进行了视频处理时延测试。

3.1 相关配置

采用CPU为Intel i7 10700、显卡为NVIDIA GTX 1080Ti的计算机进行图片处理和模型训练，依据VOC2007数据集的格式对图片数据集进行整理；在计算机中对YOLOv3，Tiny-YOLOv3和改进型Tiny-YOLOv3进行训练，并将训练好的模型移植到NVIDIA Jetson TX2嵌入式设备中进行性能测试。

测试系统图像处理的实时性时，采用NVIDIA Jetson TX2作为边缘节点的处理核心，使用CPU为Intel i7 10700、显卡为NVIDIA GTX 1080Ti的计算机作为云服务器，以华为云FusionCub基础设施平台作为数据库，智能边缘平台ModelArts作为实时视频处理系统的管理开发平台。

实时视频处理系统进行井下视频数据传输时，采取以无线4G为主、WiFi通信为辅的无线网络传输方式，通过千兆工业以太网完成视频图像信息的上传，边缘节点与人员移动节点分别部署和携带相应的无线通信设备，构成边缘节点-移动节点-固定节点的数据传输架构。

3.2 井下通用模型性能验证

YOLOv3、Tiny-YOLOv3和改进型Tiny-YOLOv3三种模型在训练集和验证集下的损失函数如图7所示。损失函数是目标位置损失函数、物体置信度损失函数、目标分类损失函数的叠加。从训练过程可以看出，Tiny-YOLOv3的损失函数值下降不稳定，收敛速度较慢，其最终的损失函数值也较大。YOLOv3模型的规模是三者中最大的，拥有更强的特征提取能力，相对于Tiny-YOLOv3，YOLOv3的损失函数收敛更快、更稳定。改进型Tiny-YOLOv3模型通过引入下采样残差模块，使得模型拥有更强的数据泛化能力，损失函数的收敛速度和稳定性比YOLOv3更加优秀，最终的损失函数值也小于YOLOv3。

图7 井下通用模型的损失函数Fig.7 Loss function of underground general models

3.3 井下专用模型性能验证

根据迁移学习理论，改进型Tiny-YOLOv3以井下多场景数据集作为模型的源域，而针对单一场景的数据集可视为目标域，通过基于样本的迁移训练对模型进行参数优化。在通用模型的基础上，采用单一场景的大量视频监控图像对其进行进一步训练。考虑到视频监控的实时性需求，只有Tiny-YOLOv3和改进型Tiny-YOLOv3模型能够在嵌入式设备上拥有满足实际应用的实时性，因此，仅对Tiny-YOLOv3和改进型Tiny-YOLOv3进行分析。将采集到的4 000张单一监控场景图片作为输入，对Tiny-YOLOv3和改进型Tiny-YOLOv3模型进行进一步训练，优化参数模型，以提升模型的准确度和可靠性。模型特化训练使得Tiny-YOLOv3和改进型Tiny-YOLOv3的损失函数进一步降低，如图8所示。

图8 井下专用模型的损失函数Fig.8 Loss function of underground special models

针对单一场景对模型参数进行优化，能够提升模型在该场景下的准确率和抗干扰能力，降低边缘设备的误报率。优化后的改进型Tiny-YOLOv3模型与原模型的识别效果对比如图9所示。可以看出，优化后的改进型Tiny-YOLOv3模型对单一场景下的人员目标识别更加精准。

图9 专用模型与通用模型的识别效果对比Fig.9 Comparison of recognition effect between special model and general model

3.4 数据处理时延分析

边缘节点的部署位置包括井口出车侧、斜巷上山通道、斜巷下山通道和岩石巷道，如图10所示。部署在井口出车侧、斜巷上下山通道的边缘节点可接入低时延、稳定的工业以太网，可视为第1类边缘节点。部署在岩石巷道上的边缘节点为施工期间添加的临时节点，不能连接到工业以太网或无线网络，故可视为第2类边缘节点。

图10 边缘节点监控画面Fig.10 Monitoring screen of edge nodes

岩石巷道中的工人和车辆频繁移动，因此，利用工人和车辆的移动性来构建异构融合网络，以完成视频图像和模型传输任务。岩石巷道中边缘节点的图像传输如图11所示。在工人身上和车辆上配备信息传输的移动节点，移动节点携带边缘节点的信息，在移动过程中将信息转发到固定节点，固定节点再通过工业以太网向云服务器发送信息。

图11 岩石巷道中边缘节点的图像传输Fig.11 Image transmission of edge nodes in rock roadway

在实时视频处理系统中，监控视频一方面在边缘节点中进行边缘处理，另一方面被发送到云服务器进行展示、深度分析和存储等。采用云计算和边云协同框架的实时视频处理系统处理2 000幅图像的平均时间对比见表1。因岩石巷道中无固定节点部署，故无法通过云计算进行实时视频处理。由表1可见，边云协同框架下系统的视频处理时间更短，时延更低。