基于生成对抗网络的带式输送机异物检测方法

2023-12-06张立亚

工矿自动化 2023年11期

张立亚

（1.煤炭科学技术研究院有限公司，北京 100013；2.煤矿应急避险技术装备工程研究中心，北京 100013；3.北京市煤矿安全工程技术研究中心，北京 100013）

0 引言

我国煤矿带式输送机事故的产生除人为因素外，另一个重要原因在于输送的煤块中存在异物，易致胶带和其他设备磨损[1-3]。因此，通过合适的异物检测方法对胶带进行安全监测和预警，结合相关装置或干预措施进行异物分离，具有重要的研究价值[4]。传统的胶带异物检测方法有射线法、光谱探测法和图像识别法[5]。射线法和光谱探测法采用的设备价格较昂贵，维护困难，且存在大量计算参数导致检测速度慢的问题。随着人工智能、机器视觉技术的发展，基于深度学习的异物检测方法在精度和效率方面已突破了传统方式，成为工业应用的首选[6-8]。

基于深度学习的带式输送机异物检测方法可以直接利用监控设备所采集的视频和图像，成本较低，能够有效提升检测效率和精度，且安装维护简单[9-10]。卢学明等[11]提出了一种基于深度学习生成模型的煤矿运输胶带异物智能检测模型；郜振国[12]提出了一种基于机器学习的煤矿运煤机械胶带异物检测识别方法；张海明[13]对YOLOv3 模型进行改进，并将其应用于带式输送机上的非煤异物检测。由于带式输送机图像在采集过程中受煤矿井下低照度、多粉尘等环境因素的影响，导致现有的深度学习模型不能很好地学习数据特征，从而影响检测精度[14-15]。

为了更好地学习数据特征，基于生成对抗网络（Generative Adversarial Nets，GAN）[16]的监督或者半监督检测算法成为了进一步研究的方向。GAN 参数很多，需要手工对参数进行调整，因此非常容易训练失败，且对较复杂的数据集而言，生成图像的质量不佳。A.Radford 等[17]将卷积神经网络（Convolutional Neural Network，CNN）作为GAN 的基础架构，提出深度卷积对抗神经网络（Deep Convolutional Generative Adversarial Networks，DCGAN），但是其生成的图像仍较模糊。GANomaly[18]属于半监督网络，可以在无异常样本训练的情况下实现对异常样本的检测，但存在图像和视频数据集过大的问题。因此，需研发一种轻量化、实时性高、准确率高且适用于煤矿环境的带式输送机异物检测方法[19-20]。本文对传统GANomaly 模型进行改进，提出了一种基于GAN 的带式输送机异物检测方法，采用编码-解码-编码的网络结构，通过交替训练生成网络和对抗网络，学习煤块的相关特征，从而得到大量正确的数据分布，通过加入深度可分离卷积和批量归一化（Batch Normalization，BN）层合并技术，实现卷积神经网络的轻量化。

1 网络模型构建

1.1 模型结构

基于GAN 的带式输送机异物检测模型结构如图1 所示。对胶带运输过程视频文件进行预处理，分类得到正常图像、异常图像，制作实验数据集，对改进GANomaly 模型进行训练，再通过训练好的模型进行异物检测。改进GANomaly 模型由GANomaly 基础网络模块、深度可分离卷积残差模块和BN 层合并模块组成。通过在CNN 中加入深度可分离卷积残差模块和BN 层合并模块，实现对GANomaly 模型的轻量化改进。

改进GANomaly 模型具有以下优点：融入深度可分离卷积残差模块和BN 层合并模块，能够有效降低煤矿图像检测的复杂度；采用非线性模型，避免了复杂的特征提取过程，具有较强的图像处理能力；具有较好的特征学习能力，能够在煤矿胶带运输过程中对捕捉的图像进行强化学习；增强了逆向学习的能力，具有更强大的迁移学习性能，能够在井下昏暗、光线不足、粉尘较多的情况下，完全逼近真实情景数据，更好地捕获对象和潜在空间内的训练数据分布，提供更好的统计和计算性能，从而更加高效解码图像的特征信息。

1.2 GANomaly 基础网络模块

GANomaly 基础网络模块结构属于半监督网络，如图2 所示，其中x为真实样本，z为服从高斯分布或者均匀分布的随机噪声，x'为生成样本，GA(x′)为更新后的编码器，D（x,x'）为判别器。生成器网络由编码器GE(x)和解码器GD(z)构成，用来学习输入数据并进行图像重建。解码器网络将生成器得到的图像压缩成一个向量，同时保障生成的向量与生成的图像维度上保持一致，以便于比较损失函数。第1 部分编码器和第2 部分解码器适用于正常样本。判别器网络与基础模型网络DCGAN 结构一致，都是将真实数据和生成数据输入网络并得出一个最终分数，适用于异常样本的判别。

图2 GANomaly 基础网络模块Fig.2 GANomaly basic network model

GANomaly 基础网络模块可以通过交替训练更好地学习生成网络，从而形成GAN。在推理阶段，用于最后推断异常的不是原图和重建图的差异，而是第1 部分编码器产生的隐空间特征和第2 部分编码器产生的隐空间特征之间的差异，即关注图像内容的差异，而不考虑图像的微小变化，因此鲁棒性更好。

GANomaly 判别器的损失函数与GAN 网络的损失函数一致，GANomaly 生成器的损失函数为3 个生成器损失函数的和。第1 个生成器损失函数l1使2 张图像x和x′更加接近，使生成器产生的图像更加逼真。第2 个生成器损失函数l2的作用同样是使原图和生成图像之间更加接近。第3 个生成器损失函数l3的作用是使整个推理过程的效果更好。

式中：Ex～px为对训练数据样本的期望，px为x的分布；f(·)为判别器中间层的输出；G(x)为生成器的重建数据。

式中K(G(x))为编码器输出的特征值。

生成器的损失函数为

1.3 深度可分离卷积残差模块

为了提高模型检测精度，减少计算时间，加快运算速度，本文采用深度可分离卷积代替原有主干网络中的卷积操作。深度可分离卷积运算公式为[21]

式中：Jd为模型每秒浮点运算次数；Cj为第j个输入通道；H为特征图的高度；W为特征图的宽度。

设C0为输出特征图的通道数量，则1×1 卷积运算为

为了进一步实现对原始基础特征图数据的再卷积，对基础特征图数据进行深度可分离卷积操作，保留特征图中所有的正常信息和一些异常信息。深度可分离卷积生成冗余特征图的操作过程如图3 所示。

图3 深度可分离卷积生成冗余特征图过程Fig.3 The process of generating redundant feature maps through deep separable convolution

常规轻量化模块的主要原理是利用简单的线性操作方法得到冗余特征图，会导致一些深层次特征图失真的情况，从而降低了胶带异物检测精度。因此，在改进GANomaly 网络框架结构基础上，通过堆叠的方式构建深层卷积神经网络，并用轻量化模块代替原来的残差块。每个轻量化模块中设计了一条传输路径，可以有效保存图像中的完整信息，改善深层次特征图失真的情况。深度可分离卷积残差模块如图4 所示。

图4 深度可分离卷积残差模块Fig.4 Depthwise separable convolution residual module

在GANomaly 基础网络模型中加入深度可分离卷积残差模块，大幅降低了模型计算量，同时减少了参数的冗余计算，能够明显提高异物检测速度。

1.4 BN 层合并模块

BN 层的核心功能是进行模型训练的批量标准化，本文通过合并多个BN 层，加快模型的收敛迭代速度，提高模型的泛化收敛能力，有效避免梯度消失。但是在测试过程中会增加一些计算，模型训练阶段对样本进行归一化处理的公式为

由于前向网络中BN 层的推理过程复杂，会影响模型的性能，且占用较多空间，所以在模型搭建过程中，将该层与卷积层相结合，以减少计算量。

式中：α为计算权重；γ为训练参数；w′为BN 层合并到卷积层后卷积的权重；w为卷积层的权重；B′为卷积偏置；B为输入的数值矩阵；β为偏移。

通过分析比较BN 层与卷积层合并前后的性能，在分类精度保持不变的条件下，进行GANomaly 模型测试，结果见表1。由表1 可知，BN 层合并模块可以有效缩短CPU 和GPU 的前向时间，分别缩短了7.69%和34.66%。

表1 合并前后性能比较Table 1 Performance comparison before and after consolidation

2 实验准备与评价指标

2.1 煤矿胶带运输数据集构造

对某煤矿胶带运输视频进行抽帧处理，共得到455 张胶带运输图像，包括正常图像与异常图像。由于井下黑暗环境和粉尘等因素的干扰，图像存在模糊、曝光不足问题，在手动清理原始数据并删除重复图像后，最终各保留122 张图像。通过翻转、旋转、缩放、裁剪、平移的方法对数据集进行随机扩充，以达到数据增强的目的，使检测模型具有更强的鲁棒性。最终获得1 625 张图像用于模型训练和测试，数据集中部分图像如图5 所示。

图5 数据集中部分图像Fig.5 Partial images in the dataset

2.2 评价指标

为应对数据不均衡问题，本文采用平均精度均值（mean Average Precision，mAP）、召回率（Recall）、F1分数、AUC（Area Under the Curve）作为评价指标。

mAP 计算公式为

式中：M为类别数；P（n）为第n个类别的检测精度；m为第n个类别的样本数；p(k)为第k个样本的检测精度；r(k) 为第k个样本的值；Q(n)为AP 曲线采样点总数。

召回率R表示检测到的是胶带异物且实际标签也是胶带异物的数量占检测器检测正确数的比例。召回率R可衡量检测器检测出所需类别的能力，其计算公式为

式中：TP（True Positive）表示标签为胶带异物，预测为胶带异物；FN（False Negative）表示标签为其他，预测为其他。

F1分数是衡量二分类模型精确度的指标，是准确率和召回率的一种加权平均，其计算公式为

式中FP（False Positive）表示标签为其他，预测为胶带异物。

AUC 表示在接收者操作特征曲线（Receiver Operating Characteristic Curve，ROC）下的面积，数值越大越好，1 为理想值。ROC 为以FPR（False Positive Rate，真正率）为横轴、TPR（True Positive Rate，假正率）为纵轴作出的曲线。FPR 表示实际值为假、预测值为真的比例，越小越好，理想值为0；TPR 表示实际值为真、预测值也为真的比例，越大越好，理想值为1。

2.3 实验环境

实验所用的分析软件环境主要为基于Linux 操作系统的PyTorch1.7.0+Python3.8+Cuda11.0 深度机器学习框架，在此框架上实现代码，所使用的显卡芯片为GeForce RTX 3090。

实验设置学习率为0.000 2，在带式输送机图像数据集上进行周期数（epoches）为15 的训练，训练前将图像尺寸处理为64×64，输入批大小设为256。实验主要训练参数包括用来调节损失函数的ωadv、ωcon和ωenc，通过调整训练参数，改变模型作用区域权重，并利用AUC 值比较模型训练效果，得出ωadv=1，ωcon=50，ωenc=1时，模型训练效果最佳。

3 胶带异物检测实验结果与分析

3.1 实验结果与分析

基于GAN 的带式输送机异物检测方法包括训练、测试2 个阶段。在训练阶段，将不含异物的带式输送机图像作为输入，不断交替优化GAN 中的生成器与判别器，通过生成器与判别器之间的相互博弈，达到生成器最终生成的重构图像能以假乱真的效果。在测试阶段，将含有异物的带式输送机图像作为输入，由于网络没有学习到异物的相关特征，图像中异物所属的区域不能通过生成器很好地重构。实验中将生成器得到的重构图像与输入网络的原图像作差，得到2 张图像对应像素的L1 距离（曼哈顿距离），并进行归一化处理，即可得到异物的具体位置。

无异物图像训练结果如图6 所示。由图6 可知，在训练阶段，通过生成器网络得到的重构图像数据与实际图像数据基本一致，且生成的图像十分清晰。

图6 无异物图像训练结果Fig.6 Training results of images without foreign objects

有异物图像训练结果如图7 所示。由图7 可知，模型无法快速生成清晰直观的含异物图像，说明改进GANomaly 模型本身不会实时产生异常数据，从而达到及时检测异常数据的目的。

图7 有异物图像训练结果Fig.7 Training results of images with foreign objects

有异物图像检测结果如图8 所示。由图8 可知，带式输送机图像中的异常物体能够被准确地检测出来，图中用红色框标注的白色亮区为带式输送机上工人遗留的扳手，证明了本文方法在带式输送机异物检测上的有效性。

图8 有异物图像检测结果Fig.8 Detection results of images with foreign objects

3.2 对比实验

将改进GANomaly 模型与OCSVM[21]、KDE和GANomaly 模型分别在相同数据集上进行训练，不同批次数据的平均运行时间对比如图9 所示。可以看出，改进GANomaly 模型由于加入了轻量化技术，平均运行时间最短，相较于传统GANomal 模型，速度提升了6.27%。

图9 模型平均运行时间对比Fig.9 Comparison of average running time of the models

针对胶带异物检测任务，改进GANomaly 模型与OCSVM，KDE 模型的F1分数、AUC、Recall 和mAP 如图10 所示。对比分析可知，OCSVM，KDE模型的学习效果不如改进GANomaly 模型，且KDE 模型在精度上表现相对较差。相较传统GANomaly 模型，改进GANomaly 模型的F1分数、AUC、Recall 和mAP 分别提升了19.05%，22.22%，15.00%，17.14%。实验结果表明，改进GANomaly 模型可以较为准确地学习并提取到图像中的细节信息，最终实现较优的异物检测结果。