一种用于石油化工厂环境下的仪表自动检测方法

2022-04-01丁健刚肖力炀

西安石油大学学报（自然科学版） 2022年2期

李伟，王飒，丁健刚，陈昊，肖力炀

(1.长安大学信息工程学院，陕西西安 710064； 2.西安热工研究院有限公司，陕西西安 710032)

引言

随着科技的不断发展，智能化和数字化设备广泛普及应用[1]。与此同时，各式各样的仪器仪表被广泛应用于石油化工、炼油纺织、冶金以及环境检测等方面。传统的数字表检测采用数字图像处理的方式，借助计算机将输入进来的图像数字化，进行一系列处理后再完成对应的输出。常用的科学方法有图像增强和复原、图像分割、图像变换、图像编码压缩等。刘雯雯[2]使用传统图像处理方法中的图像分割方式实现了仪表的自动检测定位；陈广华等[3]使用图像增强算法很好完成了电能表的检测识别；杨娟[4]通过综合图像分割技术与图像增强技术完成了工业仪表的自动化检测；Zhang[5]等采用一种新的图像分割方式并结合BP神经网络完成了对家用电表区域的定位研究。但是这些基于传统图像处理方法的电表定位检测准确率较低，存在鲁棒性不足等问题。

近年来，随着人工智能的发展，涌现了大量的基于深度学习的自动化仪表检测方法，如YOLO[6]、SSD[7]、Faster RCNN[8-9]等一系列目标检测算法，这些算法在一些工业目标检测方面取得了不错的效果[10-15]，为本文数字表的自动识别提供了可能[16]。但是这些方法都还不能广泛普及到具体各类工业场景中，只是在某些小范围的特定化场景中被应用，其普通适用性、泛化能力都比较差。同时，由于大部分的工业仪器仪表的工作环境十分恶劣，可能会面临一些诸如照度不均匀、光照强度变化范围大、各种复杂背景等现实问题，再加上周围环境因素带来的不确定性影响，以及针对该特定场景的研究存在局限性，这给工业界仪表检测提出了全新的技术挑战。

本文针对石油化工厂的特定场景，基于Faster RCNN深度学习基础模型，通过融合多层网络特征和结合SENet网络结构，有效改善了模型检测效果，提高了模型的识别精度和定位框的准确度。

1 相关技术背景

1.1 Faster RCNN结构

Faster RCNN网络结构如图1所示，主要分为如下五大步骤：

图1 Faster RCNN网络结构

(1)对原始图像进行缩小或放大，将其尺寸限制在规定大小，长边放缩至M，短边放缩至N，然后将M×N图像送入卷积神经网络。

(2)卷积层(Conv layers)由13个卷积层、13个激活网络层和4个池化网络层组成，完成输入图像特征的提取，之后原本M×N大小的原始图像变为了(M/16)×(N/16)大小，再输入到后面的区域建议网络和FC层中。

(3)将上一步中提取得到的图像输入到RPN层，先通过s×s大小的滑动窗口生成分类锚点框anchor完成二分类任务，即生成前景和背景；然后根据下采样比例和图像尺寸计算锚点框在原图像中的坐标；接着通过2个卷积层计算出对应偏移量的区域建议框；最后通过非极大值抑制的方法对这些得到的建议框进行排序筛选，剔除超出边界以及太小的建议框。

(4)ROI池化层。第三步中得到的建议框尺寸差异较大，这就导致了对应feature map上的区域有很大差异。于是将每个区域特征图分为pooled_w×pooled_h的小网格，然后再在每个固定大小的网格上做最大池化操作，保证了图像输出大小是固定长度的。

(5)分类。对上一步中的固定大小的特征图，由SoftMax以及全连接层对区域建议框完成最终分类；同时对目标建议框利用边界框回归的方式得到更加精确的检测结果。

1.2 多层特征融合技术

在拍摄目标图像时，角度或者距离等因素会使得目标图像在整张图片中占很小的比例，这就导致目标图像可利用的特征信息少且不明显；此外，光照及遮挡对小目标图像的干扰也较大。针对Faster RCNN主干网络使用VGG16时仅采用单个高级特征图来进行分类，检测类别和边界框不精准的问题，采用多层特征融合的技术手段进行改进。多尺度特征在小目标检测方面有很好的效果，上下文信息对于目标遮挡有比较好的适应。

ION(Inside Outside Net)是典型的特征融合技术[17-19]，可以收集上下文信息和捕获细粒度细节，提升检测的准确率，增强卷积神经网络性能。

在ION算法中，首先通过池化卷积层中层级较浅的网络对细粒度细节进行捕获，使用这些细粒度细节表示多尺度。由于不同层级网络的特征抽象层次和空间分辨率存在差异，因此使用这种方式进行特征信息的捕获在小目标检测方面有独特的优势。此外，ION使用了RNN网络进行上下文信息的获取，利用额外信息、多尺度信息以及上下文信息之间的互补关系，提取出更多的细粒度特征信息。

ION网络结构如图2所示，首先利用后面3个卷积层conv3～conv5以及文本特征层获得固定大小特征描述符；然后进行归一化、合并以及放缩等处理；最后将处理好的特征描述符经由2个全连接层后，输出目标类别和检测边界框。

图2 ION网络结构

1.3 SENet网络模型

SENet是一种不需要融合新的空间维度特征，而是利用特征通道之间的关系，对其之间的相互依赖性建立模型，捕获图像全局特征的网络结构[20]。具体地说，就是在网络学习的过程中，同步地学习不同通道的重要程度，然后根据重要程度的大小来强化有用的通道特征并削弱重要程度较低的通道特征。

具体步骤是，特征通道数是z1的输入X，对这个输入经过全局平均池化进行Squeeze操作，得到全局描述特征；然后将得到的结果送入一个全连接层，为了恢复到原来的维度，还需要经过ReLu激活层和全连接层；最后再通过Sigmoid激活函数进行Excitation并做通道加权处理后，得到具有权重值的新的特征通道。

2 改进型Faster RCNN模型

2.1 特征提取网络的多层网络融合

卷积神经网络在进行特征提取时，提取出的各个层次的特征所具备的信息具有很大差异。一般来说边缘、纹理等特征主要处于底层中；而有明显特征点的特征多处于高层中，且特征图的分辨率相对于低层的更低。通过融合低层和高层卷积层各自优势，形成一个多层特征融合(Multilayer Feature Fusion，MFF)的新特征，有助于提升检测效果。

在不同的应用场景中，卷积层的具体连接结合方式存在差异，本文使用VGG16作为基础网络模型，融合后的各卷积层连接方式如图3所示。

图3 多层网络融合的Faster RCNN网络结构图

本文使用conv3_3、conv4_3、conv5_3这3个卷积层，将卷积后的结果经过ROI池化层和L2归一化层后进行连接，然后使用scale层将尺度恢复成之前大小，最后利用一个1×1大小的卷积层将网络的信道数进行最终匹配。1×1大小的卷积层主要作用是降低维度，例如一张M×M×50大小的特征图通过1×1×30大小的卷积层会将原图维度降低为M×M×30；另一个作用是提高非线性度，利用1×1大小卷积层能为上面一层特征图的学习表增加非线性激活的特性，可以提高特征的表达力。

最终，将得到的融合特征图输入到全连接层FC6中，完成后面的分类和边界框的输出。

2.2 结合SENet的Faster RCNN网络模型

将SENet模块加入到Faster RCNN主干网络VGG16的每个卷积层之后，生成一个新的特征提取网络。主要方法是在每层卷积部分后面引入SE网络层，之后连接一个池化层。总体结构如图4所示。

图4 结合SENet网络的Faster RCNN网络结构图

每个卷积部分连接SE模块后的内部网络结构如图5所示。

图5 结合SE模块的卷积网络结构

SE模块的具体工作步骤如下：

(1)采用全局平均池化对卷积得到的特征图X=[x1,x2,…,xn]进行Squeeze操作，将一个通道上的整个空间特征编码为一个全局特征，得到通道数为N的实数列Sgap，如下式所示：

(1)

式中：n为特征图的下标索引；h和w为空间维数；

(2)将步骤(1)中的结果送入全连接层先降维，然后通过ReLU升维，再使用sigmoid函数进行Excitation操作，得到每个通道的权重值信息W=[w1,w2,…,wn]，如下式所示：

W=Sigmoid(S2ReLU(S1×Fn))，

(2)

式中：S1为降维的全连接层数；S2为升维的全连接层数；r为个超参数，表示降维系数。

(3)

于是便得到了经过SENet网络处理后的特征图，将其输入到后续RPN网络中进行处理，进行目标分类和边界框输出。

2.3 RPN网络结构

将通过步骤(1)和(2)之后得到的一系列feature map输入到RPN(Region Proposal Network)中，RPN使用anchor机制确定每个卷积中心对应的感受野内是否存在待检测目标。由于待检测目标大小的不确定性，需要若干尺度的anchor来完成该操作，如图6所示。

图6 RPN网络结构

使用3种尺度{128×128，256×256，512×512}和3种长宽比{1∶1，1∶2，2∶1}，在每个滑动窗口位置都会生成n个anchor。因此，在对50×38的feature map进行卷积滑窗时，可以得到50×38×n个anchor。为了对这些anchor进行筛选，需要对每个anchor定义一个二分类的标签(判断是否是目标仪表)。本文规定，将IOU值大于0.7的归类为正标签，即目标仪表；将IOU值小于0.3的归类为负标签，即背景图像。丢弃那些介于0.3～0.7之间既不是正标签也不是负标签的anchor。

本文使用的损失函数Loss定义如下：

(4)

(5)

(6)

(7)

3 实验与分析

3.1 数据采集与实验环境

本文通过自动化巡检小车在石油化工厂中进行数据采集，捕捉数字仪表图像，如图7所示。拍摄相机采用海康威视超高清摄像头DS-2CD5A26FW，支持1 920×1 080分辨率的图像采集。本实验中共采集2 180张原始数字表图像，为扩充数据集以及增加数据特性的丰富度，以提高模型对各种复杂自然环境下的适应性，采用平移、镜像、旋转等方式将数据量提升至6 540张，利用人工增强数据的方式最大限度模拟真实采集情况下可能出现的情形。如图8所示为部分原始数据集与对应后的人工增强后的数据集，其中图8(a)为相机拍摄到的原图，图8(b)和图8(c)分别为镜像和旋转之后的图像。

图7 自动化巡检小车

图8 本文数字表数据集

本文的实验环境配置信息如下：操作系统为Ubuntu 18.04.5 LTS，CPU为Intel Xeon(R) E5-2618L v3，GPU为NVIDIA GeForce GTX 1080Ti，深度学习框架为PyTorch 1.6.0，架构平台为CUDA10.1.243，并调用深度神经网络GPU加速库CuDNN7.6.5。

3.2 模型训练

使用LabelImg标注工具对采集到的仪表图像数据完成标注，得到xml格式结果，再将其转换为coco数据集格式，其中训练集、验证集和测试集比例为7∶2∶1。标注过程中，考虑到图像送入到模型训练前要进行resize将尺寸变小操作，但拍摄时部分目标仪表图像在整幅图片中所占比例较小，因此在进行resize的同时也需要将这部分仪表图像的标注框进行扩大，保证训练时的一致性。

RPN网络训练过程中，正负样本的总数设为256，比例设置为1∶1，当负样本的数量远大于正样本的数量时，就必须舍弃一部分负样本，即当负样本数量超出128时，则舍弃剩余的负样本。本文Faster RCNN网络模型训练过程中，使用SGD优化器，防止过拟合的权重衰减(weight_decay)设置为0.000 1，随机梯度下降算法的动量值(momentum)设置为0.9，学习率先设置(learning rate)为0.005，训练40 000次后，将学习率增大0.1倍，再训练20 000次。训练60 000次过程中模型损失值变化情况如图9所示，可以看出随着迭代次数的增加，loss值不断降低最终趋于稳定，表明模型已经收敛。

图9 改进后的数字表检测模型loss曲线

3.3 实验结果对比与分析

为了获取最佳的网络参数，本文先用faster rcnn网络进行实验。见表1，当dropout值小于0.5时，随着其值增大，AP值也逐渐升高；但当dropout值再增加时，AP值不升高反降低。因此实验中dropout值取0.5。

表1 dropout值与AP值关系

表2测试了在dropout值取0.5时，不同的IOU、候选框大小以及anchor数量对于结果的影响。综合考虑，本文IOU阈值选为0.5，anchor数量选为15。

表2 不同参数取值对于实验结果的影响

针对本文数字表数据集，为测试改进后模型效果，采用平均准确率AP、召回率Re和精度Pr对模型进行评价。AP与准确率Pr和召回率Re相关，它表示Pr-Re曲线下面的面积，该值越大代表模型的检测效果越好。

(8)

(9)

(10)

式中：tp为正确匹配的数字表数目；fp为将背景图像错误识别为仪表的数目；fn为将目标数字表错误检测为背景图像的数目。

为充分验证本文改进后的模型效果，选择不同的改进策略分别进行对比实验。如图10Pr-Re曲线所示，可以看出本文模型性能最优。表3是各个改进模型在本文数据集上的训练检测结果的AP值。

表3 各模型训练结果AP值

图10 各个模型Pr-Re曲线

为验证本文改进后模型的效果，实验选取了光线较暗、较强、背景较复杂以及多目标4个具有代表性场景进行测试，本文改进后的模型检测结果分别如图11中(a)～(d)所示。可以看出优化后的模型在这些复杂场景中有较好的表现，能准确定位到目标数字表的区域，具有较好的泛化性和鲁棒性，可以在复杂的石油化工厂中精准定位仪表位置。

图11 不同场景下本文改进后模型的检测结果

4 结论

为了提高石油化工厂中复杂场景下数字仪表的检测定位精度，本文提出了一种改进型的Faster RCNN检测模型。将多层网络融合技术嵌入到特征提取阶段，同时将主干网络VGG16结合SENet模块，提高了光线过曝、光线不足、由于拍摄距离过远而造成的目标数字表图像较小场景以及由于各种因素导致的图像质量不好场景下的准确率。经过实验对比，本文方法相对于未改进的传统目标检测算法具有更高的定位精度和检测准确率，可降低误检漏检情况，为后续一系列自动化识别检测工作提供精准可靠信息，具有重要商业价值。