面向设备开关图像识别的改进Faster R-CNN①

2022-11-07宋旭峰蒋梦姣周怡伶吉俊杰陆晓翔

计算机系统应用 2022年10期

宋旭峰,蒋梦姣,周怡伶,吉俊杰,陆晓翔

1(国网新源控股有限公司,北京 100032)

2(华东宜兴抽水蓄能有限公司,宜兴 214200)

3(河海大学计算机与信息学院,南京 211100)

在大型工业厂房中,通常部署着各种各样的机械电子设备,设备控制所涉及的开关种类繁多、数量庞大,给日常的运行维护工作带来挑战,例如抽水蓄能电站、光伏发电站等.在日常的运维过程中,工作人员需要在复杂的环境下对各种设备上众多的开关进行操作和检查,保证开关状态的正确性,确保工厂安全稳定地运行.

以抽水蓄能电站为例,作为电力系统中的重要的电力来源,抽水蓄能电站在电力调峰、调压调相、事故备用等方面发挥着重要作用.因此,安全稳定地运行、持续可靠地供电对于抽水蓄能电站至关重要[1,2].日常运维监管作为抽水蓄能电站安全生产与管理的重要手段,对抽水蓄能电站机组设备的检修维护、实时监督、状态评估与预测等各个方面均有重要作用[3].然而,抽水蓄能电站工况多、维护操作复杂的特点加大了监管的难度,传统完全依赖人工监督的方式对于运行维护和突发事件的处置是不完全可靠的,一旦错误操作没能及时发现与纠正,将会造成设备损坏和人员伤亡的严重后果,同时影响下游电力用户的生产和生活.

因此,为了有效监控上述场景下的人工运维过程,本文引入基于深度学习的图像识别技术来智能化地辅助操作人员判别机组设备的开关状态,确保操作结果的正确性.

对于设备开关状态的识别问题,目前已有一些研究工作.主要分为如下3 类.

第1 类是基于传统数字图像处理的形态学与特征分析[4-10],比如周凯等人[4]提出一种基于非下采样剪切波变换(NSST)图像融合的开关图像识别方法,胡聪等人[6]提出利用粒子群优化算法对图像进行分割.这种基于传统图像处理技术的方法容易受到操作环境的影响,只能局限于固定的操作场景.

第2 类是基于传统机器学习的模式识别方法[11-13],比如黄钊鹏[11]提出利用图像处理的相关方法,冷从林[12]提出基于SVM 的开关状态识别算法.这类方法的缺点在于图像特征需要人为定义和提取,一方面提出的特征必须适用于开关的分类,否则会影响分类的效果,另一方面这种特征提取方法很难迁移到其他领域.

第3 类则是基于深度学习的图像处理算法[14-21].比如史梦安等人[14]提出基于YOLO-tiny-RFB 模型的电站旋钮开关状态识别方法,杨雨等人[15]提出基于YOLOv5 的变电站薄厚硬压板检测技术,李岩等人[16]、苏杨等人[17]提出通过卷积神经网络识别开关状态,邓乐武等人[18]提出了基于深度学习的座舱开关识别方法,高露[19]、Khan[20]、张礼波等人[21]通过数据增强、特征融合和候选框的设计改进Faster R-CNN 模型.上述方法均是针对单一的开关类型,只能应用到相近的领域,限制了方法的普适性.

相较于上述文献中所述的设备开关操作场景,本文研究的操作场景更加复杂,具体表现为设备控制所涉及的开关种类繁多、同类开关形状与大小也各异.从开关的类型及其状态划分,总共分为18 类开关,36 种开关状态; 从图像数据分析,图像中的开关密集分布,形状相似,数量较多.这些都给开关识别带来了很大的困难.针对这些挑战,本文提出了一种面向设备开关状态识别的改进的Faster R-CNN.

相比于原始Faster R-CNN[22],改进之处在于以下4 点: 选择残差网络为基础网络,将该网络中卷积层的残差块改为多分支膨胀卷积残差块,融合不同感受野的信息; 在原特征金字塔网络[23]的基础上新增一条自底向上特征融合的分支,让塔顶的特征图拥有底层特征图的细节信息; 根据开关尺寸信息,聚类出适合开关数据集的候选框尺寸; 使用Soft-NMS 替代原来的NMS算法.试验表明,改进模型在精度上优于YOLO[24]、SSD[25]等常用的目标检测模型,在开关状态数据集上比传统的Faster R-CNN 检测精度提升了约7%.此外,该算法已实际应用于抽水蓄能电站日常运维的设备开关状态辅助识别,实践表明可以满足这一复杂场景下的智能监管需求.

1 基于改进Faster R-CNN 的设备开关状态识别

相比传统的工厂,抽水蓄能电站部署的机械电子设备更多,设备控制所涉及的开关种类繁多、数量庞大,更加符合本文研究的复杂场景,所以,以抽水蓄能电站为例,研究开关状态的识别问题.

本文的实验数据主要来自华东地区某抽水蓄能电站,通过对抽水蓄能电站日常操作视频的抽帧,剔除走动、模糊数据,图像增强等技术构建图像数据集.经过图像的分析和专家提供的信息,将开关一共分为18 种,每种开关虽然有多个状态,但是日常操作仅涉及2 种状态,所以每种开关均设置2 种状态.18 种开关用1 到18 的整数编号,同时为了图像标注方便,将“关”“off”“拉开”“现地”“Local”这类开关状态统一记为0,将“开”“on”“合上”“远程”“Auto”记为1.部分开关的状态如表1 所示.

表1 部分开关类型和状态

除了上述开关类型及状态较多的问题之外,还存在以下的难点问题:

(1)在不同的设备上存在形状相似的开关.

(2)单张图像中存在密集排列且众多的小型开关.

(3)不同设备上开关的大小不一样.

这些问题的处理都直接影响到开关的整体识别结果.

针对上述问题,本文提出了改进的Faster R-CNN.针对问题(1),在ResNet50 中加入多分支膨胀卷积,融合不同感受野的信息,提取更加明显的特征,便于区分相似的开关; 针对问题(2),改进了特征金字塔网络,新增一条自底向上的特征增强分支,融合不同尺度的信息,提高对于密集型开关和小型开关的识别能力; 针对问题(3),用K-means++算法[26]对设备开关的边界框进行聚类,设计出适合开关状态数据集的RPN 候选框尺寸,能够检测出不同形状的开关; 最后,使用Soft-NMS替代原RPN 的NMS,提升抑制重叠候选框的效果,提高候选框选择的正确率; 改进后模型整体结构如图1所示.

图1 最左侧为提出的膨胀残差网络,将C3、C4、C5 卷积模块中最后一个残差块变为多分支膨胀卷积;T2、T3、T4、T5 为原特征金字塔网络多尺度融合输出的特征图,D2、D3、D4、D5 为新增的自底向上特征融合分支的输出特征图; P2、P3、P4、P5 为改进后的特征金字塔网络输出的多尺度特征图.将这些特征图送入RPN 中,根据K-means++算法选出的候选框进行目标检测; 最后,将每个特征矩阵通过ROI pooling层缩放到7×7 大小的特征图,接着通过一系列全连接层分类回归,最终通过多次训练达到预期效果.

图1 改进Faster R-CNN 整体模型结构

如图1 所示,Faster R-CNN 的损失主要包括RPN损失和ROI 损失,损失函数如下:

其中,i是批量数据中anchor 框的序号,pi为anchor 预测为目标的概率,p*i是真实的标签信息(在RPN 损失中是二分类,在ROI 损失中是多分类);表示预测框的位置信息,t*表示目标框的位置信息;表示目标和非目标的对数损失,针对二分类问题,形式如下:是回归损失,一般采用smooth L1 函数计算,形式如下:

RPN 损失包括分类损失和回归损失,分类损失是二分类交叉熵损失,回归损失是对anchor 的位置进行回归微调.ROI 损失和RPN 损失相似,不同的是,ROI的分类损失是多分类交叉熵损失,ROI 的回归损失是对ROI 的位置进行回归微调.

1.1 膨胀卷积残差网络

在真实抽水蓄能电站操作场景中,某些设备的开关排列较为密集,如果拍摄角度偏离设备,那么一些开关的部分图像信息会被其他开关遮挡,没有明显分隔边界.开关状态识别任务中开关种类有18 种,部分类型开关的图像相似,如图2 所示,3 种开关外观相似,导致开关状态在语义上很难有统一且清晰的定义.因此现有的深度模型要实现这样的深层语义理解是十分困难的.

图2 3 种开关及其状态

卷积神经网络在处理图像特征图时,为了提高网络训练效率,会在一些卷积层后使用下采样操作,但是下采样会丢失很多空间语义信息和细节信息,因此在层数较深的网络模型中,深层网络会失去很多浅层网络的空间语义信息,ResNet[27]中引入捷径的目的就是将浅层网络的空间信息能够传递到深层网络,提高了浅层信息的利用率.开关图像识别需要提取更多细节信息,所以本文使用残差网络ResNet50 作为骨干网络来取代传统的VGG16 网络[28],网络参数如表2 所示.网络在卷积conv5 输出之后,再通过1×1 的卷积实现通道聚合,降低参数量,最后通过全连接层实现分类.

表2 ResNet50 网络结构

在深度网络中,特征图空间信息的丢失容易导致小目标信息的丢失.目前,这类问题无法完全解决,但是可以使用膨胀卷积[29]在不改变卷积核大小的情况下,通过改变扩张率(dilated rate)扩大感受野[30]来缓解上述问题.卷积核被膨胀卷积处理后感受野大小的计算公式为:

其中,n为膨胀卷积后感受野,k为原始卷积核大小,例如卷积核大小为3×3,k就是3,r为扩张率.

图3 分别表示一个3×3 的卷积核在r取1、2、4时的感受野.图3(a)的卷积核的扩张率r取1,卷积核感受野没有变化,依然为3×3.图3(b)的扩张率r取2,感受野扩大为7×7,由于空洞中填充的是0,不参与实际的计算,所以计算量没有改变.图3(c)的扩张率r取4,感受野扩大为15×15.

图3 3 种扩张率下卷积核的感受野

特征图经过膨胀卷积处理后大小变为:

其中,W为输入特征图的大小(宽或高),p为padding值,s为步长stride.

使用膨胀卷积不可避免地出现网格效应(gridding effect)[31],即膨胀卷积的卷积核在滑动时覆盖到的有效区域呈现网格状,丢失临近点的有关信息,扩张率r越大这种问题越严重.所以,既要扩大感受野,又要降低网格效应的影响,本文采用综合多个扩张率的膨胀卷积方式,在感受野扩大的同时,减少信息的丢失.具体方法是将一组不同扩张率的卷积进行并联,均处理相同输入的特征图,把各个膨胀卷积输出的特征信息融合在一起,那么多分支膨胀卷积模块的最终输出可以包含不同尺度、不同感受野的信息,小扩张率的卷积核提取小型开关目标的局部特征,大扩张率卷积核提取中、大型开关目标的局部特征.

图4 展示了多分支膨胀卷积模块,图中模块一共设置了3 条分支,扩张率分别为1、2、3,并将3 条分支输出相融合.图5 是对不同扩张率膨胀卷积输出特征图的融合,左侧从上到下分别是扩张率为1、2、3 的膨胀卷积,右侧为输出的融合后的特征图.

图4 多分支膨胀卷积模块图

图5 多分支特征图的融合

Faster R-CNN 模型的基础网络使用的是ResNet50,具体参数见表2.在ResNet50 基础上使用膨胀卷积进行改进,主要是将残差块中的3×3 普通卷积变为3×3的多分支膨胀卷积,改进前后对比如图6 所示.

图6 残差块改进前后对比

使用膨胀残差网络能够在不扩大卷积核尺寸的基础上扩大感受野,同时减少丢失的信息.不同尺度的目标能够在不同的感受野下提取特征,丰富了残差块输出特征图的信息,同时也能够让小型开关目标在深层特征中有丰富的语义信息.而且,各个膨胀卷积分支之间权值共享,相较于原始残差块计算量不会增加,同时可根据不同的数据集调整多分支膨胀卷积残差块在卷积网络中的位置来获得适合数据集的网络模型.

1.2 改进特征金字塔网络

卷积神经网络在特征提取时,底层网络提取的是图像的细节信息,层数越深的网络提取的特征越抽象.图7 是包含多个开关的设备图像,由于拍摄距离较远,所以图像中开关的面积较小.

使用训练好的ResNet50 对图7 进行特征提取,并给出具有代表性的4 个卷积层输出的特征图,这些特征图如图8 所示.

图7 多个开关的设备图像

图8 中越亮的地方,训练时网络越会关注,从图8(a)和图8(b)可知,浅层网络较关注图像的纹理和细节信息,图8(d)的特征图已经很抽象了,看不出开关的细节.

图8 各卷积层输出的特征图

由第2.2.2 节可知,在拍摄距离较远的情况下,一些小型开关在图像中较小,此时开关目标的检测和识别对细节信息要求较高.然而部分开关是中型的,也有大型开关,例如大阀门、闸刀等,需要兼顾高层的语义信息.所以特征提取网络既要保留底层细节信息,还要兼顾高层语义信息.因此在膨胀卷积残差网络上加入特征金字塔网络,融合多维信息特征进行开关状态的检测和识别.

图9 所展示的是特征金字塔网络结构,该结构一共两个分支,左侧自底向上的分支为特征提取,不断下采样输出多个尺度特征,每一个方框都是一个尺度的特征图,右边分支的高层特征不断进行2 倍上采样.这种结构融合了高层特征和底层特征,让每个尺度的特征图都有丰富的语义信息.原Faster R-CNN 模型使用单一的特征提取网络,如VGG-16、ResNet 等,仅在网络输出层做预测,由于特征提取网络的卷积层较多,在卷积过程中丢失底层语义信息,不利于小目标开关的检测.使用FPN 后,可以在底层输出的融合特征图上进预测,有利于关注细节信息的小目标开关的检测.

图9 多尺度特征金字塔网络结构

但是特征金字塔网络多尺度融合的特征图中只有金字塔底部包含底层信息较多[32],顶部的特征图经过多次卷积后已经丢失了很多底层信息,特征融合只是自顶向下融合,让下层拥有上层的特征信息.为了解决这个问题,对FPN 结构进行改进,在原FPN 右侧分支增加一个自底向上的特征增强分支,更加充分地融合高层和底层的语义信息,让高层特征图也有底层语义信息,改进后的FPN 模型结构如图10 所示.

图10 改进的多尺度特征金字塔网络

FPN 改进后,因为从特征提取网络的底层到特征增强分支顶层路径上较短,卷积操作较少,所以在特征融合过程中底层信息丢失较少,特征增强分支的各尺度均含有底层信息.改进后的FPN,各层所包含的语义信息要比原始网络多,尤其是底层以上的各层均含有更丰富的底层信息,更加有利于小型开关目标的检测与识别.

1.3 基于K-means++的候选框尺寸设计

在目标检测中,合适的候选框尺寸将决定最后分类回归的效果.因为开关状态数据集与公开的目标检测数据集存在很大差别,主要表现在开关的形状相似,分布密集.所以Faster R-CNN 原模型中的候选框尺寸不一定适合开关状态识别任务,因此需要根据所有开关的真实边界框尺寸来合理设计候选框大小和长宽比例.

本文使用K-means++聚类算法对开关的真实边界框大小和宽高聚类,得到更适合开关的候选框尺寸,使模型候选框的尺寸与真实边界框尽量吻合.

为了评估K-means++聚类的效果,使用轮廓系数(Silhouette coefficient,SC)作为开关真实边界框的聚类评价指标,SC可以同时考虑簇内凝聚度和簇间分离度两方面,从不同的K中选择最优的结果.假设第i个样本与同簇内其他样本的平均距离为ai,到其他簇Cj的所有样本的平均距离为bij,设bi={bi1,bi2,···,biK};ai衡量簇内凝聚度,bi衡量簇间分离度,根据ai、bi定义第i个样本的轮廓系数SCi,如式(3)所示:

ai比bi越小,SCi的值越接近于1,表示样本聚类越合理,反之SCi接近于-1,则表明样本i与其他簇的样本更相似,如果接近于0,说明样本i在两个簇边界.数据集内所有样本的SCi的平均值就是在取K时聚类算法的轮廓系数SC,公式如下:

其中,n为开关目标总数.

K-means++聚类实验前要先设置K的值,根据标注开关的经验预测为K在3 到6 之间,实验尝试了K取3 到12,使用SC作为评价指标,其结果如图11 所示.

图11 不同K 值情况下的SC 值

由图11 知K取4 时达到最佳效果,最高的SC值为0.636 94,K取4 也在经验预测的范围内.图12 展示了K取3 到6 的实验结果图.

图12 K-means++算法取不同K 值时的聚类结果

图12(b)为最佳聚类效果,4 个簇的聚类中心分别为(135,153)、(56,68)、(535,238)、(363,512),不难发现,聚类中心(135,153)密集程度最高,聚类中心(363,512)密集程度最低.因此,对于开关状态的识别可以更加关注中小型目标.计算4 个聚类中心点代表的面积,分别为: 20 655、3 808、127 330、185 856,对这些面积开平方取近似值得: 144、62、357、431,计算聚类中心横纵坐标之比也是宽高比取近似值得:(1:1.2)、(1:1.2)、(1:0.5)、(1:1.5).最终,本文候选框大小为62×62、144×144、357×357、431×431,宽高比设置为(1:1.2)、(1:0.5)、(1:1.5).

1.4 Soft-NMS 抑制重叠候选框

本文模型在检测开关时,由于特征图的每个滑动窗口上都会生成多个候选框,所以相邻的窗口会有多个候选框交叉重叠,使用非极大值抑制算法(non-maximum suppression,NMS)抑制候选框,删去重叠的多余的候选框,找到检测效果最佳的候选框,从而提高模型性能.NMS 算法使用前后的检测窗口变化如图13 所示.

从图13(a)可以看出,在对采集到的开关图像进行检测时,开关上有很多交叉重叠的候选窗口,但并不是所有窗口都可以完整地包含目标开关,多数窗口只能检测到一部分.此时,使用NMS 算法从图13(a)中的候选框中选择最优的窗口,如图13(b)所示,这样可以提高开关检测的准确度,模型效果也会更好.

图13 使用NMS 前后候选框图示结果

假设某张图像在检测过程中,图像内的一个开关上生成了n个候选框,将候选框集合记为B={B1,B2,···,Bn},候选框对应的得分集合记为S={S1,S2,···,Sn},得分是候选框内有目标的概率大小,Si的计算公式如下:

其中,IoU为两个候选框的交并比.

显然,从式(5)中发现,NMS 算法会直接丢弃所有超过阈值p的候选框,导致相邻的候选框的分数为0.如果相邻候选框内含有类似大小的目标,那么两个候选框IoU可能会高于p,相邻目标的检测会丢失一个目标候选框.

针对NMS 暴力抑制候选框的问题,本文使用了改进的非极大值抑制算法Soft-NMS[33].Soft-NMS 提出了两种对候选框分数的加权,分别为线性加权和高斯加权,本文采用高斯加权方式,如式(6)所示.

2 实验与结果分析

2.1 实验设计

实验所使用的数据集是第1 节中经过数据增强的设备开关状态数据集,一共1 644 张图像,开关约有3 600 个,分为18 种开关36 类状态.以7:3 的比例划分训练集与测试集,训练集1 151 张图像,测试集493 张图像.

在参数设置方面,优化器选择SGD,学习率lr 设置为0.005,衰减系数weight_decay 设置为0.000 5,动量参数momentum 设置为0.9,批大小batch_size 设置为2,迭代次数epoch 设置为50 次.

在抽水蓄能电站真实的操作场景下,本文对目标检测模型Faster R-CNN 进行了4 个方面的改进,分别为:设计了膨胀残差网络作为骨干网络、使用改进后的特征金字塔网络进行多尺度信息融合、使用K-means++算法聚类出后候选框尺寸、使用Soft-NMS 代替NMS.为了验证改进的有效性,设计了以下5 组对比试验:

(1)不同多分支膨胀卷积使用策略的对比实验: 先验证膨胀卷积对提升识别效果的有效性,然后对膨胀卷积的层组合进行实验,得出最合适的膨胀卷积的层组合.

(2)特征金字塔结构改进前后的对比实验: 使用膨胀残差网络作为骨干网络,对比加FPN 与不加FPN 模型测试效果.

(3)使用原模型的候选框尺寸与K-means++算法聚类出的候选框之间的对比实验: 验证设计的候选框尺寸可以提升模型精度.

(4)Soft-NMS 与NMS 的对比实验: 使用两种筛选候选框的算法,测试最终模型效果.

(5)本文模型与其他目标检测模型之间的对比实验: 将改进后的Faster R-CNN 与原Faster R-CNN 模型、SSD、YOLO 进行实验对比,原模型特征提取网络均使用VGG16.该组实验主要是为了验证改进的有效性且将改进的Faster R-CNN 与其他目标检测算法进行对比实验.

衡量一个目标检测模型的精准度需要一些评价指标来表示,对于目标检测模型,常用的度量方法有精确率、召回率、平均精度、均值平均精度、交并比等.

(1)精确率(Precision)

精确率表示检测出开关并正确识别出的开关状态的数量占测试集中所有识别出的开关状态的比例,简记为P,计算公式如下:

其中,TP是检测出开关并正确识别出开关状态的数量,FP是检测出开关但识别状态错误的数量.

(2)召回率(Recall)

召回率表示正确检测出的开关数量占测试集中所有开关总数的比例,简记为R,计算公式如下:

其中,TP是检测出开关状态的数量,FN是没有检测出开关的数量.

(3)F1 分数(F1score)

F1 分数是Precision和Recall的调和平均值,简记为F1,公式如下:

(4)准确率(Accuracy)

一般用来评估模型的全局准确程度,简记为Acc,计算公式如下:

其中,TP是检测出开关并正确识别出?开关状态的数量,TN表示检测出非开关状态的数量,表示所有类开关的数量之和.

(5)平均精度(average precision,AP)

平均精度AP常被用来衡量模型对某一单个类别的检测精度.事实上,AP是P-R曲线下的面积,也就是单个类别图像的精度Precision和所有图像数量的比值,通常AP越高,表示模型对这个类别的检测性能就越好.单个开关状态AP的公式如下:

其中,APswitch表示单个类别开关状态的平均精度,是这一类别开关状态的精度和,Ntotal是单个类别开关的总数量.

(6)均值平均精度(mean average precision,mAP)

均值平均精度mAP,它用来衡量模型某类图像的检测精度.通常mAP的值越高,表示此模型的检测性能越好.mAP的计算公式如下:

其中,APswitch表示某类开关状态的平均精度值,是所有类开关状态的精度和,Nclassestotal是开关状态类别数.

2.2 实验结果分析

开关状态识别效果评价指标主要使用Precision、F1score、Accuracy和mAP(在实验中分别简记为P,F1,Acc和mAP),IoU均设置为0.5.将从第2.1 节的5 个方面进行实验并对比分析,验证本文改进算法的有效性.

(1)不同多分支膨胀卷积使用策略的对比实验

首先,通过一组实验验证膨胀卷积的有效性,将ResNet50 中的conv4 的残差块换成膨胀卷积,其结果如表3 所示.

表3 使用不同扩张率膨胀卷积的对比实验(%)

由表3 结果可知,在开关数据集上,仅改变残差块的感受野大小可以提升模型检测的效果.

从图8 的特征图中可以看出,conv1、conv2 输出的特征图与原图像相比信息丢失较少,所以本文在conv3、conv4、conv5 这3 个模块使用膨胀卷积,然后对conv3、conv4、conv5 使用多分支膨胀卷积的组合形式进行了实验,结果如表4 所示.

由表4 可知,在ResNet50 中的conv3、conv4、conv5 使用多分支膨胀卷积在开关状态数据集上效果最好,比原模型mAP高了6%.

表4 多分支膨胀卷积不同层组合的对比实验(%)

(2)改进的特征金字塔结构使用前后的对比实验

本文改进了FPN 结构,在原FPN 基础上新加一条自底向上特征增强的分支,做了两组对比实验,分别在骨干网络为ResNet50 和膨胀残差网络的Faster RCNN 模型上对比FPN 改进前后模型的精度.实验结果如表5 所示.

表5 特征金字塔结构使用前后的对比实验(%)

由表5 可知,在两个骨干网络上使用FPN 的效果都相当明显,以ResNet50 为骨干网络的模型精度提升了4.1%; 使用改进后的FPN,提升了对小目标的检测能力,比改进前提升约0.8%,膨胀残差网络作为骨干网络的模型提升了约0.5%.说明改进的FPN 对开关状态的识别有作用.

(3)候选框聚类前后的对比实验

以上一组实验为基础,在Faster R-CNN 的RPN 网络中设置适合数据集候选框大小和宽高比例,将使用原RPN 的候选框尺寸和使用K-means++算法得出的尺寸进行对比实验,结果如表6 所示.

表6 候选框聚类使用前后的对比实验(%)

由表6 可知,在开关状态数据集上候选框聚类对模型精度的识别有提升效果,主要原因是开关形状都是规则的,大多数的开关具有相似的大小和高宽比例.所以候选框聚类对提升模型识别精度有效.

(4)使用Soft-NMS 与使用NMS 的对比实验

原Faster R-CNN 模型使用的是传统的NMS 算法来抑制重叠的候选框,物体重叠时,NMS 的暴力丢弃容易导致丢失目标,本文改进的模型使用Soft-NMS,提高了模型抑制候选框的效果,从而提升模型精度.

由表7 可知,Soft-NMS 对模型的识别效果有提升作用.因为数据集中含有较多的电压开关,且这些开关紧密排列,在检测这些开关时,各个目标的多个候选框容易重叠,Soft-NMS 比传统的NMS 更有效地抑制重叠的候选框.

表7 使用Soft-NMS 与NMS 的对比实验(%)

(5)Faster R-CNN 与其他目标检测模型之间的对比实验

本节主要介绍改进前后的Faster R-CNN 与YOLOv3、SSD 的比较实验,其中,YOLOv3、SSD 均使用原始的骨干网络,实验比较结果如表8 所示.

表8 主流模型与本文模型的对比实验(%)

本文模型在开关状态数据集上比传统的Faster RCNN 检测精度提升了约7%.而且模型能较好地适用于抽水蓄能电站设备的开关状态识别,满足了预期的识别精度要求,能够辅助监督抽水蓄能电站日常运维操作.

不难发现,模型的精确率Precision和F1score的数值较低,这是由于部分类没有检测出目标,识别出开关状态,经过平均后数值较低.

为了进一步分析和验证模型训练的稳定性以及收敛性,对于改进的Faster R-CNN 模型,给出了模型的损失收敛曲线和精度收敛曲线.结果如图14、图15 所示.

从图14 中的曲线可以看出,模型在迭代4 000 step 之后损失基本收敛,从图15 中的曲线可以看出,模型精度在训练40 epoch 之后基本收敛.所以模型的训练过程稳定,收敛速度较快.

图14 改进模型的损失收敛曲线

图15 改进模型的mAP 收敛曲线

最后,对于改进的Faster R-CNN,测试模型在其他开关数据集上的检测效果.改进后Faster R-CNN 对抽水蓄能电站设备开关状态识别的效果图,如图16 所示.可以发现,模型可以很好地检测出图像中的开关,并且对开关状态的分类准确率很高,能够起到辅助监督的作用.

图16 改进的Faster R-CNN 检测识别效果

3 总结与展望

针对大型厂房中设备开关状态识别问题,提出了改进的Faster R-CNN: 设计了膨胀残差网络作为骨干网络,提升了模型特征提取的性能; 改进特征金字塔网络进行多尺度融合,提升小型开关的检测效果; 使用K-means++算法对开关的真实边界框进行聚类,设计出更适合设备开关状态数据集的候选框尺寸; 使用Soft-NMS 代替NMS,降低了NMS 暴力丢弃候选框对开关检测的影响.最终,模型的mAP达到91.5%,并且已实际应用于抽水蓄能电站日常运维的设备开关状态辅助识别,满足复杂场景下的智能监管需求.

在设备开关状态识别问题上,实际应用中由于拍摄角度可能严重偏离设备开关,从而影响采集的开关状态图像的识别精度,这一问题仍然值得进一步研究.