APP下载

基于局部监督深度混合模型的变电站巡检机器人道路场景识别

2021-07-01董翔宇汪太平汪世才朱仲贤

关键词:语义局部卷积

董翔宇,李 安,汪太平,祁 麟,汪世才,朱仲贤

(1.国网安徽省电力有限公司 检修分公司,安徽 合肥 230001; 2.合肥湛达智能科技有限公司,安徽 合肥 230031)

0 引 言

随着工业自动化、现场无人化等在越来越多的行业中需求的增加,作为主要技术之一,无人值守监控巡查系统在诸多行业中得到了广泛的认可和关注。变电站作为智能电网建设中的重要连接枢纽,为了确保其安全正常的运行,必须定期进行检查,以便及时完成相应的维护[1]。但往往由于巡检环境危险、任务强度大、巡检要求苛刻,使得单纯依靠人工检查的方式难以满足现实任务的需求。作为一种辅助措施,使用变电站巡检机器人在无人值守的环境下,进行变电站设备的运行状态检测,在降低了人为巡检难度的同时提升了安全性和执行效率,故而受到了电力巡检行业的高度认可[2]。对于巡检机器人而言,良好的路径识别能力是实现智能导航巡检路径的关键[3]。现有的巡检机器人导航技术如磁道导航、用于室外机器人的差分GPS导航、惯性导航、固定环境下的激光导航等[4-5],在应用于变电站场景时都存在一定的局限性。就磁道导航而言,需要在巡检现场根据巡检路线铺设磁性感应装置,这不仅会增加额外的开销,还容易受到变电站的电磁干扰,影响导航精度及可靠性[6]。用于室外的差分GPS导航技术在用于变电站室内导航时,准确性较低,精度差,而且在变电站环境中,还需要对位置信息进行保密,这些都限制了高精度差分GPS在该领域的应用[7]。此外,变电站内可供巡检机器人行走的空间有限,坐标导航技术对于巡检机器人的定位要求极其严格,特别是对运动系统精度的要求,必将大大增加巡检机器人的机械制造成本;个别变电站场景中由于绿色植物的存在,会发生改变巡检环境的情况,这使得激光导航技术也不再适用。因此,考虑上述多种因素,研究一种针对变电站场景有效的识别方法,为进一步针对变电站场景导航提供参考是十分重要的。

视觉导航技术在克服了上述方法缺点的同时,具备高精度、高可靠、高效率等特点。通过前景视觉装置实时捕捉道路图像,并与底层运动控制相结合,能够有效地指导巡检机器人执行实时巡检任务。现有的变电站巡检机器人大多数通过手动的方式对道路场景的特征进行提取与识别,该方式涉及大量专业知识的应用且对复杂道路场景的检测结果欠佳。特别是在部分特殊场景中,由于环境发生变化,如光照或临时附加了遮挡物等,往往会导致识别精度的降低。

随着深度神经网络技术的发展,越来越多的图像处理及识别任务可由卷积神经网络(convolutional neural networks,CNN)完成,有效地摆脱了人工设计特征方面的限制[8]。现有的卷积神经网络如全卷积神经网络(fully convolutional networks,FCN)[9]、PSPNet(pyramid scene parsing network)模型[10]、SegNet(segmentation network)[11]模型等,虽然具有较高的检测精度,但仍存在模型较大、运算速度慢、识别效率较低等不足,不适用于处理能力一般的嵌入式平台应用。为此,在现有全卷积神经网络研究的基础上,本文设计了一种针对变电站道路场景的局部监督深度混合模型(locally supervised deep hybrid model)的识别网络。该网络模型采用全局与局部信息相结合,能够有效地增强和识别CNN卷积层中的局部语义特征,同时结合空间卷积,有效地改善由于遮挡所造成的信息丢失问题,提升了变电站巡检路径标志物及场景的识别精度和准确度。

1 局部卷积监督

对于变电站巡检机器人而言,理解其行驶的巡检环境是至关重要的。如果行驶路线中存在遮挡,那么按照传统的语义分割方式进行处理时往往会忽略遮挡部分的检测,只处理可见区域的行驶路线。丢失掉的这部分局部特征不仅导致检测精度的降低,而且影响巡检机器人的定位及导航。在传统的CNN网络中,卷积特征通常会被汇集起来,然后逐层进行非线性变换,最后传输到全连接层(fully connected layer,FCL),并通过降低卷积特征的维数,来避免巨大的内存和计算开销。但在这一处理过程中,通常存在FCL难以提取到的图像精细结构。特别是在特征重构时,虽然可以保持图像原始的整体布局,但往往会导致局部细节的丢失,从而进一步影响语义分割的精度。文献[12]的分析表明,通过FCL特征难以较好地捕捉到局部对象信息和精细结构,而这些中层特征往往对于场景识别非常重要。故而将FCL特征与卷积特征相结合,采用局部监督的方式,来增强卷积层中相关的局部对象细节信息。

对于每一个卷积层,都对其采用局部监督的方式。在给定N个训练实例时,对于每一个训练对象Xi,将其标签定义为yi。传统的CNN网络是将最小化权值参数W作为优化目标,即

(1)

其中,Ψ(·)为针对分类任务的一个典型的铰链损失函数。CNN网络的训练是寻找一个从图像空间映射到其标签空间的最优化的W向量。为了增强图像的局部信息,在原有优化目标的基础上进行改进,即

(2)

其中:φ为与Ψ形式类似的损失函数;μm为辅助损耗因子。为了使辅助的损失函数可以应用在多个可选的卷积层上,定义包含这些卷积层的集合为M,从而在不同的卷积层上可以构建多个局部信息监督层。同时,为了更好地实现局部监督的有效性,使得W、Wm在CNN网络的低卷积层中参数共享,高卷积层或FCL中参数相互独立,并且保证计算辅助损失的标签相同,即ym=yi,故而直接将最终的标签信息在卷积层间传播。

2 深度混合模型的网络结构

在传统的CNN网络中,包含一定数量的卷积层、池化层和全连接层,这里采用10层普通卷积网络,并交叠3层池化层来提取低级特征,并将局部监督应用在池化层之前。为了尽可能地保留局部的细节信息,这里定义卷积核大小为3×3×1,池化核大小为3×3×2,网络具体参数见表1所列。

表1 主干网络参数

新的卷积层和池化层生成的特征图尺寸分别为14×14×80、14×14×384。由于局部监督层与池化层直接连接,使得池化层直接获取标签的概率分布,而不需要在它们中间使用任何FCL。同时采用随机梯度下降法(stochastic gradient descent,SGD)对W、Wm进行训练,构建传统的CNN网络,虽然提升了对于局部细节信息的获取,但却丢失了部分空间层级化信息,不利于遮挡部分道路的特征提取。

为了更好地提取道路的有效信息,进一步研究图像行和列上像素之间的空间关系,在不损失分辨率的前提下,解决由于遮挡所带来的信息丢失问题,考虑采用空间卷积作为识别空间层次信息网络节点,对特征行或者列按照从上到下、从下到上、从左到右、从右到左等顺序依次分层计算处理,在同一层结构中进行空间信息的传递,空间卷积CNN结构如图1所示。

图1 空间卷积SCNN结构

假设在完成骨干基础网络的处理后,将通道、高度、宽度分别表示为C、H、W,其对应的尺寸为C×H×W的特征矩阵按行进行切片,可得到H个特征切片。将第1片特征经一维的卷积操作后,从上向下叠加传递;第2片特征加上第1片特征的卷积输出后,进行一维卷积操作,依次向下传递,直到最后一片特征处理完毕。

处理完毕的特征矩阵传递到下一个处理模块(从下向上的SCNN-U),并依次将处理结果传递给从左向右处理模块SCNN-R及从右向左处理模块SCNN-L。假设存在一个三维的张量T,其中Ti,j,k记为最后一个切片中通道i的元素和当前切片中通道j的元素之间的权重,2个元素之间偏移列记为k。

同样将Yi,j,k记为张量Y的元素,其中通道、行、列分别用i、j、k表示,则SCNN的前向计算为:

(3)

其中,f定义为线性纠正函数(rectified linear unit, ReLU)。

深度混合模型的网络结构如图2所示。

图2 深度混合模型的网络结构

综上所述,识别场景的类别是由多层图像内容定义的,其中包括中层局部纹理和对象以及高层场景,这些特性是由CNN的各个层所捕获的。场景类别可以根据全局结构的FC特征进行粗略分类;同时,许多场景是模糊的,此时使用局部监督进行特征细化,并结合空间卷积进行遮挡图像的处理。

3 实 验

为了验证本文中所提出的基于局部监督深度混合模型的场景识别效果,利用实际变电站巡检机器人采集到的变电站巡检行驶路况的场景图像对网络进行测试。

根据巡检机器人采集的变电站道路场景视频,挑选出重复率较低的视频帧共2 430张,将图像尺寸统一规则化处理为1 024×768的图像,并手动标注出待识别的目标,如电柜、仪表箱、路面等。随机选择其中的1 600张图像作为训练集,剩余的830张图像作为测试集。

为避免训练过程中过拟合,采用Adam对网络进行训练,设置学习率为0.002,动量参数为0.4,β1为0.80,β2为0.99。场景中主要标注对象为仪表柜、电柜、仪表等需要进行巡检的设备终端。训练的服务器配置为Intel(R) Xeon(R) CPU E5-2683,64 GiB内存,GPU为Titan X。为了更好地训练样本,防止因为场景特征单一导致的样本过拟合,对样本进行旋转、镜像操作并加入训练集合,如图3所示。

图3 训练样本数据集扩充

3.1 相关参数和性能分析指标

通过不同的训练批量数量和迭代次数分别进行训练,实验验证表明,Adam求解器相比于SGD具有更好的迭代效果。在相同迭代次数的条件下,权重网络的收敛速度提升2%以上。

由于算法模型应用于巡检机器人,为此,测试算法的推理速度放在嵌入式边缘计算终端Nvidia Jetson Tx2上,采用低功耗模式进行工作,其学习率策略对比结果见表2所列,场景语义分割效果对比结果见表3所列。

表2 学习率策略对比

表3 场景语义分割效果对比

对巡检目标的识别区域进行分割,然后将散点进行拟合,得到场景中检测目标效果如图4所示。

图4 场景中巡检目标效果

3.2 路面及杆塔标志物识别效果

为了判断局部检测目标的区域与真实语义分割范围的误差,使用实验中,将真实区域与预测分割拟合后的区域交并比(Intersection over Unio,IoU)作为评价指标。为了统一对比,使用CityScapes数据进行训练,对路面、线路杆塔进行识别。对于语义分割区域,区域分簇后进行拟合、扩边20像素,然后进行比较。实验中,以P表示查准率、R表示召回率,采用Fβ作为调参,Fβ=[(1+β2)PR]/[(β2P)+R],则实验采用不同算法进行语义分割,得到IoU的结果见表4所列。

表4 网络有效性IoU值对比

LS-SCNN的IoU在Fβ=0.3时,与BiseNet相比减少了0.1,但推理速度提高了22.2%。这是由于LS-SCNN在局部区域的配准要求较高,在查准率P要求较低时,其预测的有效区域与实际范围偏小。当Fβ=0.5时,SCNN有效性指标IoU最高,但从表3可以看出,相对来说其模型较大,推理速度与LS-SCNN相比慢了43.7%。局部特征增强部分的效果图如图5所示。

图5 局部特征增强

由于场景中识别的局部特征与背景有很大的差异性,使得经过局部特征增强后的边缘更加清晰,有利于后续网络的进一步分割。语义分割的识别效果如图6所示。

图6 变电站道路与电力杆塔的分割识别效果

4 结 论

本文提出了一种基于局部监督深度混合模型的识别网络,有效地实现对变电站巡检机器人道路场景识别。针对CNN中存在FCL在局部细节提取方面的缺陷,采用局部监督的方式增强卷积层中局部对象的细节信息。同时,结合空间卷积处理,改善了由于遮挡所造成的信息丢失问题。通过在实际变电站场景数据集上的实验表明,本文提出的识别网络以较小的权重网络明显地提升了推理速度,并保持较高识别精度,在实际变电站场景中实现了高效率的识别效果。后续研究中,将进一步改进网络的结构,深入挖掘不同网络层次对识别效果的影响以及之间的内在联系,从而提升网络的识别精度。

猜你喜欢

语义局部卷积
真实场景水下语义分割方法及数据集
日常的神性:局部(随笔)
爨体兰亭集序(局部)
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
凡·高《夜晚露天咖啡座》局部[荷兰]
从滤波器理解卷积
丁学军作品
“吃+NP”的语义生成机制研究