基于自适应降频卷积的受电弓识别算法研究
2021-02-25孙明
孙 明
(上海地铁维护保障有限公司供电分公司, 上海 201106)
0 引 言
受电弓是电气化铁路系统中保障列车正常供电和正常运行的重要组成部件。 受电弓与接触网的链接关系和工作状态直接影响高速铁路系统列车的正常安全运营。 所以如何提高受电弓结构功能部件的服役检测水平和有效减低维护成本,是铁路弓网系统安全检测及故障诊断需要解决的关键问题[1]。
目前,受电弓结构检测的主要方式包括接触式和非接触式两种。 其中,接触式检测方法重点是基于传统落后的人工检测和离线定点检测,这种检测方法的弊端主要在于无法对处在行运过程中的高速列车进行状态检测和实施监控。 非接触式检测方法则通过将各类车载检测装置安装于列车顶部,由此实现对车载受电弓的实时动态监测。 常见的非接触检测方法包括通过采集装置来采集手机震动信号、温度信号或解除信号等进行受电弓的状态检测[2]。近年来,采用基于图像处理技术的非接触式受电弓检测方法可以很好地完成实际工程项目中的受电弓状态检测和动态监控工作[3-9]。 文献[6-7]的研究中,通过传统的图像边缘检测方法对受电弓的边缘进行提取,再根据边缘特征对受电弓的故障进行诊断和检测。 文献[7]提出在边缘检测的基础上进行基于模糊逻辑和图像处理的受电弓几何模型检测。考虑到基于边缘检测的方法具有容易受到复杂背景干扰的不足,研究学界现已陆续将解决问题的思路从关注边缘提取转移到目标区域的整体定位上。 文献[8]提出了一个双层框架对受电弓进行受电弓的状态检测。 文献[9]中,研发了一种基于连通区域的受电弓定位方法和基于区域色彩特征的弧线识别方法。 此外,随着深度学习理论的发展和在图像处理领域取得的突破,基于深度学习理论的图像处理方法也受到了广泛关注并推广到了实际工程应用领域。 当前,也有一些研究工作在通过深度学习方法对受电弓状态进行检测[10-11]。 文献[10]提出了采用深部受电弓网络框架(DPN)对受电弓区域进行分割和检测。 文献[11]则在传统卷积神经网络框架(CNN)的基础上提出了适用于该场景的新网络架构PDDNet 并能准确地识别出4 种不同种类缺陷。 但是,由于拍摄到的原始图像中受电弓区域具有结构复杂且不规则的特性,采用主流的深度学习检测方法需要对复杂受电弓区域进行人工像素级标注。 为了减轻数据信息标注的工作量,无监督学习机制为解决问题提供了新的思路[12-13]。 文献[12]探讨了一种基于图像聚类的无监督学习框架,并成功应用于目标区域定位上。 为了有效地去除检测噪声,文献[13]通过结合显著运动检测和对象提议,开发了逐像素融合策略的无监督在线图像对象分割(UOVOS)框架,并在基准数据集上进行验证,且取得了较好的性能。 本文也是基于深度学习理论中的无监督学习方法来展开研究的。 本文方法整体框架的设计如图1 所示。 下一节中,拟对具体的受电弓图像目标显著性检测方法进行详述。
图1 受电弓图像目标显著性检测方法示意图Fig.1 Schematic diagram of target salience detection in pantograph images
1 基于自适应降频卷积的视觉显著性网络模型构造
分析可知,输入图像中相邻像素点的特征具有相似性,所以在传统卷积神经网络生成特征图的过程中,对图像中每个位置像素点的特征描述都独立进行存储,忽略了图像空间相邻位置的公共信息可以共同存储的特点,使得特征图产生较大冗余。
文献[14]中,卷积层输出特征图可以分解为不同空间尺度下的频率特征,且自然图像中包含了突出边缘的高频特征和描述整体的低频特征,本文提出一种新的OctConv(Octave Convolution)卷积层结构。 通过对图像中相邻位置像素的信息共享,有效降低了低频图像的分辨率,并且也减少网络结构的空间冗余。 在OctConv 卷积层中将卷积核进一步分解为高频卷积和低频卷积,并将输入图像的高频和低频分量张量分别设为XH和XL,卷积输出的高频和低频分量的特征映射设为YH和YL。 具体原理实施细节如图2 所示。
图2 OctConv 层实施细节原理图Fig.2 Schematic diagram of OctConv layer implementation details
同时,OctConv 层仅从图像的高频和低频空间尺度维度对输入张量进行卷积操作和处理,无法有效减少多尺度目标检测任务中的计算冗余。 在此基础上,本文提出一种更加灵活的自适应降频卷积模块,可以满足多尺度的图像不同空间尺度的特征张量输入和输出。 具体原理实施细节如图3 所示。
图3 自适应降频卷积层实施原理图Fig.3 Implementation schematic diagram of adaptive down -frequency convolution layer
本文在该模块的基础上构建了一种视觉显著性检测网络,用于对输入受电弓图像中的功能区域进行定位和进一步检测。 该网络通过构造多尺度层级模块和跨层融合策略实现多尺度的特征表示和特征提取。 可以在有效减少构造网络框架的计算冗余的同时满足检测任务所要求的准确提取和定位。 其网络模型结构示意图如图4 所示。
图4 基于自适应降频卷积的视觉显著性网络结构图Fig.4 Structure diagram of visual saliency network based on adaptive down-frequency convolution
根据模型中的多尺度层级模块输出特征图的分辨率不同,将该网络分为4 个处理阶段。 每阶段多尺度层级模块包含的多尺度卷积层,由一个传统的OctConv 层和2 个3×3 的自适应降频卷积层构成。通过传统的OctConv 层对原始的2 个特征分量进行交互,并通过自适应降频卷积层对多尺度特征进行提取。
此外,为了保证输出高分辨率的处理结果,采用一种跨层融合策略,可对各阶段的多尺度特征进行提取和融合:首先,通过提取网络模型后3 个阶段的多尺度层级模块输出的多尺度特征;接着,通过在阶段处理后设置的1×1 的自适应降频卷积层将3 个阶段输出的多尺度特征作为输入,并进行跨阶段卷积和输出多尺度的特征分量;然后,通过一个1×1 的自适应降频卷积层对多尺度特征进行卷积操作,生成最高分辨率的图像特征;最后,通过标准的1×1 的卷积层根据高分辨率特征输出网络的最终预测和定位结果。
2 实验结果和分析
在本节中,将针对拍摄和采集于实际工程项目中的受电弓图像构建为数据集,并在该数据集上分别进行广泛的定性和定量实验,再通过对实验结果的有效分析对本文方法进行验证。
2.1 数据集
本文的实验数据是拍摄和采集于实际高速铁路动车组列车搭载的受电弓检测图像数据,其中的每张图像都具有完整的像素级分割基础。 研究将基于受电弓图像数据集进行实验,并对本文显著性检测效果进行全面地分析对比,最终得到准确客观的实验结果。
2.2 实验结果分析
本节主要分别从定量和定性角度对本文方法得到的实验结果进行分析和评价。
2.2.1 实验定性分析
针对构建的受电弓图像数据集,首先通过人工标注的方式构建图像序列中逐帧图像的groundtruth。 如图5 所示。 图5 中,分别给出了受电弓图像序列、对应的真值图像和检测方法的实验结果。通过将本文方法的实验结果与其他几种经典的基于显著性检测方法的受电弓定位效果进行直观比较和评测,包括:EDR[15]、BAS[16]、POOLNet[17]。
图5 受电弓目标区域显著性检测结果示意图Fig.5 Schematic diagram of significance detection results of pantograph target region
从实验结果可以看出,本文方法针对受电弓图像数据能实现准确且清晰的受电弓结构功能区域的显著性检测。 由图5 分析可知,文献[15]提出的方法虽然也能获取部分较为清晰的受电弓区域,但可能丢失其他显著性区域。 其次,在列车运动过程中,后帧图像中出现的电线杆会对当前图像的对应区域进行增强。 即便如此,本文方法的结果也仍然明显优于其他算法的定位效果。 文献[16-17]的方法虽然可以提取到受电弓的粗略边缘化区域,但定位结果也产生了大量的无关噪声,从整体而言实验效果上也明显逊色于本文方法。
综合前述分析可知,本文方法能准确、出色地完成受电弓结构区域的显著性检测工作,与其他方法相比,鲁棒性很强,并具有明显优势。
2.2.2 实验定量分析
通过采用视觉注意机制中广泛运用的几种评价指标,对实验结果与真值图进行特定阈值基础上的逐像素比较和计算,最终得到基于像素级的目标区域定位效果的定量描述。 采用的评价指标包括:准确率-召回率曲线、F 曲线、S 度量值、E 度量值、F 度量值、F 权重值[18]、平均绝对误差[19]。 首先,令通过本文方法得到的定位结果为S(S∈[0,1]), 人工标注的真值图为G(G∈{0,1}),则准确率-召回率曲线中参数的计算公式为:
其中,χ(·) 表示计算对应像素的个数,S′(S′∈[0,1]) 表示对定位结果进行阈值分割后的二值化图像。 这里,阈值的选取范围为[0,255]。
图6 给出了多种算法针对受电弓图像中受电弓结构区域进行显著性检测的准确率-召回率曲线、F曲线,Preccsion与recall组成的曲线越靠近右上角说明网络分类效果越好,F曲线与水平轴所围面积越大说明该网络性能越强。
图6 多种显著性检测算法的准确率-召回率、F 曲线示意图Fig.6 Schematic diagram of accuracy, recall rate and F curve of various significance detection algorithms
从图6 的实验结果可以得知,本文方法对受电弓区域进行定位的实验效果要明显优于其他几种显著性测量算法,综上结果表明通过本文方法最终可以得到准确的显著性检测结果。 这里,则对本次研究中需用到的评价指标做阐释分析如下。
(1)S度量值。 表示轨枕裂纹显著图中,背景预测正确与否的程度,其计算公式为:
(2)E度量值。 是精确率与召回率的加权平均值,其计算公式为:
(3)F度量值。 该值的作用在于综合评定定位结果的准确程度,其计算公式为:
其中,λ2为0.3[18],使实验结果的准确率具有更高的权重和参考价值。F权重值由相对应的PR值计算得出,PR值的权重为样本在总样本数中的占比,当计算出精确率后,再以相同方式计算得出召回率,对应的计算公式为:
其中,ω-1,ω0,ω1分别为各个精确率的权重比值[18]。
(4)平均绝对误差。 用来度量检测结果的误差,其计算公式为:
其中,参数W和H用来表示输入待处理轨道扣件图像的长度和宽度,x和y分别表示像素节点在图像中的横纵坐标。 研究中采用上述指标后,运算得到的有关本文算法与其他算法的性能对比结果见表1。
表1 各算法性能对比Tab.1 Performance comparison of various algorithms
由表1 看出,从F权重值看,本文方法相比于EDR、BAS、POOLNet,分别提升了2.1%、2.0%、6.0%。同时,本文MAE值为0.012,验证了相较于其他网络来说,本文方法具有误差较小,精确率高的特点。
综上所述可知,与其它几种算法相比,通过本文方法得到的受电弓结构区域的定位结果要更加精确,定位结果的平均绝对误差均比其他方法要更小,这也进一步说明本文方法针对受电弓图像中目标区域的显著性检测工作在准确性和鲁棒性上,具有更大的优越性。
3 结束语
(1)提出了一种基于自适应降频卷积的网络模型,完成对输入图像中受电弓目标的显著性检测。 采用自适应降频卷积层和OctConv 层共同构成多尺度层级模块,可减少网络的运算冗余以提高运行效率。
(2)构造了一种跨层融合策略。 可以对各阶段的多尺度特征进行提取和融合,获得高分辨率的特征图输出。
(3)通过构建受电弓图像数据集对本文方法进行大量的有效实验验证。 结果表明,本文方法均能获取关于目标区域的准确的显著性检测结果,并与其他算法相比具有明显的优越性和更强的鲁棒性。