基于深度学习的高铁接触网旋转双耳开口销钉缺失故障检测

2020-12-08康高强高仕斌陈健雄

铁道学报 2020年10期

康高强，高仕斌，于龙，陈健雄

(西南交通大学电气工程学院，四川成都 610031)

旋转双耳作为接触网支撑装置的重要组成部分，起到连接定位管和腕臂的作用。由于长期受到受电弓的高速冲击，旋转双耳极易发生开口销钉脱落故障，造成打弓等安全隐患[1]。因此，对旋转双耳进行状态检测，及时排除故障，能够有效提高牵引供电的可靠性。

目前，随着铁路6C系统的投入使用，我国铁路供电装置的检测逐渐向智能化方向发展[2]。6C系统采用基于图像处理的非接触检测方式，实现接触网支撑装置零部件的故障检测。由于支撑装置图像中存在众多零部件，因此需要首先实现目标的精确定位，然后进行故障检测。目前，在接触网零部件故障定位领域，主要采用图像目标的局部特征描述子来解决零部件的定位问题。文献[3]利用SIFT特征点匹配，实现旋转双耳的定位与提取。文献[4]通过匹配标准旋转双耳图像与待检图像的局部不变SURF特征点，实现旋转双耳的定位与识别。文献[5]利用图像的HOG特征和线性SVM分类器来确定旋转双耳的边界框。这些研究取得了较好的效果，但仍存在目标形态、光照、背景等扰动因素造成的定位准确率不高的问题。文献[6-7]基于深度卷积神经网络的目标定位算法，在定位精度和可靠性方面取得了突破性的进展。但这类方法在接触网零部件定位中的研究尚未见有报道。

基于图像的故障检测，主要通过手工设计特征或特征学习来实现。文献[8]进行图像增强，通过提取绝缘子的边缘来判断绝缘子是否破损。文献[9]通过形态学滤波对图像进行预处理，通过免疫遗传算法得到较为完整的绝缘子串轮廓，从而判断绝缘子是否爆裂。文献[5]利用二维Gabor小波变换筛选图像中的边缘信息，实现耳片断裂故障的识别。上述文献基于手工设计特征实现故障检测的方法，设计复杂、可扩展性和鲁棒性较差。文献[10]利用深度网络学习图像的特征，实现异常巡线图像的智能检索。文献[11]采用迁移学习策略，通过预训练的深度网络提取图像的深层特征，实现胸部疾病的智能筛查。文献[12]利用深度学习自适应提取振动信号的频谱特征向量，通过粒子群支持向量机分类器实现齿轮故障诊断。这些研究利用深度神经网络实现图像的特征学习，其特征具有较强的表达能力，有效克服了手工特征的缺点，但均未考虑故障样本较少造成的数据不平衡性及其影响。

本文提出一种基于深度卷积神经网络和集成学习的旋转双耳开口销钉缺失故障检测方法，该方法包含旋转双耳开口销钉定位与开口销钉缺失检测两个过程。其中开口销钉定位分两步完成：首先通过Faster R-CNN网络对旋转双耳整体进行精确定位，然后在整体定位结果的基础上，再次使用Faster R-CNN算法进一步完成对双耳开口销钉的精确定位，突出开口销钉特征，最大程度降低背景对状态识别的干扰。而开口销钉缺失检测过程，则通过多个深度特征提取器提取开口销钉图像的多种特征，由多个SVM弱分类器构成的集成分类器实现故障检测。

1 基于深度学习的开口销钉定位

旋转双耳开口销钉定位方法包含两个卷积神经网络：区域推荐网络RPN(Regional Proposal Network)和Fast RCNN目标识别网络[7]，如图1所示。RPN和Fast RCNN共享卷积层，将整幅图像输入深度卷积网络得到图像的特征图谱，通过RPN产生一组可能存在待检目标的矩形推荐区域；把获取的推荐区域馈送到Fast RCNN的ROI(Region of Interest)池化层，ROI池化层将任何有效区域内的特征转换为固定长度的特征向量；通过全连接层实现目标识别定位。

图1 基于Faster-RCNN的目标定位架构

1.1 区域推荐网络RPN

推荐区域的质量和数量直接影响目标识别的精度和速度。基于图像底层特征的区域推荐方法，如Selective Search[13]和Edge Boxes[14]等，运算速度较慢而且推荐的区域较多。RPN使用卷积网络直接产生推荐区域，获得了更高的召回率，推荐了数量更少的矩形区域，有效提高了检测的精度和速度。RPN是一个全卷积网络，它以图像作为输入，使用卷积网络直接产生可能包含待检目标的推荐区域。

如图2所示，RPN网络通过一个3×3的空间窗口在共享卷积层的特征图谱上滑动，将每个窗口内的卷积特征映射为较低维度的特征。低维特征被馈送至两个全连接层，分别输出推荐区域边界框的位置和该边界框中包含目标的信度。上述结构分别通过一个3×3的卷积层和两个1×1卷积层实现。为了实现检测的平移不变性和多尺度性，RPN网络设计了锚定机制：在每个滑动窗口的位置，产生尺度和长宽比不同的k个锚框，同时输出k个锚框的坐标和边界框中包含目标的信度。

图2 RPN网络结构

为了训练RPN，首先标定训练样本，给出图像中待检目标的边界框坐标(用4维向量表示)。根据每个锚框是否包含待检目标，为其分配一个二分类标签。与某一个真实目标框交叉重叠率最大的锚框或与任意一个真实目标框交叉重叠率大于0.7的锚框，被分配正标签。而与任一真实目标框交叉重叠率都小于0.3的锚框，则被分配负标签。根据上述标签和待检目标的真实边界框坐标，可以定义如下多目标损失函数。

( 1 )

Lreg的定义为

( 2 )

式中：

( 3 )

Lcls的定义为

( 4 )

以损失函数式( 1 )最小化为优化目标，采用随机梯度下降优化方法，通过反向传播即可完成RPN网络的训练。训练完成后，输入待检图像，RPN即可输出可能包含待检目标的推荐区域。

1.2 Fast RCNN目标识别网络

Fast R-CNN网络将整幅图像和RPN输出的推荐区域作为输入，分别输出检测到的目标的种类和位置[6]，如图1所示。通过共享卷积神经网络处理整个图像，以产生特征图；对于每个推荐区域，利用ROI池化层将任何有效感兴趣区域内的特征转换为固定长度的特征向量；通过全连接层实现目标识别。

由于RPN产生多种大小和形状不同的推荐区域，如果用普通的卷积层在推荐区域内直接提取特征，则特征的维度各不相同，无法设计后续网络。ROI池化层使用最大池化的方法，将任何有效推荐区域内的特征转换为7×7的固定空间范围的小特征图。这样ROI池化层为每个推荐区域提取了固定长度特征向量，这些特征向量被馈送到全连接层，然后被同时送到两个输出层：一个给出目标属于各类别的概率估计，另一个给出目标边界框的坐标。结合这两个输出，即可确定检测所得目标的种类和位置，完成目标识别。

为了训练Fast RCNN目标识别网络，根据RPN输出的推荐区域，以及已标定的训练样本中待检目标的类别和边界框坐标，生成每个推荐区域的真实类别和边界框坐标标签。结合Fast R-CNN检测输出目标的种类以及边界框坐标，可以定义如下多目标损失函数。该目标函数包括分类损失和回归损失两部分。

L(p,u,tu,v)=Lcls1(p,u)+λ[u≥1]Lloc(tu,v)

( 5 )

式中：p=(p0,…,pk)为预测的推荐区域属于各类别的离散概率分布，k为待识别目标的类别数，0表示背景类；u为推荐区域所属的真实类别；tu为目标坐标向量的预测值；v为目标坐标向量的真实值；λ为平衡权重；Lcls1和Lloc分别为分类损失和回归损失。Lcls1和Lloc的定义如下

Lcls1(p,u)=-lgpu

( 6 )

( 7 )

其中

( 8 )

采用随机梯度下降优化方法，以损失函数式( 5 )最小化为优化目标，通过反向传播即可完成Fast R-CNN的训练。训练完成后，输入待检图像和RPN产生的推荐区域，Fast R-CNN即可完成目标检测任务。

1.3 基于Faster R-CNN的旋转双耳开口销钉定位

为了使用Faster R-CNN进行接触网零部件定位，需要对其进行训练。如图1所示，Faster R-CNN采用深层卷积网络提取图像的特征，为了提高检测速度，RPN和Fast R-CNN共享这些卷积层。RPN和Fast R-CNN可以作为两个网络分别进行单独训练，这样他们将以不同的方式改变共享卷积层。另外，RPN和Fast R-CNN作为深层网络，如果随机初始化网络参数，并从头开始训练，将需要较大的数据集。在一个大规模的辅助数据集上进行监督预训练，在小数据集上进行特异性微调训练，是数据集较小时学习大规模CNN的有效方法[7]。因此，本文利用在ImageNet预训练的模型参数初始化共享卷积层，利用已标定的旋转双耳数据集交替训练RPN和Fast R-CNN，完成旋转双耳的Faster R-CNN定位网络模型。具体步骤如下：

Step1使用在ImageNet上预训练的模型初始化RPN，使用旋转双耳数据集微调RPN网络。

Step2使用在ImageNet上预训练的模型初始化Fast R-CNN，并使用Step1中训练的RPN提取旋转双耳的推荐区域，训练Fast R-CNN网络。

Step3使用Step2得到的Fast R-CNN模型重新初始化RPN，并固定共享卷积层，使用旋转双耳数据集对RPN进行再次微调。

Step4固定Step2中Fast R-CNN模型的共享卷积层，使用Step3得到的RPN提取旋转双耳的推荐区域，对Fast R-CNN进行再次微调。

经过以上4个步骤的训练，两个网络共享相同的卷积层，并形成统一的Faster R-CNN网络，即可实现旋转双耳的定位。

利用上述训练过程得到的旋转双耳定位网络对旋转双耳进行定位，产生旋转双耳图像数据集，对其进行标定。

产生旋转双耳开口销钉定位网络的训练集，使用同样的四步训练方法得到开口销钉的Faster R-CNN定位网络。综合使用这两个Faster R-CNN网络，即可实现旋转双耳开口销钉定位。

2 旋转双耳开口销钉缺失检测

完成开口销钉的精确定位后，有效去除了图像中其他部分的干扰，使图像的特征更加突出，为故障检测奠定了基础。由于拍摄环境复杂，拍摄角度和开口销钉形状、方向的多样性，使得人工提取图像的可靠特征较为困难，造成检测结果的不可靠。为提高检测结果的可靠性，本文设计了一种基于深度卷积神经网络和线性SVM的集成分类器，用于旋转双耳开口销钉的状态识别，如图3所示。该分类器主要包含两个部分：深度特征提取器和集成分类器。

图3 集成分类器结构

2.1 旋转双耳开口销钉图像特征提取

目前图像特征提取方法主要分为基于手工设计的方法和基于特征学习的方法。常用的手工设计特征有HOG、SIFT和SURF等。近年来，深度学习得到了快速发展，尤其是深度卷积神经网络在图像分类和目标识别等任务上，取得了较好的成绩，并且大大提高了效率。因此，本文采用这一方法，将其作为特征提取器应用于开口销钉缺失故障识别。

在深度卷积神经网络中，大多数神经元只与附近的神经元连接，而且进行权值共享，这极大地减少了网络参数，提高训练速度。如图4所示，深度卷积网络中主要有3种结构：卷积层、池化层和全连接层。

图4 卷积神经网络结构

在卷积层中，输入数据与线性滤波器进行卷积后，通过非线性激活函数获得特征图，每层特征图包含一种特征并共享相同的参数，而不同的特征图使用不同的参数来提取不同的特征，卷积公式为

( 9 )

池化层对特征图进行下采样，降低特征图和网络参数的维度，使特征更易于后续处理，并在一定程度上减轻过拟合现象。池化公式为

(10)

全连接层与传统神经网络类似，该层中每个神经元与所有的输入相连。

深层卷积神经网络具有较强的图像特征提取能力，但训练深层网络需要大量的数据，由于接触网图像中故障样本相对较少，不足以训练大型网络。针对这一问题，采用迁移学习的策略[15]，采用预先训练的深度网络模型，将其作为接触网数据集的特征提取器。这些模型在规模很大的数据集ImageNet上进行了训练，以其强大的特征提取能力，近年来对图像处理领域产生了深远的影响[16-19]。通过不同的卷积神经网络，提取接触网图像的不同特征，可以从不同的方面对图像进行综合分析，进而得到更加可靠的检测结果。

2.2 基于集成学习的旋转双耳开口销钉缺失检测

在接触网数据集中，故障样本相对于正常样本较少，如果直接利用这些数据进行分类器设计，将会存在严重的过拟合问题。集成学习作为解决这一问题的有效方法，在诸多领域得到了广泛应用[20-21]。根据不同深度卷积网络提取的不同特征，分别训练弱分类器，然后按一定的规则将这些弱分类器的结果进行融合，从而获取更好的分类性能。

如图3所示，本文设计的集成分类器由多个线性SVM弱分类器通过加权投票构成，其中，每个弱分类器的加权投票系数，是根据线性SVM弱分类器在验证集的表现计算产生的，为可靠性高的弱分类器赋予更高权值，从而提高集成分类器的可靠性。集成分类器的具体实现过程如下：

(1)集成分类器的训练过程

将数据集分为三部分：训练集TR，验证集V和测试集TE。TR用于训练弱分类器，V用于计算线性SVM弱分类器的投票系数，TE用于评价分类器的性能；利用k个深度卷积网络，分别提取TR、V和TE的特征，并生成相应的特征训练集FTR，特征验证集FV和特征测试集FTE；根据特征训练集FTR中的每类特征，分别训练线性SVM分类器Mj；最后，根据训练得到的线性SVM弱分类器Mj在特征验证集FV上的表现，计算Mj的投票权重wj。

(11)

(12)

(13)

(14)

式中：P为精确率；R为召回率；TP为故障样本被预测为故障样本的数目；FP为正常样本被预测为故障样本的数目；FN为故障样本被预测为正常样本的数目。

(2)集成分类器的预测过程

针对每个测试样本，根据线性SVM弱分类器Mj给出的预测结果Lj和该弱分类器的投票权重wj，进行加权投票给出分类预测结果CLi，即

(15)

式中：k为弱分类器数，等于深度特征种类数。根据集成分类器的预测结果CLi，即可判定开口销钉是否缺失。

3 实验

3.1 定位实验

为了验证基于Faster R-CNN的定位算法的有效性，从接触网图像库中，选取旋转双耳图像4 000张，从中随机分出2 000张作为训练集和2 000张作为测试集，进行旋转双耳和开口销钉定位实验。选择VGG16网络的卷积层作为Faster RCNN目标识别算法的共享卷积层，算法运行的硬件环境为Intel Core i7-7600和NVDIA GTX1070，软件环境为Caffe和Python。旋转双耳和开口销钉的部分定位结果如图5所示。

图5 定位效果图

图5(a)为旋转双耳整体定位效果，在旋转双耳方向、倾斜角度不同，以及图像中存在多个旋转双耳时，该算法均实现有效定位。在完成旋转双耳整体定位后，根据定位结果，进一步完成开口销钉定位，定位结果如图5(b)所示，在开口销钉方向、形状不同以及开口销钉缺失的情况下，均能实现开口销钉的有效定位。

为了进一步验证基于Faster R-CNN的定位算法的性能，本文将该算法分别与线性SVM结合HOG特征和线性SVM结合SIFT特征的多尺度滑动窗口定位方法进行了对比实验。实验中，当定位识别框与真实目标框的重叠率在90%以上时，则认为定位成功，否则认为定位失败。3种方法的定位结果见表1。

表1 不同定位方法实验结果

基于Faster R-CNN的定位算法，对旋转双耳整体定位成功率达到了99%以上，开口销钉的定位成功率达到了98%以上，相比于SVM+HOG和SVM+SIFT方法，在定位成功率上有大幅度提升。因此，基于Faster RCNN的定位算法具有更强的适应性和稳定性，能够实现旋转双耳开口销钉的高精度定位。

3.2 开口销钉缺失故障检测实验

通过开口销钉定位实验，获得上、下开口销钉图像各2 136、2 245张(其中包含上、下开口销钉缺失图像各265、236张)用于开口销钉缺失检测实验。本文采用交叉验证的方法来验证故障检测方法的有效性，分别对上、下开口销钉各进行3次故障检测实验，用3次预测结果的平均值来衡量检测方法的性能。在3次验证实验中，训练集、验证集和测试集分别占总数据集的1/2、1/6和1/3。在实际检测过程中，期望检测结果同时具有较低的漏检率和合理的误检率，也即要求分类器具有较高的召回率和F1得分，因此采用这两项指标来综合评价分类器的性能。在实验中，提取图像的HOG和SIFT两种手工特征，利用VGG16[16]、CaffeNet[17]、GoogleNet[18]和ResNet50[19]提取图像的4种深度特征，其中深度特征为深度网络的第一个全连接层提取的特征向量。利用这些特征，分别训练单分类器和集成分类器用于故障检测。不同检测方法对上、下开口销钉缺失故障的检测结果见表2。

表2 开口销钉缺失故障检测实验结果

从实验结果可以看出，在上开口销钉缺失检测中，基于手工特征的分类器，最高召回率为0.82，最高F1得分为0.84；基于深度特征的单个分类器，最低召回率为0.90，最低F1得分为0.91；集成分类器的召回率为0.95，F1得分为0.96。在下开口销钉缺失检测中，基于手工特征的分类器，最高召回率为0.86，最高F1得分为0.87；基于深度特征的单个分类器，最低召回率为0.90，最低F1得分为0.91；集成分类器的召回率为0.97，F1得分为0.97。在两种开口销钉缺失的检测过程中，集成分类器都取得了较高的召回率和F1得分。

综合以上结果可知，虽然ImageNet数据集与接触网数据集差别较大，预训练深度网络模型仍能有效提取接触网图像的特征，用于开口销钉缺失故障检测。利用不同的深度网络提取图像的不同特征，并将多个弱分类器进行集成，能够有效提高分类器的召回率和F1得分。因此，本文提出的基于图像深度特征和集成学习的识别方法，能够有效检测旋转双耳开口销钉缺失故障。

4 结束语

本文对高速铁路接触网支撑装置中旋转双耳开口销钉缺失故障检测问题，进行深入研究，提出一种基于深度卷积神经网络和集成学习的故障检测方法。该方法利用Faster R-CNN网络实现了对高铁接触网旋转双耳开口销钉的高精度定位，通过多个预训练的深度卷积神经网络提取开口销钉图像的多种特征，最终由多个SVM弱分类器构成的集成分类器实现故障检测。实验结果表明，本文方法能在复杂的接触网支撑装置图像中实现旋转双耳开口销钉的精确定位，并能以较高的可靠性完成开口销钉缺失故障检测，具有较高的工程应用价值。