改进Faster R-CNN的轨面缺陷检测视频分析方法研究

2021-05-17李海培

铁道标准设计 2021年5期

李海培

(中铁第一勘察设计院集团有限公司,西安 710043)

引言

2020年3月城轨交通协会发布《中国城市轨道交通智慧城轨发展纲要》，其中设立2025年智能基础设施监测/检测覆盖率目标为60%以上，2035年达到85%以上。基于该背景，发展智能轨道状态寿命及维护评估系统势在必行。钢轨表面是轨道最薄弱的环节，容易产生裂纹、鱼鳞破损、擦伤、剥离等缺陷，严重影响行车安全[1]。此外，城轨列车运行高速化和高密度的发展趋势，对钢轨质量和钢轨表面缺陷检测技术的要求也在逐步提高。为此，许多专家学者针对钢轨表面缺陷检测问题进行了大量的研究。

文献[2]结合均值和标准差分布曲线定位轨面区域，选取自适应均值窗口，基于模糊模型对图像进行差分完成缺陷的分割，但该方法容易受到复杂环境和恶劣天气的影响。文献[3]提出了一种非接触式诊断方法，通过激励声波和雷达获取自由轨震荡频率特征识别钢轨缺陷信息。文献[4]通过分析图像的灰度和梯度特征设计出平滑滤波器，根据背景图像和原图像的差分阈值分割结果，由连通区域标记法实现轨面缺陷检测。文献[5]采用高斯-中值滤波对图像进行预处理，结合图像处理技术及卷积神经网络对预处理后图像进行了缺陷检测，但整体检测算法速度慢，耗时长，实用价值较低。文献[6]完成了Faster R-CNN网络对输电线路缺陷识别检测，基于传统的Faster R-CNN网络对缺陷识别的检测时间有待提高。

首先对采集到的图像进行预处理，基于灰度垂直投影法提取钢轨表面区域，根据缺陷图像特点对Faster R-CNN网络进行改进，钢轨表面缺陷检测由特征提取、候选区域生成和分类识别3个子模块共同完成，提出钢轨表面缺陷检测算法整体框架，如图1所示。

图1 钢轨表面缺陷检测算法整体框架

1 基于灰度投影轨面区域提取算法

1.1 钢轨表面图像预处理

为了更好地提取图像特征，并减少一部分后续处理计算量，需要对图像进行预处理，包括图像的灰度化，图像高斯滤波，直方图均衡化3个步骤对钢轨检测原图进行处理[7-9]。图像灰度化采用加权平均值法进行计算。高斯滤波离散化窗口卷积方式，高斯核函数[10]公式为

(1)

式中，σ为高斯分布标准差。

滤波后的图像抑制了噪声的同时，也造成了部分图像细节的丢失，比如轨面缺陷处的边缘细节特征会发生改变等，因此，需要对前一步处理后的图像进行增强。采用直方图均衡化[11]使得处理后的图像成为均匀分布的直方，理想情况下各个灰度值对应的像素点个数相同。采用自适应直方图均衡化，变化方法为

(2)

式中，xi，j为变换前后的像素值，ni，j为像素平均灰度值，H为对xi，j的变换函数，k为权重系数。

1.2 基于灰度投影的钢轨表面定位方法

通过观察采集的大量现场钢轨缺陷检测图像发现，由于材质原因轨面区域和非轨面的线路区域灰度值差异化大，除此，轨检系统摄像机连续移动采集图像中轨面区域和非轨面区域位置相对固定。基于以上两点，采用基于灰度投影的区域定位法[12]。具体算法流程如图2所示。

图2 基于灰度投影的钢轨表面定位法流程

图2中，Fmax为第i列曲线值f(pi)的最大值，图像像素大小为a×b，令图像每列灰度值为I(i，x)，其投影函数为

(3)

计算连续m列投影曲线函数值之和为

(4)

由式(4)可得，当f(p)=Fmax时，该列即为待定位的轨面图像列，投影函数值之和的集合为F={f(1)，f(2)，…，f(i+m-1)}。通过对坐标的裁剪，即可得到轨面区域。

1.3 轨面区域提取结果及分析

在Matlab 2016(a)软件仿真平台中，对上述算法进行仿真，直方图均衡化系数k=0.5。预处理部分结果如图3所示，预处理前后的直方图如图4所示。

图4 预处理前后直方图对比

图3预处理后图像信息量明显减少，且均衡化后图像能增强滤波造成边缘细节模糊的问题。定位前后的钢轨表面图像如图5所示。投影曲线函数值与图像列数的函数曲线如图6所示。

图5 轨面图像定位前后结果

图6 投影曲线结果

由图5、图6可以看出，矩形框标记部分的投影曲线函数值明显高于其他部分，钢轨表面也被完整定位出来，可见本方法具备可行性。

2 Faster R-CNN轨面缺陷检测框架

2.1 Faster R-CNN简介

深度学习通过深层次神经网络自动提取特征，相比传统机器克服了其需要人工设计特征以及复杂环境下算法结果不佳的问题[13-15]。采用Faster R-CNN算法，可以满足缺陷识别对实时性的较高要求。

Faster R-CNN目标检测模型是在R-CNN、Fast R-CNN的基础上改进，通过生成的一种优化目标检测模型，用区域建议生成网络RPN代替了原有传统的Selective Search、edge box等方法，传统的Selective Search等方法生成区域建议需2 s，而RPN网络仅需10 ms，在实时性方面有了大幅度的提升[16-17]。Faster R-CNN网络结构如图7所示。

图7 Faster R-CNN网络结构

具体实施时，Faster R-CNN算法首先利用卷积网络表示高层语义信息的特征图，然后根据RPN网络产生多种不同长宽比的候选区域，选择ROI区域后形成分类回归网络，并根据特征进行识别输出。后面会对各个子网络进行介绍。

2.2 特征提取网络

特征提取网络作为Faster R-CNN的基础网络，用于提取输入图片的语义信息，特征提取的效果会影响到后续一系列操作的结果，对于钢轨表面缺陷识别检测，选择一个合适的基层特征提取网络表现得尤为重要。Faster R-CNN网络最常见的特征提取网络有ZF、VGG16、ResNet三种类型，除全连接层外，各具有5层、13层和15层及以上的特征提取层数。对于小目标检测来说，较浅网络提取的特征图可以包含更多细节特征，更适合于轨面缺陷检测这种小目标定位，故选择ZF网络作为基层特征提取子网络。ZF特征提取网络结构如图8所示。

图8 ZF特征提取网络结构

网络共包含5层卷积层，其中第1、2层均包含了conv、pool、norm及Relu操作，第3～5层均包含conv和Relu操作。

2.3 候选区域生成网络

RPN网络是Faster R-CNN网络中用于提取目标区域建议框的结构，其结构示意如图9所示。通过利用3×3滑窗提取卷积特征得到多个候选区域，并将此特征图分别送入分类和回归层，每个窗口对应x个目标候选区域，参考建议框anchors的长度和比例各不相同，用anchor铺设原图寻找目标的方法计算量小。输入256维向量，输出网络层包括分类层和回归层，前景置信度表示轨面缺陷的概率，位移偏移量为anchors的平移缩放量。

图9 候选区生成网络结构

对分类层中对每一个anchor进行前景置信度的计算，结合非极大抑制思想，以IOU(Intersection over union，简称交并比)作为指标，即模型预测候选框和任意一个标记候选框的交叠率，其计算公式为

(5)

式中，SanchorBox表示预测的候选框；SgroundTruth表示标记候选框。若IOU指标>0.7，则标记可能包含前景物体候选框的正样本，IOU指标<0.3，则标记为非目标物体的负样本。

回归层输出的anchors平移缩放量，用(Δx，Δy，Δw，Δh)分别表示预测边框的中心坐标(x，y)、矩形框宽度w及高度h的偏移量值，根据偏移量值进行区域边框位置回归，其计算公式为

(6)

式中，x、xa、x*分别表示预测边框、锚点、真实区域边框的x坐标，y、w、h同理。

2.4 分类回归网络

分类回归网络输入ZF网络输出的特征图和RPN网络输出的候选区域，输出置信度和修正参数用以修正候选区域，其网络结构如图10所示。

图10 分类回归网络结构

分类回归网络包含一个pool13池化层，fc6、fc7、fc/cls和fc/bbox四个全连接层以及一个softmax层。pool13池化层先将输入的候选区域池化成长度、比例相同的特征图，然后通过fc6、fc7进行特征映射，接着fc/cls、fc/bbox输出各候选区域对应的系数和修正参数，最后由softmax计算系数得到置信度。

3 基于Faster R-CNN网络的分析及改进

Faster R-CNN在通用目标检测领域表现优异，但是由于缺陷部分占图像整体部分比例较小，对小比例目标的检测效果不太理想，会出现误检和漏检情况，结合钢轨表面缺陷检测需求，对Faster R-CNN网络一些关键部分加以改进，提高Faster R-CNN网络对钢轨表面缺陷检测的准确率。主要包括对ZF网络结构的改进(卷积核的选择和基于级联的特征融合策略)，以及对网络训练策略的设计，基于改进后的钢轨表面缺陷检测算法网络结构如图11所示。

图11 改进后的钢轨表面缺陷检测算法网络结构

RPN网络根据提取到的卷积特征图生成缺陷的建议区域，也称为ROI(Region of Interest，感兴趣区域)，如图11中红色框标注部分，然后将ROI区域映射回特征提取网络提取的特征图中，得到不同尺寸特征图，ROI池化对不同尺度特征图采样，生成相同尺寸的特征张量，分类及回归子网根据张量特征进行分类回归。

传统ZF网络采用的卷积核尺寸选择7×7、5×5等具有较大感受野尺寸的卷积核，可以提取深层次的语义信息，其特征图相对分辨率较小，这对于大尺度目标的检测是有效的，但这些深层次分辨率对较小的特征图结果表现不理想，如对象钢轨表面缺陷检测。基于此，针对传统的ZF特征提取网络进行了以下2方面的改进。

(1)卷积核的选择

将ZF中卷积核尺寸由原来7×7的卷积核替换为三层3×3卷积核，原来conv1改进为conv1_1、conv1_2及conv1_3，两层3×3卷积核代替原来5×5的卷积核，这样可以减少参数量和网络规模大小，使网络有更强的非线性映射能力，优化网络性能。

(2)基于级联的特征融合

如图8所示，传统的ZF网络为单层卷积层和池化层的交替使用结构，但Faster R-CNN网络中仅将特征提取网络的最后一层卷积特征图作为后续操作输入，最后一层卷积特征图中每个点都融合了大量的周围信息，所包含细节信息对于检测钢轨表面缺陷是不够的。选择一种基于级联的特征融合策略对单层交替使用的卷积层结构进行改进，融合浅层特征和深层特征，提高网络对小车号区域的定位性能。改进后ZF网络卷积层结构如图12所示。

图12 改进后ZF网络卷积层结构

图12中，每一层卷积层卷积后，图像的尺寸在减小，但是前期卷积神经网络学习的是低维特征，往后学习的是高维特征。因此输出的是小尺寸高维度的特征图。融合cov1_3和cov2_2浅层特征图C1，特征融合一般有元素求和或计算点积2种方式，卷积神经网络得到特征图相当于x深度的二维矩阵。矩阵元素求和或计算点积要求矩阵维度相同，cov1_3层特征图和cov2_2层特征图通道数不同，需将96通道的cov1_3特征图升维成256通道，和cov2_2层进行特征融合。浅层特征C1与cov4层特征图输出的深层次特征需进行融合，其通道数是384，为解决通道数不一致的问题，在与C1特征融合之前，加入一层256通道的反卷积层，将384通道的深层特征降维成256通道的浅层特征，并与C1进行特征融合得到C2，最后与第8卷积层特征融合输出最终结果。

4 实验结果及分析

为了验证改进算法在钢轨表面缺陷检测中的有效性，在显卡为NVIDIA Geforce 920M，显存为12GB的PC机上安装Ubuntu16.04LTS 64位操作系统，使用的网络训练框架为Caffe。

参考路面、桥梁裂纹检测等通用评价标准，比较算法改进的有效性，引入召回率Rec、准确率Acc作为评价标准[18-20]。一般来说，准确率越高召回率就越低，为了均衡准确率和召回率对模型评价造成的影响，设定K为分类精度系数，用以全面客观地评价分类结果，其计算公式为

(7)

4.1 数据集测试实验

实验数据集由西安市轨道交通集团有限公司运营分公司提供，GJ-2型轨检车采集的60 kg/m及50 kg/m型钢轨表面图像数据，总共1 592张图片，包含裂纹、鱼鳞破损、擦伤、剥离以及非缺陷五类图像。为了扩充样本集，采用裁剪、旋转、添加噪声、调节图像明暗度等变换后，总共得到25 472张图片，其中训练集22 000张图片，测试集3 472张钢轨表面缺陷图片。部分样本库图像如图13所示。