基于多层级特征融合的钢轨表面伤损检测方法
2021-10-19刘俊博冯其波王胜春
韩 强,刘俊博,冯其波,王胜春,戴 鹏
(1. 北京交通大学 理学院,北京 100081;2. 中国铁道科学研究院集团有限公司 基础设施检测研究所,北京 100081)
钢轨是铁路轨道的重要组成部件,钢轨病害严重威胁列车运行安全。近年来,随着我国铁路运输高速化和重载化的程度不断提升,线路托运量越来越大,钢轨病害问题也进入高发期。研究高效、精确的铁路钢轨病害检测方法,提升铁路养护部门维修保养水平,是保障铁路运输安全的重要手段。
目前,基于机器视觉的自动化检测方法在多种铁路基础设施的外观状态检测中均有应用,如轨道塞钉检测[1]、接触网检测[2]、钢轨扣件检测[3-5]和钢轨表面伤损检测[6-10]等。其中,钢轨表面伤损检测方法可根据训练方式分为监督式方法和非监督式方法。监督式方法的应用:MOLODOVA 等人[7]提出利用光谱特征(Spectral Features, SF)表示伤损区域的特征,再利用滑动窗口法和K-近邻(K-Nearest Neighbor,KNN)算法识别钢轨表面伤损区域;DUBEY 等人[8]提取钢轨的最大稳定极值区域(Maximally Stable Extremal Regions,MSER) 作为伤损特征,通过训练支撑向量机(Support Vector Machine,SVM)识别该区域是否伤损。非监督式方法的应用:LI 等人[9]先对原始钢轨图像执行局部归一化(Local Normalization,LN),再利用轮廓投影(Projection Profile,PP)方法识别钢轨损伤区域;此外,他们还尝试使用迈克尔逊对比度(Michelson-Like Contrast,MLC)[10]增强原始钢轨图像中背景和伤损区域的对比度,然后采用比例强调最大熵(Proportion Emphasized Maximum Entropy,PEME)方法识别钢轨损伤区域。然而,铁路沿线自然环境复杂,钢轨表面伤损区域的大小、形态各异,上述方法依赖图像局部纹理特征,轨道环境、图像噪声以及光照强度都会对实际检测结果产生影响。
得益于深度卷积神经网络(Deep Convolutional Neural Network,DCNN) 强大的特征表示能力,使各类目标检测任务取得一系列突破性的成果,且Faster-RCNN[11],SSD[12]和YOLO[13]等具有代表性的网络模型在铁路基础设施病害检测领域也得到一定的应用。与传统计算机视觉检测方法相比,采用大量样本训练的DCNN 模型,可以自动地学习目标对象潜在的特征模式,从而大幅地提高模型的准确性。然而,在钢轨表面伤损检测任务中,现有的基于DCNN 的目标检测方法还存在以下2方面问题亟待解决。
(1)基于DCNN 模型的目标检测方法通常分为目标定位和目标分类两个模块,每个模块的训练过程都必须依赖充足的标签样本数据,但现实中有伤损的钢轨图像非常稀缺,无法手动收集和标注足够的训练样本。
(2)现有基于DCNN 模型的目标检测方法是针对自然场景目标所设计,对小面积目标对象的定位精度不足,对于小面积的钢轨表面伤损区域会发生漏检现象。
本文提出一种基于多层级特征融合的钢轨表面伤损检测方法,并在60 kg·m-1和75 kg·m-12种不同类型的钢轨表面伤损数据集上进行试验验证。
1 钢轨表面伤损检测方法
基于多层级特征融合的钢轨表面伤损检测方法整体流程如图1所示。首先,以检测车为平台,使用轨道图像采集系统采集图像;然后,提出一种钢轨表面伤损数据集构建方法,设计图像预处理方法和随机组合策略,基于有限的有伤损钢轨图像生成大批量的训练样本图像;最后,提出一种基于多层级特征融合的钢轨表面伤损检测网络,该网络能够融合多个层次不同感受野的图像特征进行目标检测,有利于提升小目标对象的定位精度和分类识别准确率。
图1 基于多层级特征融合的钢轨表面伤损检测方法整体流程
1.1 轨道图像采集
安装于检测车底部的轨道图像采集系统能够在高速运行的状态下动态地采集到清晰、完整的轨道图像。系统的硬件配置如图2 所示,包括线扫描相机组、LED 照明光源组、光电编码器及供电、控制和数据传输设备。其中,线扫描相机组集成了6台DALSA 工业线扫描相机,最大像素为1 024,支持35 kHz的扫描频率。
图2 轨道图像采集系统硬件配置
线扫描相机位置分布如图3 所示。其中,1#和3#相机负责获取左轨2 侧的侧面图像数据,而4#和6#相机负责获取右轨2 侧的侧面图像数据,这些侧面图像可用于识别钢轨塞钉、侧面裂纹、鱼尾板故障以及异常焊缝;2#和5#相机分别架设在左右轨的正上方,负责获取钢轨表面、钢轨扣件以及轨道板等设施的正面图像,对其进行异常状态识别。按照1.6 mm的行采样间隔设置光电编码器的脉冲频率,以控制触发线扫描相机快门,实现无重复的轨道图像采集,检测车速度可达160 km·h-1。
图3 轨道图像采集系统线扫描相机位置分布
此外,在长时间检测过程中,轨道成像的光照条件不可避免地会发生变化,如云雾雨雪天气或进入山区、隧道等特殊地形。为了降低这些因素对轨道图像采集质量的影响,系统配备了2 组LED 光源,提供均匀明亮的成像环境。系统采集的多幅轨道图像如图4所示。
图4 轨道图像采集系统拍摄的轨道图像
1.2 钢轨表面伤损数据集构建
基于轨道图像采集系统采集的轨道图像,利用有限数量的伤损钢轨图像构建钢轨表面伤损数据集的构建过程包括钢轨图像预处理和随机组合策略2部分,为训练钢轨表面伤损检测网络提供大量的训练数据。
1)钢轨图像预处理
轨道图像是利用检测车底部的高速线扫描相机动态采集获得,钢轨及其扣件、轨道基础设施是图像采集的主要目标对象,为降低不相干目标对检测结果的影响,首先需要从原始轨道图像中分割出钢轨区域。
对每一帧轨道图像,钢轨区域具有固定的长度和宽度,且必定垂直于图像的X轴。其中,长度等于轨道图像的高度,为840 像素,宽度W需要根据钢轨类型选取,对于60 kg·m-1钢轨W为60 像素,对于75 kg·m-1钢轨,W为65 像素。为分割提取出钢轨区域图像首先利用直线段检测(Line Segment Detector,LSD)算法[14]找出轨道图像中所有的直线段;然后,两两计算垂直于图像X轴直线段的间距,若间距小于θ,则进行合并;最后,找到间距在[W-γ,W+γ]区间的2 条最长直线视为钢轨区域两侧边界。θ和γ为人工选取的经验阈值,需要根据相机距离轨面的高度和角度调整。本文系统中,θ为2像素,γ为5像素。
钢轨表面中间区域与车轮踏面接触最频繁,因此钢轨表面较为光滑,在图像中灰度值较高。钢轨边缘区域存在锈迹和污物,在图像中灰度值较低;伤损区域由于凹陷,在图像中灰度值也较低。因此,在钢轨图像预处理时可以进一步增大伤损区域与正常区域的灰度值差异。
首先,将钢轨图像中每个像素p的灰度值Ip进行对数变换,减小各像素的灰度差异,计算式为
式中:I′p为对数变换后的灰度值。
然后,将灰度值变换后的钢轨图像进行z-Score 标准化,进一步增加伤损区域与正常区域的灰度值差异,计算式为
式中:z为每个像素的灰度值归一化后的值;μ为所有像素的灰度平均值;σ为灰度标准差。
最后,将每个像素的z值归一化到[0,255]像素区间。
钢轨图像预处理前后对比如图5 所示,从图中可见,钢轨图像预处理方法能够显著减小正常区域的灰度值差异,加大伤损区域与正常区域的灰度值差异。
图5 钢轨图像预处理前后对比
2)随机组合策略
采用随机组合策略,能够从有限数量的人工标注的钢轨图像中生成大量的训练样本图像,如图6所示,每张训练样本图像由随机抽取的T张钢轨图像组成,包含不同的钢轨区域类型,从而解决训练样本数量和多样性不足的问题。
图6 训练样本图像
随机组合策略共包含以下5个步骤。
步骤1:钢轨图像类型“正常、掉块、擦伤、塌陷、异物”分别以数字“0,1,2,3,4”来表示,再根据类型进行排序。
步骤2:统计以上类型的钢轨图像的数量,分别为N0,N1,N2,N3和N4,其中,“正常”类型钢轨图像数量N0应为最大值。
步骤3:为每种类型钢轨图像创建一个长度为T×N0的有编号图像列表,并乱序排列。T为1幅训练样本图像中钢轨图像的数量,对于60 kg·m-1钢轨,T=14,对于75 kg·m-1钢轨,T=13。
步骤4:循环读取每种类型图像列表中的编号i,使用i与此类型的图像数量取余得到索引值,然后根据索引值找到对应的钢轨图像,并随机的进行垂直翻转、水平翻转、添加高斯噪声等操作,最后将处理后的钢轨图像添加到此类型的图像列表中。
步骤5:将所有类型的图像列表合并,并乱序排列,每次读取T幅钢轨图像横向拼接为1 幅训练样本图像,共获得5×N0幅训练样本图像。
1.3 钢轨表面伤损检测网络
目前,基于DCNN 模型的目标检测方法中,采用非极大值抑制(Non-Maximum Suppression,NMS)算法用于从大量边界框中筛选最优的目标对象边界框。然而,不同层级的特征图中,浅层特征图感受野小,细节信息较为丰富,边界框定位较为精准,但浅层特征图缺乏高级语义信息,导致预测的分类概率较低;深层特征图感受野较大,含丰富的高级语义信息,预测的边界框分类概率较高,但由于细节信息的缺失,导致边界框定位不精确。因此,NMS 算法的筛选结果会偏向于分类概率值高但定位不精确的边界框。
本文提出一种基于多层级特征融合的钢轨表面伤损检测网络,该网络首先提取多个层级不同感受野的图像特征,然后进行跨通道特征融合,最后进行目标定位和目标分类。
1)网络架构
基于多层级特征融合的钢轨表面伤损检测网络架构如图7 所示,包括图像输入层、6 级特征提取层、3 种目标检测器和检测结果输出层,共使用55个卷积层和5个最大池化层。
图7中,Conv为卷积层,其尺寸中,前2个维度表示卷积核的窗口大小,单位为像素,第3个维度表示卷积核的通道数量,单位为个。C为目标检测器中最后一个卷积层的通道数量,与预测的类别总数相关,即
式中:M为钢轨表面伤损的类别数量;4 为边界框偏移量的数量;6为基准定位框的种类数量。
图7 基于多层级特征融合的钢轨表面伤损检测网络架构
6级特征提取层中,第1级包含1个尺寸为3×3×32(前2 个维度表示卷积核的窗口大小,单位为像素,第3 个维度表示卷积核的通道数量,单位为个)的卷积层;第2 级包含2 个尺寸为1×1×64 的卷积层和1 个尺寸为3×3×32 的卷积层;第3 级包含2 个尺寸为1×1×128 的卷积层和2 个尺寸为3×3×64 的卷积层;第4 级包含2 个尺寸为1×1×256 的卷积层和8 个尺寸为3×3×128 的卷积层;第5 级包含2 个尺寸为1×1×512 的卷积层和8 个尺寸为3×3×256 的卷积层;第6 级包含2个尺寸为1×1×1 024的卷积层和4个尺寸为3×3×512 的卷积层。每个卷积层的步长均为1,每级特征提取层之间使用1 个窗口大小为2×2,步长为2 的最大池化层做降采样操作。构造批量归一化层(Batch Normalization Layer)[15],并将其附加在每个卷积层之后,可以有效防止过拟合现象。为了进一步加快网络收敛速度,激活函数可选用泄露修正线性单元(Leaky Rectified Linear Unit)[16]。
目标检测器在多层级特征图上根据预设的长宽比和尺度生成6种不同大小的基准定位框,每个基准定位框d使用四元组(dx,dy,dw,dh)来表示,其中,(dx,dy)表示基准定位框的中心点坐标,(dw,dh)表示基准定位框的宽和高。基准定位框与真实标注框用于回归学习边界框的4 个偏移量(px,py,pw,ph)。基准定位框的数量与待检测图像的尺寸正相关,图像尺寸越大,产生的基准定位框数量越多。然而,钢轨伤损区域真实标注框的数量是固定的,导致产生的基准定位框中,有伤损和非伤损的基准定位框的数量不平衡。因此,将与真实标注框的交并比(Intersection over Union,IoU)值大于0.7 的基准定位框标注为有伤损,并分配钢轨伤损类型标签,再根据1:3 的比例挑选非伤损基准定位框,并分配正常区域标签。
钢轨表面伤损检测网络工作时包含以下5 个步骤。
步骤1:将待检测图像缩放至320像素×320像素。
步骤2:融合多层级特征图。具体来说,将第5和第6级特征图进行2倍上采样,再依次与第4和第5 级特征图级联,得到3 种融合不同感受野的特征图,以丰富浅层特征图的高级语义信息。
步骤3:设置基准定位框。先对3 种不同感受野的特征图设置不同的尺度因子S=(0.3,0.6,0.9),再设置5 种不同的长宽比ar=(1,2,3,1/2,1/3),当ar=1 时,额外指定1 个较大的尺度因子然后,根据下式计算特征图中基准定位框的宽度和高度为
式中:k∈[1,2,3],表示3种感受野的特征图。
由此,特征图中每个位置可得到6 种基准定位框,其中心坐标为该位置对应到原图的中心坐标。
步骤4:预测边界框偏移量和分类特征向量。3 种目标检测器分别接受3 种不同感受野的特征图输入,先经过6 层卷积的跨通道特征融合和降维,再利用最后1 层卷积层预测基准定位框的偏移量,并计算该定位框的分类特征向量。
步骤5:测试阶段,预测的边界框偏移量和分类特征向量分别用于计算候选边界框以及对应的分类概率值,再采用NMS 算法筛选出最优的边界框,作为最终的钢轨伤损检测结果。
2)目标损失函数
为实现端到端的模型训练过程,网络模型的目标损失函数定义为
式中:Lloc为边界框定位损失函数;Lcls为边界框分类损失函数;λ为平衡系数,用于调节网络模型对边界框定位精度的敏感程度。
边界框分类属于多类别分类问题,采用经典的交叉熵损失函数进行计算,其定义为
式中:N为基准定位框总数;xi表示第i个基准定位框的分类特征向量;yi为第i个基准定位框的类别标签;Wyi为第yi个类别的权重参数向量;Wj为第j个类别的权重参数向量;byi为第yi个类别的偏置项;bj为第j个类别的偏置项;α为正则惩罚项系数。
边界框定位损失函数Lloc的计算方式为
其中,
式中:G为真实标注的钢轨伤损区域边界框数量;δil的取值为0 或1,表示基准定位框di与真实标注框gl的IoU 值是否大于0.7;p*i为模型预测的边界框偏移量;分别为基准定位框di与真实标注框gl的左上角x,y坐标和宽高w,h的真实偏移量。
2 试验验证
采用所提方法构建2 个不同钢轨类型的钢轨表面伤损数据集,在此数据集基础上,采用对比验证的方式证明所提方法的有效性。训练和测试网络模型的计算服务器采用2 颗Intel E5-2640v4 型CPU和1块NVIDIA RTX 2080Ti型GPU计算卡。
1)钢轨表面伤损数据集
为评估所提方法在不同类型钢轨上的检测性能,分别从60 kg·m-1和75 kg·m-1的轨道图像中提取钢轨区域图像,并人工标注伤损区域位置和类别,各类型钢轨图像数量详细信息见表1。从表可见:采用提出的钢轨表面伤损数据集构建方法,共获得60 kg·m-1钢轨的样本图像137 185 幅,75 kg·m-1的134 835幅。
表1 钢轨表面伤损检测试验数据详细信息
2)钢轨表面伤损检测对比试验
采用精确率(Precision)、召回率(Recall)和F1 分数这3 个指标评价钢轨表面伤损检测网络的检测性能,采用每秒检测图片帧数(Frames Per Second,FPS)评价钢轨表面伤损检测网络的检测速度。选取2 种传统计算机视觉的方法和5 种基于DCNN 模型的方法进行对比试验。对比方法中,MSER+SVM[8]是一种有监督学习的钢轨表面伤损检测方法,MLC+PEME[10]是一种无监督学习的钢轨表面伤损检测方法;Faster-RCNN[11],SSD[12], YOLOv3[13], EfficientDet[17]和YOLOv5 是目前最流行的5 种基于DCNN 模型的目标检测方法。MSER+SVM 和MLC+PEME 方法是直接使用原始钢轨图像数据进行训练和测试,Faster-RCNN,SSD,YOLOv3,EfficientDet 和YOLOv5 方法是使用构建的钢轨表面伤损数据集进行训练和测试。需要注意的是,EfficientDet 和YOLOv5 方法中部分图像增强方法仅对彩色RGB图像有效,本文钢轨图像是灰度图像,因此,模型训练阶段未使用部分图像增强方法。
以9∶1 的比例将样本图像分为训练集和测试集,用于训练网络模型和测试网络模型性能。训练阶段,模型一次性输入128 幅样本图像,各层网络的学习率初始化为0.015,最大训练时期为60 轮。模型采用随机梯度下降法进行优化,每学习20 轮,各层网络的学习率会下降10倍,动量为0.9。计算损失值时,平衡因子设置为0.5,正则惩罚项系数设置为5×10-4。
此外,为使网络模型学习更丰富的多尺度图像特征,每训练10 轮,对样本图像的分辨率进行重新调整。样本图像的分辨率选取8 的倍数,取值范围是[320,608]。
每轮训练开始前,从训练集中随机抽取1/10的样本图像作为验证集。完成所有训练时期后,在验证集上取得最优性能的网络参数作为最终模型,并使用测试集进行测试,对比试验结果见表2,其中IoU阈值设置为0.5。
由于钢轨表面伤损检测任务涉及铁路运输安全,评价指标中,召回率和F1 分数更能评价检测系统的可用性。由表2 可见:本文方法在2 种类型钢轨的测试集上,召回率和F1 分数两种指标均取得最优,充分证明了本文方法的可用性;得益于DCNN 强大的学习能力,本文方法的性能大幅超越MSER+SVM 和MLC+PEME 方法;与Faster-RCNN,SSD 和YOLOv3 方法相比,本文方法不仅在检测性能上有一定提升,检测速度也快于3种经典的目标检测方法,能够满足钢轨表面伤损检测任务的需求;EfficientDet[17]和YOLOv5 均是利用多层级的图像特征进行目标检测,达到提升小目标检测性能的目的,在各种计算机视觉目标检测挑战赛上取得了很好的成绩,充分说明了多层级图像特征融合对目标检测任务的有效性。
表2 钢轨表面伤损检测方法对比试验结果
在钢轨表面伤损检测试验中,本文方法的检测性能虽优于EfficientDet[17]和YOLOv5的简化版方法,但检测速度较慢;EfficientDet[17]和YOLOv5的性能版方法仅在检测精确率上略占优势,但本文方法的召回率、F1 分数和FPS 都达到了最优。对比试验结果说明,本文方法更适用于执行钢轨表面伤损检测任务。
3 结 语
基于特征融合的思路,提出了一种基于多层级特征融合的深度网络模型用于检测钢轨表面伤损。首先,积累有限的钢轨图像构建大规模钢轨表面伤损数据集,解决了钢轨伤损检测网络训练样本数量不足的问题;然后,提出一种基于多层级特征融合的钢轨表面伤损检测网络,融合多个层级不同感受野的图像特征进行目标检测,不仅能够提升检测结果的准确性,还可以降低对小面积伤损区域的漏检率。与现有方法进行对比试验,结果表明,该方法在2种数据集上均取得最优的检测性能。
本文方法能够提升钢轨表面伤损检测的精度,实现了端到端的钢轨表面伤损检测,解决了现有技术存在的问题,也为其他同类型检测任务提供可借鉴的技术方案思路。
未来,将在实际检测任务中继续收集和标注不同工况下的钢轨表面伤损图像,如道岔区段或雨雪天气等,以构建更具挑战性的钢轨表面伤损数据集,使检测算法能够适应各种工况。此外,还将研究利用三维结构光成像,获取钢轨的三维图像,并与二维图像融合进行检测,以进一步提升钢轨表面伤损检测的正确性。