APP下载

基于深度学习的钢轨伤损超声检测与分类

2021-05-13胡文博许馨月王卫东

铁道学报 2021年4期
关键词:钢轨残差卷积

胡文博,邱 实,许馨月,魏 晓,王卫东

(1.中南大学 土木工程学院, 湖南 长沙 410075;2. 重载铁路工程结构教育部重点实验室, 湖南 长沙 410075;3. 中南大学 轨道交通基础设施智能监控研究中心, 湖南 长沙 410075)

随着铁路运营里程、速度、密度的不断增加,为保障铁路交通运输的安全性,对钢轨的检测要求也进一步提高。钢轨作为铁路运输系统的重要组成部件,在长期循环列车荷载作用及外部环境影响下,易产生轨头核伤、轨腰斜裂缝等内部组织损伤从而引起钢轨疲劳甚至断轨,导致列车脱轨等重大安全事故。因此及时准确地检测钢轨的内部损伤并对其进行精准地识别和分类,从而实现实时、高效的维护管理,对于保障铁路安全运营以及降低事故发生风险具有重大意义。

在钢轨内部伤损检测方面,传统的人工物探方法效率低、对检测人员要求高,正逐渐被其它检测方法所取代。近年来,多种无损检测方法逐步应用于钢轨内部伤损检测并取得了一定的效果。目前国内外常见的钢轨无损探伤技术主要包括超声波、射线、渗透、涡流等[1],其中超声波探伤法[2]被普遍应用于我国多条复杂铁路线路的日常巡检,得益于其优异的指向性、传播性和在界面上的反射、折射特性,能够在不破坏被检设施的前提下对钢轨内部进行探查,具备穿透能力强、操作安全、设备轻便、测量精度高、灵敏度高等优点,从而实现了钢轨内部伤损信息的高效和实时获取。

在基于超声检测的钢轨伤损数据的识别和分类方面,国内外科学家展开了大量的研究。Sun等[3]基于超声波传感器,建立了用于钢轨无损检测的实时光声成像系统。通过光声信号重建图像,可以有效地识别钢轨外观缺陷,伤损延伸趋势、深度等信息。Di等[4]和Rizzo等[5]使用传统电超声波,通过无监督学习算法对钢轨进行高速伤损识别检测。李骏[6]使用阵列探头对钢轨发射线性调频超声波进行内部缺陷检测,使用小波阈值去噪法对获取的信号去噪,在时域频域进行特征提取,使用支持向量机对超声波缺陷检测信号进行识别。Vipparthy等[7]通过布置覆盖轨头的脉冲回波探头的方法来测定轨道表面特征。且为了确定超声波信号的正确可靠性,开发了一种信号处理方法。实验证明该方法适用于缺陷检测。Zhao等[8]使用混合激光EMAT技术发射超声波对轨道的表面和内部缺陷进行了系统检查,并引入了基于小波阈值法(WSTM)的噪声抑制技术,以提高测试精度和信噪比(SNR),实验验证了轨道表面裂纹、表面垂直孔、螺栓孔裂纹和腹板孔等情况的预测结果的准确性。

尽管上述基于超声检测数据的图像处理技术相比人工目视筛选效率更高,但仍存在鲁棒性和泛化能力较差、只针对特定伤损特征和检测效果不佳等问题。为解决此类问题,以卷积神经网络为代表的深度学习方法得到了越来越多的关注。与传统的图像处理技术或机器学习方法相比,深度学习能够自动地从海量的图像数据中提取出丰富且深层次的特征并掌握识别规则以有效地区分不同类别的钢轨内部伤损。陈斌等[9]将深度学习运用到钢轨探伤应用中,开发了基于超声波的铁轨探伤小车系统。Zhang等[10]采用深度学习和声发射事件概率分析的改进方法对铁路缺陷进行分类来检测其状态。文献[11-12]提出了基于深度学习的典型伤损在线智能识别方法。梁帆等[13]利用数据发掘方法在历史伤损数据中发现钢轨伤损周期性变化趋势,并建立了基于深度学习的钢轨伤损趋势预测模型。然而现有的这些分类模型结构层浅,特征提取能力弱,并且依赖于经过预处理的高质量图像数据。因此本文提出了一种基于深度残差网络的钢轨内部伤损识别和分类方法以处理超声检测数据,该网络在增加结构层深度的同时通过独有的残差结构消除了梯度消失问题,从而能够在不依赖于高质量的预处理数据的条件下提取出更加丰富且有效的图像特征以获得优异的分类精度。

本文将迁移Resnet-50网络充分学习包含5种不同类型钢轨内部伤损的样本图像数据库,并使用准确率,F1评分和单张图像检测时间三个评价指标分别从图像数据,分类方法和杂波环境干扰三个方面测试和评价网络的分类性能,最终建立起基于深度学习的高精度、高效率和实时的钢轨内部伤损检测、识别和分类方法,为铁路工务部门快速诊断钢轨伤损、研判风险并制定维修策略提供依据和参考。

1 钢轨内部伤损数据采集与标定

1.1 采集装置

采用GCT-8C钢轨探伤仪进行数据采集。该探伤仪是一种手推式数字钢轨超声波探伤仪,执行TB/T 2340—2012《钢轨超声波探伤仪》[14],适用于探测国产和进口的43~75 kg/m钢轨母材中存在的各种缺陷[15]。主要技术参数见表1。

表1 主要技术参数

该仪器共有9个探测通道:0°通道1个、37°通道2个、70°通道6个,探头分布见图1。其中70°通道用于检测轨头、轨墙部位(螺栓孔以上)的核伤和裂缝,钢轨焊缝轨头的夹渣、气孔和裂缝等。37°通道用于检测轨墙及其投影区(Ⅱ区)的裂缝,轨底横向裂缝(轨底月牙伤)。0°通道用于检测轨墙及其投影区(Ⅱ区)的裂缝,可与37°通道之间相互校正。除此之外,GCT-8C钢轨探伤仪具备45°探头穿透式探伤模式,可加强对钢轨焊缝轨墙及其投影区(Ⅱ区)的平面状伤损的检测。

图1 各探测通道的探头分布

该仪器采用的检测方式为A型检测和B型检测,分别表现为A型脉冲和B显图像,各个通道的A型脉冲和B显图像用不同颜色分开,便于观察。其中,B显图像可以实现70°、37°、0°通道叠加组合显示,每个像素点代表物理尺寸的水平3 mm和垂直1 mm,可以正确直观地反映三种图像的相对位置,具有较高的垂直分辨率。由于70°通道有6个,在螺栓接头位置处,6个接头图像将重叠到一起,故将6个通道的图像拉开一定的距离以便观察。

1.2 B显图像

随着我国铁路的高速发展和探伤仪技术的进步,钢轨探伤工作在传统A型探伤基础上越来越倚重于B型探伤。主要原因包括:①B显图像可以更加直观地反映出伤损的位置,方便技术人员直观地识别和判断伤损信息;②B型探伤具有一定的显示延迟性,即探伤仪经过伤损位置后,2 m以内的B显图像不会消失,与需要反复探测的A型探伤相比,极大地提高了处理效率;③B显图像便于储存,数据量是A显波形的千分之一[10]。除此之外,与普通图像相比,B显数据还具有图像像素不随光线、阴影、噪声等变化的明显优势。因此采用基于B型探伤采集到的B显数据进行伤损识别。

B显是一种能够显示被检工件的横截面图像,指示反射体的大致尺寸及相对位置的超声信息显示方法。其中荧光屏上的横坐标代表探头移动距离,纵坐标代表声波传播时间或距离。基线随探头的移动和回波时间变化,从而直观地了解探头移动下方横截面的伤损分布状况和离探测面的深度,并获得探头下方沿行进方向的断面图。

根据通常的钢轨横断面划分为轨头、轨腰和轨底三部分的划分方式,将B显图像划分为五个区域,见图2。不同类型的钢轨伤损在B显图像区域中的分布有所差异,且超声探头在各区域的分布角度和通道颜色(单色成像和组合色成像)也表现出明显的不同。在B显图像中,ABCD区域的伤损均通过组合色成像显示,而E区伤损通过单色成像显示。其中AB区域由70°通道的6个探头颜色组成;CD区域由37°通道的2个探头颜色和0°通道的1个探头颜色组成;E区域由37°通道的H探头的颜色显示。结合钢轨伤损的颜色特征和不同伤损类型在B显图像中的分布规律,规定落在AB区域的伤损判定为轨头核伤,落在CD区域的伤损判定为轨腰伤损,落在E区域的伤损判定为轨底裂缝,同时落在ABCDE区域的伤损判定为钢轨连接处伤损,而完整的空白区域为无伤损的正常轨道状态。此外,使用45°探头穿透式探伤模式时,无伤损情况下将在B显图像轨底位置处获得一条黑色B显45°轨底线,若轨底线不完整则表明钢轨可能存在伤损。

图2 B显图像划分区域图

1.3 数据标定

采用GCT-8C钢轨探伤仪实地采集了三段钢轨的B显图像数据,通过图像裁剪得到了包含5 000余张图像(尺寸为200×200像素)的钢轨内部伤损数据库。基于TB/T 1778—2010《钢轨伤损分类》[16]中规定的铁路钢轨各种伤损的分类和编号、伤损描述及伤损原因等,结合超声波探伤仪的伤损检测原理,并根据获得的B显图像中伤损的颜色特征及分布规律将钢轨伤损人工标注为轨头核伤、轨腰裂缝、轨底裂缝、钢轨连接处和正常五类标签,见表2。

表2 钢轨伤损分类与对应B显图像

2 构建基于深度残差网络的伤损分类模型

以卷积神经网络为代表的深度学习方法在图像分类识别领域表现出强大的能力,一般包括输入层、卷积层、池化层、全连接层和输出层,它直接利用图像像素信息作为输入,通过多层卷积操作进行图像特征的提取和高层抽象,最大程度上保留了输入图像的所有信息[17-18]。由于各类钢轨伤损的B显图像具有相似度高,特征不明显,易受杂波干扰等特征,传统的浅层卷积神经网络难以提取到丰富的、有效的图像特征。因此基于迁移学习的方式使用层数更深,结构更复杂的残差网络(ResNet-50)建立钢轨内部伤损的识别和分类模型。

2.1 ResNet-50总体结构

采用ResNet-50残差网络[19]属于深度卷积神经网络的一种类型,其总体结构图见表3。ResNet-50共经过了4个Block,每一个Block中分别有3、4、6、3个Bottleneck。Bottleneck是该模型的核心部分,每个Bottleneck包含两个基本块,分别为Conv Block和Identity Block,其中Conv Block的输入维度和输出维度是不同的,不能连续串联,用于改变网络的维度;Identity Block的输入维度和输出维度相同,可以串联,用于加深网络,以这种方式使模型实现了对大量相似超声B显图像的准确分类。

表3 ResNet-50结构图

ResNet-50残差网络的图像处理过程见图3。

图3 ResNet-50网络图

Step1:输入3×224×224的三维张量,包含3个RGB颜色通道(原始图像尺寸在进入输入层之前被自动调整为模型预定尺寸)。

Step2:进入第一个卷积层,卷积核的大小为7×7,卷积核个数为64,步长为2,填充为3;接着进入最大池化层改变图像维度。

Step3:进入4个Block: Conv Block(虚线连接的层)是先通过1×1的卷积对特征图像进行降维,再做一次3×3的卷积操作,最后再通过1×1卷积恢复维度,后面跟着BN和ReLU层。Identity Block(实线连接的层)则不经过卷积网络降维,直接将输入加到最后的1×1卷积输出上。

Step4:进入平均池化层和全连接层,最后通过Softmax层实现分类回归。Softmax层是最终的分类层,输入从钢轨伤损B显图像中提取到的特征向量,并输出属于五个分类标签的概率分布,最高概率即是图像的最终预测标签。它采用交叉熵损失用于评估图像的预测标签和真实标签之间的误差,以判断卷积网络结构的训练和测试效果。计算公式为

(1)

2.2 残差结构

当传统卷积神经网络达到一定深度后,其分类精度不会随着深度的增加而增加,反而会导致网络收敛更慢,准确率也随之降低,这种现象被称为梯度消失,并且无法通过扩大数据集规模的方式解决。ResNet-50网络使用残差结构有效地解决了这个问题,残差结构借鉴了高速网络的跨层链接思想,采用跳跃结构“shortcut”进行连接,解决了网络加深后的图像退化问题,避免了训练过程中的梯度消失,取得了优异的分类效果。残差网络的示意见图4。

残差结构可用如下公式为

H(x)=F(x,[Wi])+x

(2)

式中:x、H(x)分别为神经网络此环节的输入、输出值;F(x,[Wi])为残差块的内部运算。

图4中第一层的输入为x,若忽略偏差影响,则输出为F(1)=W2ReLU(W1x),那么残差映射为F=W2F(1)=W2ReLU(W1x),通过“shortcut连接”与原输入值x相加得到输出结果为H(x)=F(x)+x,当F(x)=0时,H(x)=x,即恒等映射。于是ResNet改变了学习目标,不再是学习一个完整的输出,而是目标值H(x)和x的差值,也就是所谓的残差F(x)=H(x)-x,降低了计算的复杂程度。因此,后面的训练目标就是要将残差结果逼近于0,使得随着网络加深,准确率不下降。残差网络已使神经网络的层数可以超越之前的约束,达到几十层、上百层甚至千层,为高级语义特征提取和分类提供了可行性。

图4 残差网络模型示意

2.3 迁移学习

输入训练集图像在卷积神经网络模型中进行正向学习时,每个卷积层都包含数量巨大的参数,并通过反向传播的方式不断进行更新以缩小预测值和真实值之间的差距,提高模型识别结果的准确率。对于一般的工程监测问题而言,模型中含有的参数数量要远远大于训练集的图片数量(ResNet-50模型中参数数量共23.51×106,B显图像仅为5 000余张),如果这些参数从零开始初始化,将会耗费大量的训练时间,难以达到最优的训练效果,并且由于参数规模远远大于训练集图片数量,训练容易进入过拟合的状态(达到局部最优值),从而使训练过程偏离正确的方向,降低训练结果的准确率。因此采用迁移学习的方法,采用ResNet-50深度残差网络在ImageNet(120万张标注图像,1 000种类别)上已经训练好的参数作为训练的初始值,这些参数经过ImageNet数据库中120万张标注图像的训练,具备了较强的泛化能力,能够很好地区分1 000种类别的图像,包含这些参数的卷积层输出的节点向量可以被作为任何图像的一个更加精简且表达能力更强的特征向量,从而节约了大量的训练时间,而且有助于提高模型在钢轨内部伤损B显图像数据库上的分类性能,避免过拟合的产生。

3 模型测试与验证

3.1 试验环境及参数设置

以GPU(CPU:AMD2990WX@3.0 GHz,RAM=64 GB;GPU:NVIDIA GeForce RTX 2080Ti)为计算核心,依靠由Google开发的深度学习框架Tensorflow软件实现。

ResNet-50网络通过学习速率、权重衰减、步长、批次大小等来控制和优化图像训练过程。模型的参数是在训练过程中结合实验结果进行反复调试得到的,经过大量参数调整实验,最终在4 000个训练图像和1 000个测试图像上获得超参数的最佳设置。网络结构和训练的参数设置见表4,其中使用指数衰减方法更新学习率见图5。

表4 参数设置

图5 学习率指数衰减

3.2 模型优化策略

采用交叉熵损失函数会在准确性和收敛性上优于最小二乘损失函数。交叉熵函数计算公式为

(3)

式中:E为交叉熵损失值;Ti为真实样本类别;Yi为预测样本类别;N为样本个数。

本文使用L2正则化梯度防止过拟合和梯度阈值策略防止梯度爆炸。在遇到较大斜率的悬崖结构时,梯度阈值也可以防止梯度改变较大参数值。L2正则化式为

(4)

式中:J为加入L2正则化后的损失函数;J0为原损失函数;λ为正则化系数。

本文使用适应性动量估计(Adaptive moment estimation,Adam)优化算法[20]对ResNet-50网络的输入权重矩阵、循环权重矩阵和偏置权重矩阵以及静态注意力机制的权值和偏置进行梯度更新,其算法公式为

(5)

(6)

(7)

3.3 结果对比与评价

3.3.1 不同训练集和测试集对比

使用4 000张训练集图像对卷积网络进行训练,1 000张测试集图像验证网络的学习效果,但由于训练和测试集的图像是固定的,结果可能会落入局部最小值或最大值。为了验证ResNet-50网络的通用性和可重复性,使用交叉验证(k=5)方法,基于数据库建立多个训练集和测试集,并使用准确性和F1分数作为评价指标来比较和评估网络的分类效果。首先,将B显图像数据库(5 000张图像,5个标签)随机均匀地分为五个较小的图像集(k=1、2、3、4、5),每个图像集包含1 000张图像,而每个标签占200张图像。然后将其中一个图像集作为测试集,将剩余的四个图像集用作训练集,则可以获得五个不同的训练集以及与其相对应的测试集,并且每个训练集和测试集中的图像数量与原始数据库一致。

使用ResNet-50网络对每个训练集进行学习,并在相应的测试集上输出分类结果的混淆矩阵。根据网络的混淆矩阵结果计算准确率和F1分数,见式(8)、式(9)。其中准确率用于反映ResNet-50网络对每个测试集的分类效果,F1分数用于反映ResNet-50网络对测试集中每个标签的分类效果,并充分考虑分类结果中的假阳性和假阴性错误。将获得的五个训练和测试集的准确率和F1分数的平均值(见(式)10)作为ResNet-50网络的最终分类结果,分别为99.3%,99.24%(标签1),98.5%(标签2),99%(标签3),99.75%(标签4)和100%(标签5)。结果表明ResNet-50网络的分类结果在不同的训练集和测试集上表现出良好的一致性且几乎不受假阳性和假阴性错误的干扰。

(8)

(9)

式中:F1为P和R的调和平均值;P为精确率;R为召回率;TP(正阳性)为实际为正,被预测为正的样本数量;TN(正阴性)为实际为负被预测为负的样本数量;FP(假阳性)为实际为负但被预测为正的样本数量;FN(假阴性)为实际为正但被预测为负的样本数量。

(10)

式中:Q为ResNet-50网络的最终准确率和F1分数;qi为每个测试集的准确率和F1分数;k为分割图像集的数量。

训练集和测试集的损失函数曲线见图6。在设置了超参数并进行了近3 000次训练后,发现训练集损失和测试集损失都达到了收敛和稳定。当两者的损失最接近时,网络结构的训练已达到拟合状态。

图6 训练集和测试集的损失函数曲线

3.3.2 不同分类方法对比

将ResNet-50网络与三种传统的机器学习方法:支持向量机(SVM),反向传播人工神经网络(BPANN)和贝叶斯分类器(Bayes)进行对比。SVM被定义为在特征空间中具有最大间隔的线性分类器。它依靠核函数映射在由输入训练数据组成的n维空间上设置分类超平面,从而最大程度地提高了不同类别之间的差距[21]。BPANN是从输入空间到输出空间的非线性映射。它由输入层,隐藏层和输出层组成,两层之间的大量神经元使用权重系数相互连接,通过调整权重和阈值来判断和分类输入数据,并且使用反向传播来不断减少错误[22]。Bayes是一种基于概率论的机器学习算法。它使用从训练图像接收的先验知识来获得测试图像的后验概率,并不断修正决策函数,以更新信息使得分类更加准确[23]。

四种方法的单张图片检测时间与总体准确率的对比结果见图7(a),ResNet-50网络的分类准确性最高的同时检测时间较短,仅为0.016 9 s(200×200像素)。与传统的机器学习方法相比,极大地提高了伤损识别和分类的效率。各个图像标签的F1分数对比结果见图7(b),可以看出ResNet-50网络对于每个标签的F1分数均高于98%。而Bayes和SVM这两种方法都存在无法检测出一类标签的情况,BPANN虽能识别每类标签,但各个标签的F1分数结果较差。综上所述,ResNet-50网络可以有效地识别和分类五类钢轨伤损B显图像,具有高准确率、高效率的特点,明显优于传统的机器学习方法。

图7 不同分类方法的对比结果

3.3.3 杂波干扰环境下的测试结果

为了探究模型在不良条件下的适应性和鲁棒性,以及避免搜集数据集可能造成的人工影响,开展了复杂背景条件下病害图像的测试。超声波图像具有不受噪声、阴影、模糊等环境因素的干扰的特点,故主要展开杂波噪声干扰测试。图8展示了部分结果,ResNet-50网络的分类结果具有良好的一致性,其准确率和F1均保持在90%以上。表明ResNet-50网络具有很好的鲁棒性和对抗杂波噪声的适应性。

图8 染波干扰环境下部分伤损B显图像分类结果

表5 杂波干扰环境下部分伤损B显图像分类结果 %

4 结论

针对钢轨伤损的自动化识别和分类问题,提出了基于深度残差网络的超声B显数据后处理方法对钢轨内部不同位置处的伤损状况进行实时地识别和分类,并从图像数据,分类方法和干扰因素三个方面进行了验证和测试,取得了如下结论:

(1)ResNet-50深度卷积神经网络能够自动地从GCT-8C钢轨探伤仪采集到的B显图像数据中提取丰富、深层和表达能力强的特征,并能够精准地和高效地识别并区分四种类型的钢轨伤损和正常状况。

(2)在分类方法方面,分类准确率为99.3%,单张图像测试时间0.016 9 s(200×200像素),且五类标签(轨头核伤、轨腰裂缝、轨底裂缝、钢轨连接处和正常)的F1分别为99.24%,98.5%,99%,99.75%和100%,远优于支持向量机、反向传播人工神经网络和朴素贝叶斯等传统机器学习方法。

(3)在图像数据方面,ResNet-50网络取得的伤损分类结果在交叉验证(k=5)得到的五个不同的训练集和测试集组合上具有良好的通用性和可重复性;在干扰因素方面,使用的B显数据具有图像像素不随光线、阴影、噪声等变化的明显优势,且ResNet-50网络对杂波噪声干扰等不利环境具有优异的适应性和鲁棒性。

(4)研究成果在降低劳动力需求的同时极大地提升了钢轨伤损检测的精度和效率,以保障铁路的安全运营并实现科学管养。但无法获得钢轨伤损的实时里程信息,在应用方面具有一定的局限性,这将是进一步研究的方向。

猜你喜欢

钢轨残差卷积
基于残差-注意力和LSTM的心律失常心拍分类方法研究
融合上下文的残差门卷积实体抽取
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
钢轨预打磨在地铁线路中的运用相关阐述
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
从滤波器理解卷积
火车道上为什么铺碎石