基于Transformer与局部特征融合的轨道紧固件缺陷检测方法

2024-05-07乔彦涵邹劲柏季国一

铁路计算机应用 2024年4期

乔彦涵，陈文，邹劲柏，季国一

（上海应用技术大学轨道交通学院，上海 201418）

近年来，我国铁路营业里程不断增加，线路覆盖范围持续扩大，铁路成为促进各地区经济发展的重要交通运输工具[1]。铁路运输高度依赖轨道线路，轨道线路直接关系到列车行驶的安全和稳定，因此，有必要对轨道线路进行定期检测。

轨道紧固件作为轨道线路的重要组成部分，是保障轨道线路运营安全的重要一环。传统的轨道紧固件检查方式是人工巡检，虽然精度较高，但效率低下，且存在安全隐患[2]。为解决该类问题，主要有基于计算机视觉和图像处理技术结合的方法，以及利用卷积神经网络（CNN，Convolutional Neural Networks）的方法。前者对不同轨道紧固件的故障类型检测效果较差，普适性不强[3-4]；后者计算量较大，且受限于传统感受野，在捕获全局特征表示方面有一定的局限性[5-6]。目前，基于自注意力机制的Transformer从自然语言处理领域到计算机视觉领域都取得了成功，成为继CNN和循环神经网络（RNN ，Recurrent Neural Network）之后又一个高效的特征提取器，其优点是能够直接捕捉到全局的联系，因为它直接把序列作两两比较（代价是计算量变为O（n2））；相比之下，RNN需要进行一步步递推才能捕捉到全局的联系，而CNN则需要通过层叠来扩大感受野[7]。与RNN和CNN相比，Transformer的训练效率更加显著，因此，可使用Transformer来完成视觉任务，以降低结构的复杂性，探索可扩展性。

常见的轨道紧固件缺陷有缺失和损坏两种情况。其中，轨道紧固件缺失包括钢轨扣压件缺失和螺栓缺失，钢轨扣压件缺失后会遗留轨下垫层，螺栓缺失后会遗留下螺孔，遗留物的背景信息复杂多样且会带来干扰，导致常规目标检测算法产生误检[8]；轨道紧固件损坏指钢轨扣件损坏、凸出或凹陷，由于钢轨扣件整体型材相近，裂纹或裂缝难以被常规目标检测算法识别，导致发生漏检情况[9]。

综上，本文提出一种基于Transformer与局部特征融合的方法来识别轨道紧固件缺陷，建立轨道紧固件缺陷检测模型，通过卷积获取局部特征信息，结合Transformer提取全局特征，从而减少缺失误识别和损坏漏识别情况的发生。

1 轨道紧固件缺陷检测模型

轨道紧固件缺陷检测模型架构如图1所示。该模型由基于CNN的浅层局部特征提取模块、基于Transformer的全局特征提取模块和基于多层感知机（MLP，Multilayer Perceptron）的分类模块组成。

图1 轨道紧固件缺陷检测模型架构

1.1 基于CNN的浅层局部特征提取模块

由于本文使用的数据集规模较小，易出现过拟合的情况[10]，故本模块由3个大小为3×3的卷积、1个ReLU激活函数及最大池化层组成。

局部特征提取过程为：（1）利用卷积函数Conv提取图像的浅层特征，获取局部信息，为防止下采样过程中的图像信息丢失，设置步长为2，保留图片完整信息；（2）通过ReLU激活函数进行非线性增强；（3）利用MaxPool的特征不变性对图像进行降维，压缩图像的空间冗余信息，避免了梯度爆炸和消失问题。将局部特征图输出结果g(x)用公式表示为

1.2 基于Transformer的全局特征提取模块

1.2.1 Patch Embedding

ViT（Vision Transformer）是将Transformer应用在图像分类的模型[11]，将输入图片分为多个大小相同的块，再将每个块投影为固定长度的向量输入Transformer，同时，在输入序列中加入Token，实现对图片的分类， Token对应的输出即为类别预测。当训练数据足够多时，ViT的表现可超过CNN，突破Transformer缺少归纳偏置的限制，在下游任务中可获得较好的迁移效果，但当训练数据集不够大时，其表现通常比同等大小的ResNets要差一些。

Patch Embedding过程中，ViT将输入图像切分成大小相同的块，然后线性映射为 Token向量作为输入，但这些Token无法直接适用于不同尺寸图像输入，当图像大小改变时，序列长度也随之改变，造成边缘信息丢失[12]。因此，本文将ViT模型中图像Token 化的Patch Embedding 过程替换为利用CNN提取底层特征的过程来进行 Patch Embedding，每一阶段的Token序列由上一阶段的Token序列卷积而来，这样进行卷积操作不会丢失图像的边缘信息。

具体操作为：（1）设定用卷积核大小为7×7的卷积对输入的特征图像块进行卷积操作，映射结果输入到新的Token map中；（2）利用全局平均池化将Token map展平，得到最终的Token序列；（3）通过 Transformer 的多头注意力机制（MHA ，Multi-Head Attention），获取对全局的理解。

1.2.2 Transformer block

Transformer 利用注意力机制建立起序列间的远距离依赖关系，能够提高缺陷识别的准确率。Token序列进入到Transformer block中，为防止模型过拟合和输入数据特征分布的不断变化，通过Layer Norm实现归一化，使数据分布更加稳定，对Token序列进行标准化处理，保留不同特征间的大小关系。

图1中Transformer block的具体结构如图2所示，其功能主要由多头注意力（MHA，Multi-Head Attention）和MLP实现，层与层之间使用ResNet中的残差结构进行连接。每一层的MHA块和 MLP 块中的残余连接之前都使用层归一化处理[13]。

图2 Transformer block具体结构

MHA是Transformer架构的核心。其计算过程为

式（2）、式（3）中,XA为上层输入的Token特征序列，矩阵WQ、WK、WV∈R，Q（query）、K（key）、V（value）分别为Token特征序列投影到不同的权重矩阵所对应的查询向量、键值向量和值向量；为得到不同特征位置的概率分数，将Q与K相乘，计算出不同输入矩阵间的注意力分数，同时引入比例因子保障数据稳定性，dk为K向量的维度；引入Softmax函数将各特征位置上的注意力分数转为概率，再与V矩阵相乘，得到加权后的特征图矩阵[14]，Attention（Q,K,V）表示单头注意力机制的输出结果。

与单头注意力机制相比，MHA能够计算整张特征图的所有特征间的相关性，从而获得全局视野和充足的上下文信息，因此需将多个独立的自注意力头拼接成多头自注意力机制（MHSA，Multi-Head Self-Attention），计算过程为

最后，通过reshape操作改变张量维度和形状，将包含特征信息的图像特征整合，输入到基于MLP的分类模块中。

1.3 基于MLP的分类模块

将图像特征输入到分类模块中，用于实现轨道紧固件缺陷的分类识别。在分类模块中搭建MLP模型，模型输出层采用Sigmoid函数，优化器采用Adam，通过对扩增数据集的训练与测试，得到缺陷所属类别，同时，引入Softmax函数，将各类别的注意力分数转为概率，最终得到缺陷所属类别及其概率。

2 实验与分析

2.1 数据集的制作

因轨道紧固件没有公开的数据集，所以本文收集了大量轨道紧固件近景图，通过修改图片亮度和对比度来模拟不同光照和不同天气情况下的轨道情况。由于异常紧固件在实际轨道上出现较少，因而通过样本扩增的策略对损坏、缺失的轨道紧固件图像采用平移、旋转、缩放、裁剪、镜像等方式来扩充训练集，最终得到1 800张图像，并按照7∶2∶1的比例划分为训练集、验证集和测试集。使用LabelMe标注软件进行标注，标注类型分为正常紧固件（Normal）、损坏紧固件（Damage）、丢失紧固件（Lost），共3类。

2.2 实验准备

本文实验环境如表1所示，模型参数设置如表2所示。

表1 实验环境

表2 模型参数设置

2.3 实验分析

2.3.1 模型对比实验

为验证本文轨道紧固件缺陷检测模型的缺陷检测能力，选择传统的CNN模型（ResNet-50）、经典的YOLO（You Only Look Once）模型（YOLOv3）和原始的Transformer模型（ViT）与本文模型进行对比实验。评价内容为Normal、Damage和Lost，共3类，采用的评价指标为准确率P、召回率R和平均准确率均值mAP。3者的计算公式为

式（7）～式（9）中，TP表示检测正确的数量；FN表示未检测出的数量；FP表示误检测的数量；AP表示某一类别缺陷检测的平均准确率，即P和R积分的结果。i表示评价内容的类别，本文共有3种类别，故i=3。

4种方法的检测结果对比如表3所示。由表3可知，相对于传统的CNN、YOLO及Transformer模型，本文方法的准确率、召回率及平均准确率均值均有所提升，准确率达到了90%以上，相较于ResNet-50、YOLOv3、ViT 模型分别提升了6.6%、3.6%、1.9%，mAP值相对于次好的ViT模型也提升了1.4%。实验结果表明，本文提出的方法在轨道紧固件缺陷检测效果上具有良好表现。

表3 4种方法的检测结果对比

2.3.2 可视化分析

为验证模型在真实场景下的缺陷检测效果，从测试集中随机选取图片，使用本文的模型进行缺陷检测，并将输出结果可视化。4 种方法对轨道紧固件缺陷检测效果定性对比，如图3和图4所示。

图3 轨道紧固件缺失检测

图4 轨道紧固件损坏检测

图3展示了 4 种方法对轨道紧固件缺失的检测效果。 ResNet-50 模型对于近距离的紧固件检测效果较好, 但是对于远距离的轨道紧固件存在漏检；YOLOv3 模型与 ViT模型相对于ResNet-50 模型远距离检测的置信度更高，但对于部分遮挡下的轨道紧固件存在误检；本文方法的检测效果最佳, 无论轨道紧固件的距离远近，均能有效检测出缺失情况, 部分遮挡下的轨道紧固件也不存在误检测。

图4展示了 4 种方法对轨道紧固件损坏的检测效果。 ResNet-50 模型未能识别图中的紧固件损坏情况；YOLOv3 模型将轨道紧固件损坏误检为轨道紧固件缺失；ViT模型虽然识别到轨道紧固件损坏的情况，但检测的置信度偏低；本文方法不仅能够检测到轨道紧固件损坏的情况，同时检测的置信度值也较高。

由图3、图4可看出，本文提出的方法可在铁路轨道复杂环境下更准确地检测到轨道紧固件缺失及损坏的情况。

3 结束语

为提升轨道紧固件的巡检效率和准确率，本文提出一种基于Transformer与局部特征融合的轨道紧固件缺陷检测方法。构建轨道紧固件缺陷检测模型，在扩充数据集上进行的模型对比实验及可视化实验表明，该方法检测精确率达91.4%，平均准确率均值达86.1%，高于原始的 CNN和Transformer模型，证明本文方法在轨道紧固件缺陷检测方面的有效性，对轨道线路的安全检测具有参考意义。同时，由于轨道线路环境的不确定性，在检测过程中仍存在误检或漏检等现象，因此，需要进一步克服不确定环境对检测结果造成的影响，研究更高准确率的检测方法。