基于空间尺度标准化的动车组底部异常检测

2022-06-01耿庆华刘伟铭刘瑞康

铁道学报 2022年5期

耿庆华，刘伟铭，刘瑞康

(华南理工大学土木与交通学院，广东广州 510641)

在现代工业检测领域，基于视觉的异常无损检测技术已经成功应用于纺织品质量监测[1-2]、机械工件表面缺陷检测、陶瓷产品表面瑕疵检测、电子产品质量监测、铁轨表面缺陷检测[3-4]，以及铁路维护中紧固件故障检测[5-6]中，均取得了令人满意的检测效果，但它们只能检测某种特定目标。近年来，基于深度学习的目标检测研究成为热点，其中，最著名的就是Faster-RCNN、YOLO、SSD[7]算法。文献[7]提出的SSD算法将每一个特征图位置边界框的输出空间离散化为具有不同纵横比的一组默认框，在预测时，网络会为每个默认框中的每个类别的对象生成得分数，并对该框进行调整以更好地匹配对象形状。此外，该网络还将来自具有不同分辨率的多个特征图的预测进行组合，更自然地处理各种大小的对象。文献[8]采用特征金字塔网络提取异常的多尺度融合特征，采用可改变感受野的可变形卷积DCN 适应缺陷形态的多样性，取得了不错的检测效果。但是，基于深度学习方法在检测动车组底部异常时效果并不十分令人满意，因为这些异常有时会被分割成两个序列图像，且很多属于小目标。因此，图像对齐是实现动车组底部异常自动检测的关键步骤。文献[9]总结了经典的图像对齐方法，以及它们各自的优缺点，其中Scale-invariant feature transform(SIFT)[10]、SAR-SIFT[11]、PSO-SIFT[12]等获得了广泛的应用，但对于分辨率较高的图像，SIFT的计算效率很低。文献[13]提出了一种基于图像对准的特征匹配算法，该算法被用于轮廓不规则工件的缺陷检测和定位。文献[14]提出了一种针对多目标的自动故障检测系统，该系统利用图像对齐和背景差分法来实现多目标的定位。以上方法都获得了不错的检测效果，但仍有许多可改进之处。

图2 图像处理流程

动车组运行故障图像检测系统(Trouble of moving EMU Detection System，TEDS)通过在轨边安装CCD线扫描相机，采集运行中动车组车体两侧裙板、底部、底架悬吊件、钩缓连接、转向架、走行部等部位的图像，利用图像识别技术对图像进行自动异常分析和分级预警，实现对动车组两侧裙板、底部部件状态(故障或无故障)的实时监测。TEDS的图像捕获装置主要由高速线扫描相机组成[14]；同时使用大功率激光器作为辅助光源安装在线扫描相机附近，以减少室外照明变化的影响；所捕获的序列图像传输到终端服务器后，由经验丰富的检查人员进行核查。这种人工检测方式需要花费大量的人力，且效率低下、易误检漏检，满足不了动车组日常维护工作的需要；而且动车组通过图像捕获装置时速度偶尔会波动，这将导致异常部位在序列图像中发生偏移，因此，TEDS的图像捕获装置获取的动车组序列图像不可避免的会出现失真。由TEDS的图像捕获装置拍摄的动车组底部序列图像失真现象见图1。其中，图1(a)为较早时间拍摄的图像，这里作为标准图像；图1(b)为晚些时候拍摄的包含同一区域的序列图像，这里作为目标图像。由图1可以看出，标准图像与目标图像具有相同的区域，但目标图像被分成了两个序列图像，如红色框所示，异常区域在图像的水平方向上发生了偏移。为实现动车组异常区域的自动检测，必须校正这种由动车组速度偶尔波动引起的图像失真。

图1 动车组底部序列图像失真现象

本文研究的重点是自动定位和识别动车组的异常区域并提供警报。基于TEDS，本文提出一种自动视觉检测方法。该方法首先将目标图像与对应的标准图像配准对齐；然后使用背景差分法[14]确定二者之间的差异，从而快速定位目标图像中潜在的异常位置；最后根据先验知识，采用主成分分析(PCA)来识别动车组的异常区域。自动视觉检测方法的系统组成包括图像捕获装置、图像处理软件和自动检测中心。当动车组通过图像捕获装置时将产生分辨率为1 400×2 048的序列图像，本系统的核心思想是校正由动车组速度波动而产生的图像失真，并定位和识别动车组底部的异常区域。

1 图像的配准与对齐

获取动车组序列图像之后，经图像处理软件处理以定位底部异常区域的位置。图像处理软件中的模型包括图像对齐模型和异常区域定位与识别模型。图像处理流程见图2。首先，将目标图像与图像处理软件库中的标准图像对齐。其次，将对齐后的目标图像与标准图像相减以生成差异图像。在差异图像中，像素值差异越大的区域发生异常的概率就越大。一旦定位出异常的位置，便采用PCA技术来识别动车组底部的状态(异常或无异常)。最后，将检测结果传输至自动检查中心为决策者提供分级报警。

1.1 特征点提取

由于动车组的序列图像具有1 400×2 048的分辨率，而且异常区域的位置在不同的序列图像中可能发生偏移，因此，迅速提取有效的特征点成为关键一步。SIFT特征描述子在提取图像特征点时具有抗光照、不易受图像失真影响的优点，具有更好的稳定性。综上分析，本文提出一种新的SIFT方法，用于快速提取有效的特征点，并采用增强的曼哈顿距离来滤除误匹配的特征点。

(1)

梯度幅值和梯度方向重新定义为

(2)

(3)

式中：Δβ、Δβ′分别为梯度主方向偏移直方图的两种模式的位置[12]。

1.2 曼哈顿距离约束下的特征点匹配

最近距离的计算通常采用欧氏距离，但欧氏距离的计算需要复杂的平方、开方运算，这将导致对应的特征点对的搜索时间过长。曼哈顿距离的计算相对简单，提高了特征点匹配的计算效率。假如标准图像和目标图像中的136维的特征向量分别为fj=(fj1,fj2,…,fj136)和f′j=(f′j1,f′j2,…,f′j136)，则对应的特征点对之间的曼哈顿距离定义为

(4)

(5)

式中：r*为缩放比例；Δβ*为梯度的主方向差。

增强型曼哈顿距离EMD(j)定义为

EMD(j)=[1+es(j)][1+eR(j)]d(j)

(6)

距离比R定义为

(7)

以EMD作为测量距离，将初始匹配的特征点作为重新匹配的特征点。为了获得尽可能多的重新匹配的特征点对，在重新匹配过程中将比率的阈值设置为0.9[12]。当EMD获得最小值时，完成初始匹配的特征点对被正确地重新匹配。由于重新匹配的特征点对中可能存在一些误匹配，因此，使用MS-SIFT[12]中的方法来滤除大多数异常值。令对应的特征点对(Pj,P′j)的坐标分别为(xj,yj)和(x′j,y′j) ，特征点对(Pj,P′j)的水平偏移量Δxj和垂直偏移量Δyj分别定义为

(8)

由于列车的运动方向仅存在于水平方向，Δβ*= 0，因此，动车组序列图像的失真仅存在于水平方向，而在列车运动方向的垂直方向上不存在失真，故大多数异常值可采用式(9)中的滤波器[12]滤除。

(9)

式中：Δxth、Δyth分别为水平、垂直偏移的阈值；Δx*、Δy*分别为水平、垂直方向上模式位置的值[12]。其中，水平方向与垂直方向直方图的bin宽度分别决定了相应阈值的大小。水平偏移和垂直偏移的直方图分别由Δx和Δy表示。最后，FSC[12]中的方法被用于滤除误匹配的对应的特征点对。

1.3 基于空间尺度的标准化

将目标图像与对应的标准图像对齐是定位动车组底部异常的关键步骤，而动车组的速度波动是引起图像像素在水平方向发生拉伸或压缩的主要原因。当线扫描相机的扫描频率恒定时，一帧图像的空间尺度大小决定了像素拉伸或压缩的程度，而列车速度的大小又决定了一帧图像的空间尺度大小。如果每一帧目标图像都可以根据对应的标准图像的空间尺度进行标准化，则目标图像和对应的标准图像就可以精确对齐。目标图像与对应的标准图像之间的水平偏移是通过精确匹配的特征点之间的平均水平偏移量得到的。精确匹配的特征点之间的水平偏移量表示在列车运动方向上目标图像与相应标准图像之间的相对偏移，且相邻特征点之间的差表示在列车运动方向上的拉伸或压缩。在目标图像与相应标准图像对齐过程中，水平偏移量起到了决定性作用，如果确定了目标图像与相应标准图像之间的水平偏移量Δx，就可以认为确定了目标图像与相应标准图像之间的相对关系。

首先，采用本文提出的SIFT算法将第j个目标图像与对应的第j个标准图像进行配准与对齐，以确定二者之间的水平偏移量Δxj。如果Δxj>0，则将第j-1个目标图像在水平方向上分割成像素区间为{0,1 400-Δxj}和{1 400-Δxj,1 400}的两部分，并分别重新编号为(j-1)1和(j-1)2；同时将第j个目标图像在水平方向上也分割成像素区间为{0,1 400-Δxj}和{1 400-Δxj,1 400}的两部分，并分别重新编号为j1和j2；然后将编号为(j-1)2和j1的2个图像块在水平方向上拼接在一起，形成一个像素区间为{0,1 400}的新目标图像，并重新标号为jj。如果Δxj<0，则将第j个目标图像在水平方向上分割成像素区间为{0,Δxj}和{Δxj,1 400}的两部分，并分别重新编号为j1和j2；同时将第j+1个目标图像在水平方向上也分割成像素区间为{0,Δxj}和{Δxj,1 400}的两部分，并分别重新编号为(j+1)1和(j+1)2；然后将编号为j2和(j+1)1的2个图像块在水平方向上拼接在一起，形成一个像素区间为{0,1 400}的新目标图像，并重新标号为jj。最后，将重新拼接后的编号为jj的目标图像作为第j个目标图像。通过这种方式达到标准化目标图像的目的，标准化后的目标图像可以与对应的标准图像精确对齐。目标图像与对应的标准图像对齐效果见图3。

图3 目标图像与对应的标准图像对齐效果

2 行驶中动车组机械部件状态的自动检测

式中：ω为常数参数，用于增强像素值差异较大的区域；λ也为常数参数，用于减小像素值差异微小的区域；ω、λ分别设置为15、50。如果获得了目标图像与对应的标准图像之间的差异，就将这些差异视为潜在的异常区域，然后再根据标准图像中的先验知识来确定动车组底部的状态。最后，采用PCA技术来分析和识别动车组的序列图像，并根据先验知识来确定潜在的异常区域是否真正存在异常。由线扫描CCD摄像机捕获的列车底部典型序列图像见图4。

图4 由线扫描CCD摄像机捕获的列车底部典型序列图像

3 图像对齐的评估标准与实验结果

为了评估本文新定义的SIFT算法的性能，将其与其他经典的图像对齐算法进行对比，包括SIFT[10]、SAR-SIFT[11]、PSO-SIFT[12]。本文采用2组动车组底部的目标图像与对应的标准图像作为测试图像对，见图5，其中，图5(a)和图5(b)为测试图像对1，图5(c)和图5(d)为测试图像对2。

此外，所有的图像对齐算法均在MATLAB2019b下运算执行，台式电脑硬件参数为Intel(R)Core(TM)i7-4771CPU@3.5GHz处理器和8GB内存。

图5 动车组底部目标图像与对应的标准图像

3.1 图像对齐的评价标准

(1)对齐精度

图像对齐精度通常采用均方根误差RMSE[12]这一准则来进行评估。从目标图像与对应的标准图像中精心选择N个对应的特征点对{(xi,yi),(x′i,y′i)}，以尽可能减少残差[12]。因此，模型参数的准确性可以采用这些精心挑选的特征点对进行测试。RMSE的计算式为

(11)

式中：N为对应的特征点对的数量；(xi-xi′，yi-yi′)为其中某一个匹配项的残差。对于图5的2组动车组图像对各进行10次测试，10次测试的平均值作为最终的RMSE[12]。

(2)特征点的数量

正确匹配的特征点数量N决定了图像匹配算法的稳定性，因此，本文采用正确匹配的特征点的数量来评估本文新定义的SIFT算法的稳定性。正确匹配的特征点是指被RANSAC[18]算法滤除误匹配特征点后的精确匹配点。

图像对齐精度不仅受正确匹配特征点数量的影响，而且还受正确匹配的特征点空间分布的影响。当不同的图像匹配算法的RMSE互相接近时，正确匹配的特征点的数量被用来做进一步的比较。图5中2组测试图像对的对齐精度、正确匹配的特征点数量、图像对齐的平均耗时等的比较见表1。从表1中可以看出，本文新定义的SIFT算法在图像对齐过程中的平均耗时优于其他算法。

表1 各种算法的N、RMSE、图像对齐的平均耗时比较

3.2 水平偏移量对图像对齐的影响

当目标图像与对应的标准图像精确对齐时，水平偏移量Δx=0，此时峰值信噪比PSNR具有最大值；随着Δx的增大，PSNR逐渐减小；因此，本文使用PSNR评估Δx对图像对齐的影响。由于存在模型误差，当Δx=0时目标图像与对应的标准图像精确对齐的情况几乎不存在，因此，本文采用以下4组不同的参数来分析Δx对图像对齐的影响：Δx≤5像素，Δx≤15像素，Δx≤35像素，Δx≤50像素。根据图4典型序列图像，Δx对图像对齐的影响曲线见图6。

图6 水平位移量Δx对图像对齐的影响曲线

图7 图像标准化对图像对齐的影响

由图6可以得出，当Δx≤5像素时，获得了最大的PSNR曲线。因此，在对目标图像进行空间尺度标准化过程中，Δx≤5像素被用作标准化目标图像的误差区间。

3.3 目标图像标准化对图像对齐的影响

对目标图像与对应的标准图像之间的水平偏移量的测量精度，决定着目标图像标准化的效果，而目标图像标准化的效果又决定着目标图像与对应的标准图像是否能够对齐。图像对齐是完成底部异常检测的关键步骤。本文选择4组列车底部的图像对作为测试图像对，展示标准化后的目标图像对图像对齐的影响，见图7。由图7可以看出，标准化后的目标图像与对应的标准图像之间的Δx几乎为零，这表明本文新定义的图像对齐模型对完成目标图像与对应的标准图像之间的精确对齐收到了很好的效果。

3.4 动车组底部异常自动检测的实验结果

在动车组底部异常检测方面，将本文提出的方法与SSD算法作对比实验，以证明本文所提方法在检测动车组底部异常方面所具有的优势。基于SSD的目标检测算法需要大量的样本数据才能完成SSD模型的训练，但是动车组底部异常只是偶尔现象，很难搜集到足够多的样本以完成SSD模型的训练。因此，本文选择在搜集到的动车组图像数据集的基础上进行一系列的剪切、变形、旋转、CutMix[19]操作,以使这些样本数据集中丢失的螺栓、附着的纸屑、黏挂的布条的数量分别达到914、916、920。任选80%带标注的样本用于训练SSD模型，其余20%带标注的样本作为测试、验证样本数据集。基于SSD的动车组底部异常检测的平均精度见表2，显示了采用训练好的SSD模型检测动车组底部状态时，计算机进行批量检测时的仿真结果。

表2 基于SSD的动车组底部异常检测的平均精度 %

由表2可见，不同类型的异常具有不同的平均检测精度。实际上，动车组的异常通常具有多样性，而且SSD模型的训练过程非常耗时，因此，难以用于实际应用中。

采用本文所提出方法在检测动车组底部异常时的定位结果与检测结果见图8。

图8 本文方法的定位结果与检测结果

在动车组目标序列图像中，图像背景十分复杂，同一目标物有时甚至被分割到两帧图像，给图像定位与识别带来障碍。采用本文提出的图像对齐模型将所有的目标序列图像与对应的标准序列图像对齐后，再在目标图像与对应的标准图像之间执行本文新定义的背景差分法生成差异图像。在差异图像中，对比度越鲜明的区域，出现异常的概率就越大。然后，根据先验知识，采用主成分分析技术来识别动车组底部的状态(异常或无异常)。在对目标序列图像分类时，采用多类支持向量机(SVM)，以便给出目标序列图像的序列号。训练过程为：读入动车组底部异常数据(训练样本)，PCA降维以抽取动车组底部异常的特征，数据规格化，训练多类SVM。识别过程为：读入一个测试样本，经过PCA变换降维，采用多类SVM进行分类，给出目标序列图像的序列号。为了评估本文提出的方法在检测动车组底部异常时的效果，本文选择了动车组底部的2组对应的序列图像作为测试样本，其中无异常一组序列图像作为标准图像，而另一组对应的序列图像作为目标图像。目标序列图像包括728个丢失的螺栓、642个布条、841个纸屑。采用SSD模型和本文提出的模型在检测目标序列图像时的实际统计结果见表3。表3中，如果异常被检测成“正常”或正常被检测为“异常”，则视为错误检测；否则，定义为正确检测。召回率即含有异常的动车组列车底部序列图像被准确检测出来的比例。精度是信息检索领域和模式识别中广泛采用的标准[3]，用来评估本文所提模型的检测精度。检测精度、召回率分别定义为

(12)

式中：Tpi为正确检测的异常数量；Fpi为错误检测的异常数量；Fni为未被检测出来的异常数量。