APP下载

面向钢丝绳微弱损伤智能识别的多尺度注意力网络

2021-07-13曲诚陈景龙常元洪周子桐

西安交通大学学报 2021年7期
关键词:钢丝绳特征提取卷积

曲诚,陈景龙,常元洪,周子桐

(西安交通大学机械工程学院,710049,西安)

钢丝绳作为客运索道缆索系统的核心部件之一,在客运索道的运行中发挥着重要作用[1]。由于客运索道往往架设于山峰、滑雪场等地,钢丝绳长期工作在雨雪、大风等恶劣的环境中,极易导致断丝、磨损、绳股松散等微弱损伤的发生。受环境因素和运行振动的影响,钢丝绳的微弱损伤特征往往难以被及时发现[2],且一旦客运索道发生事故,会造成严重的经济损失和负面的社会影响。因此,开展客运索道钢丝绳微弱损伤早期识别方法的研究具有重要的工程意义和应用价值。

目前应用较广的钢丝绳表面损伤识别方法主要是基于漏磁原理[3]。基于漏磁原理的钢丝绳损伤检测示意图如图1所示,首先使用永磁铁对钢丝绳进行励磁,当钢丝绳出现表面损伤时,损伤部位的横截面积会减小,使内部的磁力线从损伤部位漏出,此时如果附近存在传感器,就会检测到漏磁场,从而识别出损伤[4]。这种检测方法虽然目前应用较为广泛,但是存在装置结构复杂、检测效率低、易受环境干扰出现误差等不足[5]。

图1 基于漏磁原理的钢丝绳损伤检测示意图

近年来,随着目标检测技术的快速发展,为钢丝绳的表面损伤识别带来了新的发展方向。自2014年Girshick提出的RCNN(Region CNN)方法[6]首次将深度学习引入目标检测任务以来,已有多国学者对此类算法展开研究。目前基于深度学习的目标检测算法主要分为两阶段方法和单阶段方法,目标检测算法流程如图2所示,两类方法首先都使用卷积神经网络提取图像特征,在此基础上,两阶段方法先划分大量可能存在目标的候选区域,再使用分类与回归网络预测目标的类别及位置,单阶段方法则在特征提取后直接进行类别与位置的预测。

(a)两阶段目标检测算法

基于目标检测的智能检测算法现已被广泛应用于人脸识别、行人检测等工业领域中。Zhao等针对苹果采摘机器人识别目标具有种类多、光照变化大、存在遮挡等问题,提出了基于YOLOv3深度卷积神经网络的苹果定位方法,实现了对复杂环境下苹果的检测识别[7]。Zhang等融合特征提取能力较强的Inception网络[8]和深度残差网络[9],设计出新的网络作为目标检测算法Faster-RCNN[1]的特征提取网络,并应用于动车故障检测中[11]。Zhang等以FCN为基础网络,提出了可变形池化核,并加入了批量标准化层和空洞卷积层以提升网络性能,实现了对遥感图像中尺寸差异较大的目标检测[12]。

虽然基于深度学习的目标检测模型在多个领域都取得了一定效果,但当前的研究仍然面临两大挑战,一方面是复杂恶劣运行条件下的微弱损伤识别难度大,钢丝绳损伤的面积通常较小,损伤特征本就微弱,同时钢丝绳在高速运行时产生的振动,以及雨、雪、霜等干扰又会一定程度地掩盖损伤特征,导致损伤更加难以识别。一方面是小样本下的损伤识别精度低,训练目标检测模型需要使用大量的样本数据,然而对于客运索道钢丝绳等类似设备,由于损伤发生的时间、地点均为未知,给损伤样本的获取带来了较大困难,而小样本条件下训练出的模型识别效果较差,无法满足工程需求。为了解决复杂恶劣工况下钢丝绳表面损伤程度微弱、识别难度高,且损伤样本数量较少的问题,实现对钢丝绳微弱损伤的快速识别与准确定位,本文提出了一种融合多尺度特征提取与注意力机制的损伤识别方法。首先采用生成对抗网络对运行图像去除模糊,并使用透视变换和随机裁剪扩充样本数量;接着在使用多尺度卷积神经网络进行特征提取的基础上,融合SE注意力机制对关键特征进行增强;最终输出钢丝绳的损伤位置及损伤种类。通过对钢丝绳损伤模拟实验台上采集的损伤图像进行识别来验证本文提出方法的有效性。

1 融合多尺度特征提取与注意力机制的损伤识别网络

本文提出的融合多尺度特征提取与注意力机制的YOLOv3-tiny-SE模型总体结构如图3所示,模型主要由预处理模块、特征提取模块和预测模块组成。预处理模块通过生成对抗网络对钢丝绳运行图像进行去模糊,并使用透视变换、随机裁剪扩充样本数量;特征提取模块通过使用添加注意力机制的多尺度卷积神经网络提取图像中的整体与细节特征,并通过上采样和拼接操作以融合不同尺度的特征;预测模块通过将特征图中的信息转化为输出坐标以实现对图像中损伤位置及种类的识别。

图3 YOLOv3-tiny-SE模型总体结构

1.1 预处理模块

构建高准确率的损伤识别模型,通常需要大量有效的训练样本对模型进行全面的训练,然而在高速运行条件下获取到的钢丝绳图像会出现模糊现象,导致模型难以提取有效特征,影响后续的分类与定位,因此在预处理模块首先采用生成对抗网络对图像进行去模糊处理。

实际的钢丝绳处于持续运行状态,损伤可能发生在钢丝绳表面的任何位置,同时实验模拟时的拍摄角度与实际监控的角度可能不完全一致,因此为了使数据集中的样本更符合实际情况,提高模型的泛化能力,在预处理模块采用透视变换和随机裁剪两种方法对去模糊后的图像进行数据增强。

1.1.1 去除模糊 模糊图像可以看作清晰图像与模糊核卷积后的结果[13],模糊过程可表示为

IB=k*IS+N

(1)

式中:k为模糊核,其大小由拍摄设备的移动速度等因素决定;*为卷积操作;IB为模糊图像;IS为清晰图像;N为随机噪声。

传统的图像去模糊方法通常基于滤波优化,即在已知卷积核k的情况下,通过反卷积操作对模糊图像进行复原,然而在实际应用时,大部分情况下模糊核的信息是未知的,因此传统方法需要对模糊场景做出预先假设,以简化复原难度,目前基于滤波优化的图像去模糊方法在特定条件下可以取得较好的效果,但面对复杂多变的模糊情况时仍存在局限性。

近年来随着深度学习技术的快速发展,神经网络等方法逐渐被用于解决去模糊问题。与基于滤波优化的去模糊方法相比,基于深度学习的智能去模糊方法具有更广的适用性,使用时只需要获取成对的模糊图像与清晰图像,在模糊场景与模糊核信息未知的情况下,即可学习模糊图像与清晰图像之间的关系并复原其他模糊图像,因此本文采用了深度学习方法中的生成对抗网络对图像去除模糊。

基于生成对抗网络的钢丝绳运行图像去模糊流程如图4所示,主要由生成网络和判别网络两部分组成。生成网络负责对模糊图像进行重构,生成网络结构如图5所示,生成网络主要由卷积模块、9个残差模块和反卷积模块组成。首先通过卷积模块对图像进行下采样,接着通过残差模块还原图像的细节并经反卷积模块复原图像尺寸,最后将还原的细节特征与原模糊图像相加,即可得到重构图像。

图4 基于生成对抗网络的钢丝绳运行图像去模糊流程图

图5 生成网络结构

从模糊图像到重构图像的过程可表示为

IS=GθG(IB)

(2)

式中:GθG代表生成网络。

使用生成网络得到重构图像后,接着使用判别网络评估重构图像的真实程度,判别网络结构如图6所示,首先通过卷积层与池化层提取图像特征,再经过全连接层判断图像是真实的清晰图像还是由生成网络生成的重构图像,最后输出图像的标签。

图6 判别网络结构

判别网络的判别流程可表示为

l=DθD(IR,IS)

(3)

式中:IR为真实的清晰图像;l为判别网络输出的图像标签;DθD代表判别网络。

在训练生成网络与判别网络的过程中会产生对抗损失与内容损失[14],其中对抗损失可表示为

(4)

内容损失可表示为

(5)

式中:W和H代表图像的长和宽。

通过交替的训练生成网络与判别网络,降低对抗损失和内容损失,在训练结束后使用生成网络对运行图像进行去模糊处理,可以提高图像的清晰度。

1.1.2 透视变换 透视变换可表示为

Y=MX

(6)

式中X和Y分别是变换前后的图像,M是变换矩阵,表达式为

(7)

在进行透视变换时,首先确定变换前后图像中4个顶点的坐标;接着,以变换前顶点的坐标(u,v)作为输入X,变换后顶点的坐标(x,y)作为输出Y,求出变换矩阵中的参数;最后将原图像所有点的坐标与变换矩阵进行相乘,即可得到透视变换后的图像[15]。

1.1.3 随机裁剪 数据增强中常见的随机裁剪流程是先设定裁剪图像的尺寸,然后在原始图像中随机选取一点,以该点为中心,设定尺寸为边长进行裁剪,此方法适用于一般的图像分类任务,但对于本文的研究对象,如果只采用这种方法,裁剪图像可能会缺失损伤部分,影响后续对损伤位置的标注。

为解决此问题,本文提出如图7所示的改进的随机裁剪方法,首先确定原始图像中的目标区域,对于本文而言目标区域即为钢丝绳的损伤区域,接着计算目标区域4个顶点的坐标,然后按照设定的裁剪尺寸对原始图像进行裁剪,得到若干裁剪图像和裁剪图像的顶点坐标,进一步根据目标区域和裁剪图像的顶点坐标计算U(A,B),U(A,B)可表示为

图7 改进的随机裁剪方法流程

(8)

式中:A代表目标区域;B代表裁剪图像;area代表计算面积;∩代表取交集。若U(A,B)为1,说明裁剪图像包含全部目标区域,保留该裁剪图像,若U(A,B)小于1,说明该裁剪图像只包含部分目标区域或不包含目标区域,舍弃该裁剪图像。该方法可以节省裁剪后筛选有效图像的时间,以便后续对损伤位置进行标注。

1.2 特征提取模块

1.2.1 多尺度特征提取 特征提取模块用于提取输入图像的整体轮廓特征与局部细节特征,保留图像中的关键信息,流程如图3中间部分所示,图像输入到网络后,根据输入图像的尺寸与所需计算量,首先经过5个卷积核尺寸为3×3的卷积层和4个最大池化层进行初步特征提取。经过初步特征提取后,进一步进行深度特征提取,对小尺寸特征图上采样并与大尺寸特征图进行拼接,融合后的特征图可表示为

f3=concat{up[F(f1)],f2}

(9)

式中:f1和f2分别代表小尺寸和大尺寸的特征图;F代表卷积池化操作;up代表上采样;concat代表拼接;f3代表融合后的特征图[16]。此时的特征图充分融合了浅层特征与深层特征,浓缩了原始图像的丰富信息。

1.2.2 SE注意力机制 在前一小节中,经过多尺度特征提取后的特征图通道数已到了1 024,此时的特征图虽然包含了图像中丰富的整体轮廓信息与细节特征信息,但这些信息分布在不同通道的不同位置,若直接与预测模块连接,可能会导致网络训练较多轮次才能达到平衡状态,为了解决此问题,本方法在特征提取模块中添加了SE注意力机制[17],用于学习深度特征图各通道的重要程度和通道之间的相关性,对包含关键信息的通道赋予更高权重,以此改善网络表现[18]。

SE注意力机制的结构如图8所示,对于多通道特征图,首先通过全局平均池化浓缩特征图每个通道的信息,大小为W×H×c的特征图经压缩后大小为1×1×c,压缩过程可表示为

图8 SE注意力机制

(10)

式中:fc(i,j)是压缩前特征图的每个元素,zc是压缩后的特征图。

对特征图压缩后,使用两层全连接层对特征图不同通道之间的相关性及每个通道的重要性进行建模,进一步使用sigmoid激活函数对全连接层的输出进行归一化,此过程可表示为

s=σ(W2δ(W1zc))

(11)

式中:s是特征图每个通道的权重;W1和W2分别代表两层全连接层的权重;δ(·)是ReLU激活函数;σ(·)是sigmoid激活函数。两种激活函数可分别表示为

δ(t)=max(0,t)

(12)

(13)

两层全连接层使用不同的激活函数,原因在于第一层全连接层用于评判特征图不同通道之间的差异,因此使用ReLU激活函数保留差异,而第二层全连接层用于分配每个通道的权重,因此使用sigmoid激活函数将每个通道的权重限制在0和1之间,避免出现异常值。

网络在经过训练学习到优化后特征图每个通道的权重值后,对初始特征图的每个通道进行激励操作以增强关键特征,抑制干扰信息。激励操作可表示为

o=sf

(14)

式中:f和o是输入和输出的特征图。

1.3 预测模块

经过融合注意力机制的特征提取模块后,输出特征图已经包含了目标的位置及类别信息,预测模块负责将特征图中的信息转化为输出坐标,如图9所示,特征图的每个网格对应3个先验框(虚线框),每个先验框对应一个预测框,因此每个网格对应3个预测框,模型的优化目标是使预测框尽可能匹配真实目标[19]。

图9 先验框与网格的对应关系

预测框的信息存在于特征图的深度方向上,每个预测框由3类信息组成,如图10所示,第1类是位置信息,由x、y、w、h4个值组成,代表先验框与预测框之间的转换系数;第2类是类别信息,类似one-hot编码,预测类别的类别值接近1,其他类别值接近0;第3类为置信度信息,代表目标中心落在特征图该网格中的概率。综上所述,特征图的总深度为

图10 预测框信息组成

d=b(n+5)

(15)

式中:b为每个网格对应的预测框个数;n代表总类别数;5代表4个位置信息与1个目标置信度,本文目标为识别4种钢丝绳表面损伤,且每个网格对应3个预测框,因此预测模块的特征图总深度为3×(4+5)=27。

预测值需要通过进一步转换以得到实际坐标,转换过程如图11所示,虚线框是先验框,实线框是预测框,从先验框到预测框的转换过程可表示为

图11 坐标转换过程

bx=cw+σ(x)

(16)

by=ch+σ(y)

(17)

bw=pwew

(18)

bh=pheh

(19)

式中:bx和by是预测框的中心坐标;bw和bh是预测框的长和宽;cw和ch是特征图网格左上角的坐标;pw和ph是先验框的长和宽(在对训练图像进行标注时,标注每张图像上目标区域的位置与长和宽,并对训练集所有图像目标区域的长和宽使用K-means算法聚类,得到最可能出现的目标区域长和宽,将此值作为先验框的长和宽)。

2 实验验证

2.1 图像数据获取

在如图12所示的钢丝绳损伤模拟实验台上采集损伤钢丝绳图像,实验台主要由损伤钢丝绳、摄像头和计算机组成。使用砂轮和尖嘴钳对钢丝绳加工了如图13所示的外部磨损、绳股松散、绳芯外露和断丝4种表面损伤。摄像头通过连接线与计算机连接,以15帧/s的速度录制视频并在计算机端显示实时画面。采集图像时,将损伤钢丝绳固定于支架上,使用摄像头对钢丝绳进行录像,并移动支架以模拟钢丝绳的实际运行状态,采集视频后,使用软件截取视频中的钢丝绳图像,得到原始图像。

图12 钢丝绳损伤模拟实验台

(a)外部磨损 (b)绳股松散

2.2 图像数据预处理

获取原始图像后,应用预处理模块对运行图像去除模糊并进行数据增强,构造损伤数据集,接着标注数据集中损伤图像的位置和类别并划分训练集和测试集,训练集和测试集分别包含4种损伤形式的350张图像和100张图像,表1给出了训练集和测试集的样本分布。

追肥主要分4次。萌芽肥,萌芽抽稍前开花前进行,以氮肥为主,每亩施50千克高氮中磷低钾复合肥。花前肥,在开花前和新梢快速生长期,每亩撒施尿素5~10千克,加施硼、钙等微量元素;膨大肥,一般在花后15天进行,施用高钾中氮低磷复合肥,同时结合叶面喷微量元素肥;壮果肥,一般在7月中旬果实进行第二次膨大,以磷钾冲施肥为主,每亩施30~50千克。

表1 训练集与测试集样本分布

2.3 实验环境及网络训练参数

本实验在Windows10系统下使用Python3.7编程环境,基于Pytorch库搭建网络模型,在训练时使用CUDA并行计算架构以加速训练进程。

训练时图像数设置为4,采用自适应矩估计(Adam)优化器,共训练250轮,初始学习率为0.005,当训练轮数达到125和175时学习率分别衰减为原来的1/10以减小后期的波动,使损失函数进一步收敛以接近最优解。

2.4 评估指标

为了评估去模糊的效果,本文引入峰值信噪比(PSNR)以衡量图像之间的相似度,PSNR可表示为

(20)

式中:ZI是图像的最大像素值,本文中该值为255;E代表两张图像所有对应像素点差值的平方和。PSNR越大,代表两张图像相似度越高。

为了评估预测模块的预测效果,本实验采用目标检测领域常用的平均精度(AP)和平均精度均值(mAP)[20]。对目标检测网络进行测试时,根据真实标签与预测标签是否匹配,预测结果可分为真阳性(TP)、假阳性(FP)、假阴性(FN)、真阴性(TN),其中真阳性代表预测结果为真且预测正确,假阳性代表预测结果为真但预测错误,假阴性、真阴性的定义以此类推。按照上述定义,精度和召回率可表示为

(21)

(22)

进一步,平均精度是精度随召回率变化曲线的积分,平均精度均值是所有类别平均精度的均值。

2.5 实验结果与分析

本小节分别给出了预处理模块与预测模块的实验结果与结果分析。

2.5.1 预处理模块结果分析 图14给出了去除模糊前后图像的对比,经中值滤波去模糊后的图像与真实清晰图像的PSNR为25.4 dB,而使用生成网络去除模糊后的图像与真实清晰图像的PSNR达到了27.4 dB,证明了生成网络在去除图像模糊方面的有效性。图15给出了透视变换前后图像的对比。

(a)模糊图像 (b)清晰图像

(a)透视变换前 (b)透视变换后

2.5.2 预测模块结果分析 使用实验获取的模糊钢丝绳损伤图像数据集对YOLOv3、YOLOv3-tiny和本文提出的YOLOv3-tiny-SE方法进行训练,图16给出了训练过程中平均精度均值的变化趋势,可以看出,至训练结束时,3种方法的平均精度均值都已经基本稳定,且YOLOv3-tiny-SE的平均精度均值要高于其他两种方法。

图16 训练过程中平均精度均值的变化趋势

图17给出了3种方法对不同种类损伤的识别效果对比,可以看出,本文方法对每种损伤的识别效果都要优于其他两种方法。

图17 3种方法对不同种类损伤的识别效果对比

使用包含透视变换图像与不包含透视变换图像的数据集分别训练3种方法,训练结果对比如表2所示,从表中数据可以看出,数据集中包含透视变换图像时,3种方法训练后的平均精度均值都有了明显的提升,证明了透视变换有助于提升识别效果。

表2 有无透视变换的平均精度均值对比

为了说明关键参数选择对训练结果的影响,在对本文方法进行训练时,分别设置了不同的图像数与初始学习率,首先将图像数分别设置为2、4和8,不同图像数对训练结果的影响如图18所示,可以看出,当图像数设置为2时,平均精度均值曲线在训练的后期仍然存在一定波动,使模型的稳定性无法得到保证,而设置为8时,平均精度均值始终较低,因此,经过对比选择后,本文方法选择将图像数设置为4。

图18 不同图像数对训练结果的影响

图19对比了初始学习率分别设置为0.05、0.005和0.000 5时的训练结果,可以看出,当初始学习率较小时,权重每轮更新的幅度较小,经多轮训练直至训练结束时平均精度均值仍然没有稳定;当初始学习率较大时,权重每轮更新的幅度也会变大,导致训练后期精度曲线仍然存在小幅震荡,影响最终精度,因此在综合考虑训练速度及结果的稳定性后,本文方法选择将初始学习率设置为0.005。

图19 不同初始学习率对训练结果的影响

图20给出了本文方法对实际损伤图像的检测结果,可以看出,该方法可以有效地识别出钢丝绳图像中不同损伤的类型与位置。

(a)外部磨损 (b)绳股松散

图21给出了3种方法的训练时间的对比,与YOLOv3方法训练时间达到4.223 h相比,由于模型结构更简单,训练一轮所需要更新的参数较少,本文方法的训练时间只有0.928 h,缩短了近80%。与YOLOv3-tiny方法相比,本文方法在训练时间上基本持平,但识别准确率更高,可见本文方法在性能与效率上都具有良好的表现。

图21 3种方法的训练时间的对比

通常来说,复杂的网络模型具有更强的特征提取能力,预测准确率更高,但在本实验中,YOLOv3方法的检测效果低于结构更简单的YOLOv3-tiny方法和本文方法,经过分析,主要原因在于虽然YOLOv3方法的层数多、结构复杂,在面对类别数多、尺寸差异大的目标检测时效果好,但本实验中钢丝绳图像的损伤面积相对较小,在经过YOLOv3方法的多层特征提取后,图像的关键特征信息会发生丢失,因此导致YOLOv3方法的检测效果欠佳。

3 结 论

针对复杂恶劣工况下钢丝绳表面损伤程度微弱、识别难度高,且损伤样本数量较少的问题,提出了一种融合多尺度特征提取与注意力机制的损伤识别网络,并在实验室钢丝绳损伤图像数据集上进行了验证,取得了较好的效果,得出如下结论。

(1)为了解决工程实际中有效样本较少的问题,引入了生成对抗网络用于运行图像去模糊,在此基础上,使用改进的随机裁剪和透视变换方法进行数据增强,在扩充样本数量的同时保留了损伤特征,节省了后续筛选有效样本的时间。

(2)构建了融合注意力机制的YOLOv3-tiny-SE方法用于钢丝绳表面损伤识别。针对实验获取的钢丝绳模糊损伤图像进行分析与测试,并与现有YOLOv3和YOLOv3-tiny方法进行对比,实验结果表明,与现有方法相比,本文方法的训练时间缩短了80%,且平均精度均值可以达到93.7%,验证了本文方法在钢丝绳损伤识别方面的优越性和有效性。

虽然本文方法在保证精度的前提下提高了效率,但该方法的检测效果受参数设置的影响较大,通过对比不同情况下的实验效果可以对参数进行筛选优化,但是效率较低。在后续研究中,会采用神经架构搜索(NAS)技术,通过强化学习来优化网络结构与参数,提高参数选择的效率。

猜你喜欢

钢丝绳特征提取卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
预张紧钢丝绳网片加固混凝土梁钢丝绳应力损失研究
钢丝绳楔形接头连接失效分析与预防
基于Gazebo仿真环境的ORB特征提取与比对的研究
从滤波器理解卷积
电梯钢丝绳更换方法的探讨
基于Daubechies(dbN)的飞行器音频特征提取
基于傅里叶域卷积表示的目标跟踪算法
Bagging RCSP脑电特征提取算法
关于将Φ13导引用防扭钢丝绳替换为Φ15的研究