融合多尺度及注意力机制的表面缺陷检测算法
2023-12-30张梦怡王村松薄翠梅
步 斌, 张梦怡, 王 超, 王村松, 薄翠梅, 彭 浩
1. 山东兖矿智能制造有限公司,济宁 272004 2. 南京工业大学,南京 211800
0 引 言
发动机的叶轮叶片是空间航天器的重要组成部件,易受到各种复杂因素影响,导致有些表面伴随物理和化学性质的缺陷[1],如划痕、凹陷、氧化和切削瘤等,会影响使用周期和性能,因此对叶轮叶片进行表面缺陷检测是非常必要的环节.
缺陷检测方法一般分为人工检测和传统机器视觉检测,前者存在检测精度低、检测效率不足,容易产生误检和漏检等问题,而后者需要根据特定的情况,花费较长时间设计对应的检测方案,进行特征工程的设计提取,泛化能力差[2].随着计算机软硬件的迅猛发展以及图像处理技术、人工智能[3]等技术的不断提高完善,缺陷检测也朝着智能化方向发展,深度学习相比于传统技术在检测性能方面有巨大优势[4],但叶轮叶片表面缺陷检测仍是一个具有挑战性的任务.如何利用机器视觉技术快准稳地识别缺陷,大幅度降低检测成本、提高制造业生产线效率和工业成品质量,已经成为广大学者关注的问题[5].
卷积神经网络(convolutional neural networks, CNN)的出现解决了传统机器视觉人工设计特征的难题.CNN网络与传统的人工设计特征相比,具有全局性和强代表性特点[6-7].基于深度学习的缺陷检测方法可对图像进行分类,但要实现完整的检测过程还需要检测到缺陷位置、大小等其他信息[8].为了实现完整检测,在深度学习检测算法中加入了物体检测器,可实现缺陷的定位和分类,如Faster-RCNN[9]、YOLOv3[10]及其他基于锚框的物体检测算法等.使用深度学习检测算法的优点,将缺陷图像输入到网络中,即可直接获得检测结果[11].但这些算法设置了大量锚框来预测目标边界框,导致计算量大、速度慢,对小目标缺陷检测效果不理想.
无锚框目标检测算法的出现,解决了大量依赖锚框预测目标导致计算量大、速度慢的问题,利用关键点对目标的属性进行回归计算[12].但无锚框检测器只能预测单个特征上的缺陷,这容易导致检测不同尺度缺陷的准确性低[13].在像素级执行检测过程,分割算法被用于缺陷检测领域,可以更准确地分割目标[14],但是分割算法仍然有明显的缺点,例如分割结果的计算过程复杂、成本高和速度慢等.
本文对CenterNet算法进行改进,将主干网络改进为EPSANet[15],使神经网络更加注重有用信息的提取,同时引入了特征金字塔结构[16](feature pyramid networks, FPN),提高了算法模型的多尺度特征提取能力,提出一种EF-CenterNet算法,来解决叶轮叶片表面缺陷尺寸小、种类多等问题.实验表明,所提出的检测网络能够明显超过基线算法的检测性能.本文的主要贡献如下:
1)选择一种新的轻量级金字塔分割注意力模块(pyramid split attention, PSA).在ResNet50使用PSA模块代替3×3卷积.该模块能为缺陷检测提供更强的多尺度特征提取能力.
2)添加特征金字塔结构(feature pyramid networks,FPN)来融合低分辨率的高层语义信息和高分辨率的低层特征信息,提高算法特征提取能力与检测的精度.
1 CenterNet算法结构
由于叶轮叶片表面缺陷尺寸小,表面缺陷种类多,本文的EF-CenterNet算法以原CenterNet[17]为基准,进行改进优化.该算法缺陷检测精度高,漏检和误检率低,更适合于叶轮叶片表面缺陷检测.CenterNet骨干网络可分为ResNet[18]、DLA[19]和Hourglass[20]等,主要用于特征提取.由于实际应用中对检测精度要求高、参数数量要求少,因此本文选取ResNet-50作为主干,残差网络由Identity Block和Conv Block组成.假定输入数据集图片的大小是H×W,依次进行卷积、标准化、激活函数与池化操作,然后再通过4个残差结构.每次下采样后,特征图将变为原来的尺寸的1/2.通过ResNet网络进行5次下采样后,利用转置卷积对特征映射进行上采样,再经过3次上采样得到高分辨率的特征图.网络最终输出热力图(Heatmap)预测、宽高(WH)预测和中心点(Reg)预测.CenterNet算法结构如图1所示.
图1 CenterNet算法网络结构Fig.1 CenterNet Algorithm Network Structure
2 EF-CenterNet改进的算法结构
本文基于CenterNet算法进行改进,将ResNet主干特征提取网络更换为EPSANet网络,将提取到的特征层融合了FPN多尺度模块,更好的利用特征信息,提出的EF-CenterNet网络框架如图2所示.
图2 EF-CenterNet网络结构Fig.2 The EF-CenterNet network structure
首先将网络结构中的ResNet主干特征提取网络更换为EPSANet网络,具体算法实现将在2.1节进行详细介绍.为了进一步提高模型特征提取能力,减少特征信息丢失,添加特征金字塔来融合高分辨率的低层特征信息与低分辨率的高层语义信息,进行多尺度特征预测,提高算法精度.
CenterNet属于无锚框型的检测算法,其检测层与一阶二阶有锚框检测算法不同,包括热力图预测、中心点预测与宽高预测3个分支.
(1) 热力图(heatmap)预测
CenterNet检测层首先得到输入特征图,通过卷积操作,使特征层的通道数变为分类数量.热力图的结果会预测每一个特征点是否有相对的目标、目标类别和概率.
热力图的Loss采用焦点损失函数(focal loss)进行运算,对易检测样本的中心点,能够适当减少其训练比重.热力图损失值(LK)的公式如下:
(1)
式中,Yxyc是高斯核,α与β是Focal Loss损失函数的超参数,N是每张图片中关键点数量.
(2) 中心点(Reg)预测
中心点预测能够对特征点的x轴、y轴坐标进行预测,消除偏移对输出的影响.中心点偏移损失值(Loff)公式如下:
(2)
(3)宽高(WH)预测
宽高预测的回归结果与锚框的宽高一一对应.目标宽高损失值(Lsize)的公式如下:
(3)
式中,PK是锚框的中心点,sk是锚框的长度.总的损失值(Loss)为
Loss=Lk+λsizeLsize+λoffLoff
(4)
式中,λoff、λsize为比例因子,分别取0.1、0.2[18].
2.1 主干网络的改进
目前大多数表面缺陷检测算法都基于ResNet网络系列,虽然ResNet网络能够达到较好的特征提取效果,但是由于其引入了多分支结构,内存消耗极大,导致训练拟合困难.针对上述问题,本文在EF-CenterNet算法中引入了EPSANet特征提取模块,该模块包含了通道、空间注意力机制,通过捕获多尺度信息来丰富特征空间.相比于后续出现的Res2Net和HS-ResNet[21],该网络具有轻量、简单高效等特点.
网络中的PSA模块的主要步骤是将input tensor从通道上分成4组,提取到不同尺度的信息.再通过SE模块,提取每组通道的加权值并进行重新分配,具体如图3所示.
图3 SPC 模块Fig.3 The Split and Concat (SPC) module
在图3中,SPC模块先将input tensor分成4组,进行分组卷积,其中卷积核k分别为3、5、7和9,并将特征向量按通道方向拼接.经过SPC模块后,PSA模块再将SPC模块的输出通过SE 权重模块[15]获得通道注意力权值.PSA融合不同尺度的上下文特征信息,并产生更好的像素级注意力.SPC模块如图4所示.公式描述如下:
图4 PSA模块Fig.4 The structure of the Pyramid Split Attention (PSA) module
(X0,X1,…,X3)=Split(X)
(5)
Fi=Conv(Ki×ki,Gi)(Xi),i=0,1,…,S-1
(6)
F=Cat[(F0,F1,…,FS-1)]
(7)
本文将用PSA模块替换ResNet中瓶颈块的3×3卷积,得到高效金字塔分割注意块(efficient pyramid split attention, EPSA).PSA模块将多尺度空间信息和跨通道注意力集成到EPSA模块中,使EPSA块可以在更细粒度的水平上提取多尺度空间信息.相应地,将提出的EPSA模块块以ResNet的方式堆叠,形成一种新型高效骨干网络EPSANet,网络结构如图5所示.
图5 ResNet和EPSANet结构Fig.5 ResNet and EPSANet structure
2.2 FPN特征金字塔
FPN的网络结构采用横向连接的方式,将自底向上与自顶向下过程中各层的feature map相互连接、相互融合,如图6所示.
图6 FPN 网络结构Fig.6 The structure of FPN network
本文使用的FPN包括3个主要层次的特征预测:该网络的前向推理过程是自下而上的,在提取特征图阶段中,每个阶段中都要提取出来自最后一层特征信息;在自上而下的过程中,使用带有横向连接的上采样,并加入1×1的卷积,将高分率与低分辨率的特征图进行融合;将每个融合结果都通过卷积操作来剔除混叠效应.该模块的特点是将不同分辨率下的特征图相互融合,使特征信息得到充分利用,减小计算量.
FPN多尺度特征金字塔结构[22]如图7所示,在每个阶段中,对主干EPSANet-50输出特征进行预测,其中P2、P3、P4和P5代表最终预测特征的结果.
图7 FPN多尺度特征金字塔结构Fig.7 The process of implementing FPN multi-scale feature prediction
3 实验设置与结果分析
3.1 实验数据集
本文根据实际产线中叶轮叶片数据自制数据集,选取过切、划痕、毛刺、氧化和切屑瘤等5个最具代表性的缺陷类型.该数据集使用工业相机采用不同的光照与角度进行采样.初始视频的格式是MP4,帧速率是50帧/s,分辨率是1 920×1 080像素.
3.2 数据预处理
3.2.1 视频帧提取
通过对初始视频数据进行预处理,得到不同缺陷类型的叶轮叶片数据.为提高图片数据的质量,采取每隔3帧提取一张叶轮叶片图片,在帧抽取过程中,由于视频图片中出现旋转的模糊与重影问题,因此需剔除不清晰的数据,对每种缺陷类型打乱排序.
3.2.2 图像标注
监督学习缺陷检测算法在深度学习训练与测试时,须提供叶轮叶片缺陷的实际位置信息,采用labelImg图像标注软件对自制数据集6446张图像进行标注,将标注好的数据采用标准PASCAL VOC样式保存,保持图片与同名xml文件一一对应.
3.2.3 数据集划分
通过以上流程,将标注好的含6 446张图像的数据集划分为训练集、验证集和测试集,比例按照8∶1∶1,如图8所示.算法训练使用训练集和验证集,算法检测结果验证使用测试集,数据集详见表1.
表1 叶轮叶片表面缺陷数据集构成Tab.1 Description of impeller blade image dataset
图8 叶轮叶片表面缺陷Fig.8 Impeller blade surface defects
3.2.4 NEU-DET数据集
为了验证改进模型算法的泛化性,选取与叶轮叶片缺陷数据较为接近的东北大学钢带表面缺陷公开数据集NEU-DET[23]作为研究验证对象.该数据集含裂纹、夹杂、斑块、点蚀表面、轧制氧化皮和划痕等6种缺陷类别共1 800张图片,其中每种缺陷图片300张,分辨率为200×200像素.图9为NEU-DET数据集中6种表面缺陷图像展示.数据集划分为训练集、验证集和测试集,按照8∶1∶1比例划分.
图9 钢带表面缺陷Fig.9 Steel surface defects
3.3 实验环境与训练参数设置
实验所用服务器的操作系统为Ubuntu 20.04LTS,GPU是NVIDIA GeForce RTX 3070,CPU是Intel(R) Xeon(R) Silver 4214 CPU@2.20 GHZ,64G内存空间,深度学习框架PyTorch版本为1.7.0,CUDA版本为CUDA11.4,运行环境为Python3.6.
本次实验分别将EF-CenterNet算法在自制叶轮叶片数据集和NEU-DET数据集上进行了300轮训练.本实验采用迁移学习算法,采用预训练权重作为初始值,Batch size设置为16,初始学习率4×10-5,使用adam优化器,采用cos学习率下降方式,初始权值衰减为4×10-5.
3.4 评价指标
本文自制的数据集按照PASCAL VOC数据集标准格式制作而成,为检测改进的缺陷检测算法效果,实验评价指标主要由精确率P(precision)、召回率R(recall)、平均精确率mAP(mean average precision) 组成.其计算公式为
(8)
其中,TP是图像中被正确检测为缺陷的目标数,FP是图像中被检测为缺陷的非缺陷目标数.
召回率其计算公式为
(9)
其中,FN为图像中一种缺陷被检测为其他类型缺陷的数量.
精确率是PR曲线和坐标轴形成的区域,平均精确率是多类AP的平均值
(10)
(11)
3.5 实验结果分析
3.5.1 网络检测效果分析
为了更加直观的显示出改进后网络的性能,从测试集中挑选出具有代表性的叶轮叶片和NEU-DET数据集的表面缺陷图片来测试模型的检测效果,如图10和图11所示.图中显示的数值代表检测出表面缺陷种类的置信度,由于本文引用了EPSANet特征主干网络,该网络主干关注通道和空间注意力,整体网络更加关注表面缺陷,同时抑制其他无关信息的干扰,能够更好的提取出表面缺陷的特征信息,添加的FPN特征金字塔模块能够使得整体网络融合多尺度信息,进一步增强网络的特征提取能力,提高对小缺陷目标的检测性能.
图10 在自制叶轮叶片表面缺陷数据集上检测结果Fig.10 Detection results on a home-made impeller blade surface defects dataset
图11 在钢带表面缺陷数据集上检测结果Fig.11 Detection results on a strip surface defects dataset
衡量一个CNN网络的优劣主要取决于其损失值和收敛情况,本实验根据叶轮叶片表面缺陷数据集和NEU-DET数据集在训练过程中的损失值绘制成曲线图,如图12所示.从图中可以看出,在叶轮叶片表面缺陷数据集上在训练到100轮时模型并未收敛,而到达150轮时模型才收敛,在NEU-DET数据集上模型在160轮时已经完全收敛,从而验证了EF-CenterNet算法的有效性.
图12 叶轮叶片表面缺陷数据集和NEU-DET数据集训练损失曲线Fig.12 Impeller blade surface defects dataset and NEU-DET dataset training loss curves
3.5.2 消融实验
为了验证不同模块对于整体网络算法的提升效果,本文在自制叶轮叶片表面缺陷数据集上进行了消融实验,实验结果如表2所示.
表2 叶轮叶片表面缺陷数据集消融实验结果Tab.2 Results of ablation experiments on the impeller blade surface defects dataset 单位:%
从表2中CenterNet+EPSANet的实验结果可以看出,相比于原始CenterNet算法,引入主干特征提取网络使得所有δAP均有提升,在划痕和切削瘤上提升至96.13%和95.29%,在召回率上两者提升至76.47%和61.79%.这是由于EPSANet中的自注意力机制能够自适应地对输入图像中的不同区域进行建模,从而更好地捕捉局部和全局上下文信息.
从表2中CenterNet+FPN的实验结果可以看出,FPN模块的引入使得网络能够更好的学习叶轮叶片中的多尺度特征,导致过切、划痕、切削瘤缺陷的召回率有着显著提高,提升至73.64%、39.91%和65、31%.
当将上述二者共同引入时,在过切、毛刺和切削瘤上的召回率和δAP都达到了最大值,δmAP比原CenterNet提升至96.74%,证明了所提出EF-CenterNet算法具有更强的特征提取能力,从而较好解决叶轮叶片表面缺陷检测问题.
本文选取和实际叶轮叶片缺陷数据较为接近的东北大学钢带表面缺陷公共数据集NEU-DET作为对比,在NEU-DET数据集上也进行了消融实验,NEU-DET数据集的缺陷在尺寸上更小,种类更多,更具有挑战性,实验结果如表3所示.
表3 NEU-DET数据集消融实验结果Tab.3 Results of ablation experiments on the NEU-DET dataset 单位:%
从表3中的CenterNet+EPSANet的实验结果可以看出,相比于CenterNet算法,EPSANet网络的引入主干能够明显提升缺陷的检测效果,使得召回率显著提升,在夹杂、轧制氧化皮和划痕的召回率上分别提升了10.87%、16.08%和13.79%,说明EPSANet在处理具有变化和复杂纹理的图像时具有优势,它通过自注意力机制捕捉图像中的长距离依赖关系,并获取多尺度的语义信息,从而提升了分割的准确性.
从表3中的CenterNet+FPN的实验结果可以看出,当FPN特征金字塔单独引入时,显著提升了召回率,可以发现在裂纹、轧制氧化皮和划痕上的召回率分别达到了19.30%、37.50%和72.40%,FPN通过构建特征金字塔结构,使得网络能够在不同尺度下进行目标检测和回归.这种金字塔式的特征结构使得模型能够在不同尺度上更全面地感知目标,从而提高了召回率.但是在斑块缺陷上的δAP有所下降,这是因为FPN通过在不同的网络层次之间进行特征融合来实现多尺度信息的聚合.然而,在这个过程中,可能会出现信息损失的情况.对于斑块缺陷这种小尺度的目标,可能会因为特征融合导致目标细节信息的丢失,从而降低了检测的精确度.
从表3中的CenterNet+EPSANet+FPN的实验结果可以看出,当EPSANet和FPN同时引入时,夹杂、斑块、点蚀表面和轧制氧化皮的召回率分别到达了最大值,所有类型缺陷的δmAP指标达到了77.37%,比基线CenterNet的δmAP提高了1.99%,进一步论证了该算法能够优化FPN中的特征融合过程,并通过自适应的注意力机制来选择性地关注特征图中的重要区域,使得模型能够更好地利用周围环境的上下文信息,从而提高了缺陷检测的准确性与鲁棒性.
3.5.3 对比实验
为了进一步验证所改进算法的缺陷检测效果,本文选择在公开的NEU-DET数据集上对SSD算法、Faster-RCNN算法、YOLO-V2算法、YOLO-V3算法、YOLO-V4算法、RetinaNet算法和所提出的EF-CenterNet算法进行训练,各个算法在NEU-DET数据集对比实验结果如表4所示.
表4 NEU-DET数据集对比实验结果Tab.4 Comparative experimental results of the NEU-DET dataset
从表4中可以看出,本文所提出的EF-CenterNet算法对比于基线CenterNet算法在所有缺陷的召回率均有提高,整体δmAP指标提高了1.99%;相较于SSD、Faster R-CNN以及YOLO系列等主流算法,大部分缺陷类别的δAP均有提高,而δmAP提升了1.5%以上.以上实验结果说明EF-CenterNet算法能够减少特征信息丢失,充分利用特征信息,使得检测结果更加精确.但在缺陷类型点蚀表面的上δAP不及SSD,这是由于EF-CenterNet算法主要依赖于目标的中心点坐标进行检测,当目标被其他物体遮挡时,导致无法正确识别目标.
4 结 论
本文提出EF-CenterNet算法,利用EPSANet主干特征提取网络改进了原算法的ResNet主干特征提取网络,使网络主干更关注有用的缺陷特征而抑制无用的信息,提升了整体网络特征提取的能力,并引入了FPN特征金字塔结构融合多尺度信息,进一步增强融合特征信息的表达能力,从而提升算法的缺陷检测精度.实验结果表明,在自制叶轮叶片和NEU-DET数据集上表现良好,所提出的EF-CenterNet算法在叶轮叶片5种缺陷上检测精度达到96.74%,相比于基线CenterNet算法提升了1.81%,在钢板表面6种缺陷上的上检测精度比基线CenterNet提升了1.99%.但EF-CenterNet算法的整体网络结构不够轻量化,如何在保证缺陷检测精度不变的情况下,尽可能实现网络模型的参数量的轻量化是下一步的研究工作.