基于改进U-Net的喷射成形高速钢碳化物提取算法
2023-10-23陈家树侯国栋周继宽刘天琪邓百川张祥林
陈家树, 侯国栋, 周继宽, 刘天琪, 邓百川, 张祥林
(1. 华中科技大学 材料科学与工程学院, 湖北 武汉 430074;2. 河冶科技股份有限公司, 河北 石家庄 052165;3. 湖北会盛百模具材料科技有限公司, 湖北 武汉 430080)
高速钢是一种高碳高合金工具钢,具有高硬度、高耐磨性等特点,在机械加工、汽车制造、航空航天等领域有着广泛应用[1]。高速钢的碳含量高达0.7%~1.65%,合金元素含量可达10%~30%。高含量的合金元素使得高速钢经充分淬火后得到高硬度的马氏体组织,并与碳元素结合生成各类碳化物。因此,高速钢热处理后的组织主要由马氏体和碳化物构成[2],而碳化物的种类、分布、大小、形态会对高速钢的各项性能起重要作用[3],故深入研究高速钢中碳化物的演变特点具有重要意义。
早期,钢中碳化物的研究主要依赖于人工检测,但此方法主观因素影响大、结果不够精准且效率低下[4]。因此,将人工定性分析转变为依托于高精度、高效率的自动化定量分析,一直是金相定量分析领域的重要研究课题。如今,传统数字图像处理在人工智能技术的支撑下得到了飞速发展,国内外研究人员利用新兴图像处理技术对钢中碳化物进行了自动化定量分析,并取得了一些成果。如Hecht等[5]对ImageJ软件进行二次开发,设计了基于灰度值的碳化物分割算法。Smeets等[6]借助卷积神经网络将采集到的钢中碳化物的金相照片与标准图库进行匹配,完成了碳化物的自动评级。张吉[7]建立了面积直方图理论与钨系高速钢中碳化物分布的内在联系,总结了碳化物大小和数量随其标准分级的变化规律。单陇红[8]改进了边缘提取算法,并采用自主设计的随机分割算法对GCr15轴承钢中的碳化物均匀分布情况进行评级。
尽管目前对钢中碳化物的自动化定量分析已经取得一定进展,但大多算法及模型无法对钢中碳化物的种类进行明确区分,导致定量分析针对性不足。因此,如何进一步优化模型,提高不同碳化物量化研究的准确性仍值得深入研究。语义分割[9]是将图像中的目标对象从背景中提取出来的技术,精度达像素级别,该技术最早应用于医学领域,如细胞统计、CT影像处理等。由于碳化物在钢基体上的分布与细胞在组织中的分布有一定相似性,将该技术应用到钢中碳化物的提取研究中,能实现不同种类碳化物的精准提取。选用U-Net语义分割模型[10]为基准网络,对其进行针对性改进,从而对高速钢中碳化物进行分割,命名该模型为GSG-Unet,其能自动识别并准确定位微观组织图像上的碳化物,将碳化物从马氏体基体上准确提取出来,从而为碳化物的定量分析提供强有力的自动化技术支持。
1 网络模型设计
U-Net模型的网络结构如图1所示,该模型主干网络由编码器和解码器两部分构成。编码器共5个阶段,前4个阶段的操作是一致的,均通过两次卷积来提取待分割对象特征,以ReLU作为激活函数,该函数为分段线性函数,只有输入为正时才会产生输出结果,因其简单的判别方式已成为许多神经网络的默认激活函数。然后通过一次最大池化操作来进行下采样。而第5阶段由于与解码器相连,下采样变成了上采样,其余操作完全相同。解码器则包含4个阶段,且与编码器前4个阶段一一对应,从而形成“U型结构”,其操作与编码器的第5阶段完全一致。经过编码解码后,最终通过一个1×1的卷积核完成输出。
图1 U-Net模型结构Fig.1 Structure of U-Net model
1.1 GSG-Unet网络模型
U-Net模型本身结构较为简单、网络层数较浅、卷积层感受视野较小、模型抗干扰能力弱,因此需进行适配性的改进以完成碳化物的分割任务。
本文提出的GSG-Unet网络结构如图2所示。改进后模型的编码过程从上到下共5个阶段。前4个阶段由Conv 3×3标准卷积操作、不同数量的ConvNext Block及大小为2×2的最大池化下采样组成,激活函数采用ReLu。5个阶段中加入的模块数量不同,从上至下分别为2、3、9、3、3,共20个,这种“先多后少”的结构设计来源于ConvNext-T网络,该网络已在多个语义分割应用场景证明了其优越性。该策略能够有效地提取出深层次的特征信息,同时减少模型的计算量和参数数量,使得网络具有更好的训练效率[11]。
图2 GSG-Unet模型结构Fig.2 Structure of GSG-Unet model
解码过程从下到上包含4个阶段,与编码器前4个阶段对应。由于改进后的编码器网络结构较深,为保持模型平衡性,改进后模型在解码器阶段也添加了相应数量的ConvNext模块以避免信息丢失问题。解码过程的每个阶段包含2×2的上采样操作、对应编码器相同阶段的ConvNext网络及Conv 3×3标准卷积操作,同样采取RelU激活函数进行判断。
U-Net模型直接将编码器提取到的浅层特征与解码过程中的深层特征进行叠加融合处理,这一操作会将不同量级的特征置于同一地位,从而可能出现目标分割精度低、边缘模糊等问题。针对这一不足,本文提出的GSG-Unet模型将编码器前4个阶段提取到的特征层先通过CBAM注意力机制进行处理,再与解码器中对应阶段的特征进行融合,以此更好地增强模型对特征的关注和提取能力,提高模型性能。
1.2 ConvNeXt Block模块
ConvNeXt是Facebook团队在2020年提出的一种纯卷积神经网络[11],它比目前主流的Swin Transformer结构[12]拥有更快的推理速度及更高的准确率。ConvNeXt Block模块借鉴了 ResNeXt中的分组卷积(Group convolution)[13],在模型复杂度和准确度之间做到了更好的平衡,因此其结构与ResNet Block较为相似,两者结构对比如图3所示。
图3 ConvNeXt Block模块与ResNet Block结构Fig.3 Structures of ConvNeXt Block module and ResNet Block
ConvNeXt Block模型的核心是通过建立起前后层之间的“短路连接”操作以提升训练过程当中梯度的反向传播,从而能训练出更深层的网络模型。该模块采用了MobileNet v2中的Inverted Bottoleneck架构[14],能够从信息含量更为复杂的图像中准确提取到特征。
ConvNeXt Block模块相较于ResNet Block模块做出了以下改进:首先采用深度可分离卷积,并将首次卷积操作的卷积核大小由3×3修正为7×7,从而提升了模型的计算速度和泛化能力;其次,将BN(Batch normalization)批标准化替换为LN(Layer normalization)层标准化,并减少了标准化次数,这一操作使得网络在训练期间始终有一个确定的均值和标准差,令训练更加可靠,且提高了网络训练的速度;最后,ConvNeXt Block模块选择高斯误差线性单元(GeLU)激活函数替代了ReLU,该函数相较于ReLU更加的平滑,加速了网络训练速度,并提高了网络准确性。
1.3 CBAM注意力机制
CBAM(Convolutional block attention module)注意力机制结构如图4所示,该结构由两个模块连接而成,分别生成空间和通道的注意力特征图信息,从而增强特征间的联系。通道注意力机制包含全局平均池化层和全连接层。该模块将每个特征通道上的信息压缩为一个全局统计特征,并自适应地调整每一个特征通道的权重,提高了不同通道特征的表达能力;空间注意力机制结构会对输入的特征图进行全局最大池化和平均池化操作,将得到的两个单元特征图拼接在一起,通过一次层卷积操作获得每个坐标的权重因子,最终特征在空间维度上的表达能力得到了提高。该技术[15]在处理复杂场景和小目标检测等问题时表现出色,能够提高模型的识别精度和泛化性能,因此被广泛应用于各类深度学习模型的改进当中。
图4 CBAM模块结构Fig.4 Structure of CBAM module
2 试验结果及分析
2.1 数据集制作
采用喷射成形HSF122高速钢制作语义分割数据集,该钢种已在企业实际生产中取得良好应用,其微观组织如图5(a)所示。从图5(a)中可以看出,该钢种共含有两种碳化物,其中深色颗粒为MC型碳化物,主要为碳化钒(VC);白色小颗粒为M6C型碳化物,主要成分为W、Mo、Fe和C的混合结合(如Fe3W3C)。
图5 数据集制作过程(a)原图;(b)标注;(c)标签Fig.5 Production process of data set(a) original image; (b) data annotations; (c) label
本文原始数据集采用80张10 000倍下拍摄的HSF122喷射成形高速钢微观组织扫描电镜照片制作而成。对于语义分割任务来说,如果待分割目标过多或过小,模型训练成本会大幅提升,且造成数据标注过于困难,难以区分边界。而10 000倍下扫描电镜照片能清晰地观察不同碳化物的形貌,且数量适中,适合作为数据集样本,同时相同倍数的照片使得数据集样本具备更好的一致性,消除了因金相制备及采集条件造成的信息失真等问题。这些因素可能包括样品制备方法、样品保存方式、电子束能量、加速电压等条件的改变。该数据集采用Labelme深度学习专业标注软件进行制作,过程如图5所示。图5(a)为原始图像,图5(b)是标注过程示例,在此过程中采用不同颜色对两种碳化物进行标记:深色MC型碳化物以红色表示,M6C型碳化物以绿色表示,图5(c)是制作完成后的数据集标准图,此时一张图像被分为背景、MC碳化物、M6C碳化物3个部分,这样的划分使得后续模型训练更加方便高效。
训练深度学习模型常常需要大量数据,但本研究中的初始数据样本较少,因此有必要使用数据增强操作对数据集样本进行扩充。扩充手段包括水平翻转、竖直翻转和对比度增强,数据集扩充后共获得320张图像。采取随机抽样的方式将其分为两个子集:训练集和验证集,其比例为8∶2。再从验证集中随机抽取16张图像作为测试集,最终数据集中含训练集256张、验证集48张、测试集16张。
2.2 试验环境及评价指标
所有网络模型的训练及测试均在同一台计算机上完成。计算机所搭建的深度学习环境配置为:处理器采用Intel Core i7-9700K,GPU采用NVIDIA GeForce RTX 3060显卡,深度学习框架采用TensorFlow,整体开发环境采用Cuda 11.6,Python 3.9,Tensorflow-GPU-2.2.0,优化器为随机梯度下降法(SGD),最大迭代次数设置为100次。采用Voc2007数据集在U-Net上的训练结果作为初始权重进行训练,即迁移学习[16],这种训练方法可以降低训练成本,节省大量的时间和计算资源,是训练自制小规模数据集常用的方式。
2.3 模型性能评价指标
为了对改进方法进行有效性评估,采用多个语义分割任务评价指标对模型性能进行多维度的评价,包括:准确率(Accuracy,Acc)、召回率(Recall)、类平均交并比(Mean intersection over union,MIoU)和骰子系数(Dice coefficient,Dice)。
Acc表示模型预测正确的像素点数与总像素点数之比,准确率越高则表示模型预测性能越好;Recall表示待分割对象中被正确预测到的像素点数与待分割对象实际像素点数之比,召回率越高则表示模型能够更好地找到待检测对象;MIoU表示不同类别待分割对象的交并比均值,交并比是指模型预测出来的像素点与真实待分割对象像素点之间的交集与并集的比值,MIoU越高则表明模型能够更加准确的区分出不同类别的待分割目标;Dice系数表示模型预测结果与真实情况间的重叠情况,它是预测结果和真实结果的交集大小与它们的总大小之比,Dice系数越高,说明模型能够更好地匹配真实情况。它们的混淆矩阵计算公式为:
(1)
(2)
(3)
(4)
式中:TP、TN、FP、FN均为混淆矩阵元素。混淆矩阵是一种用于评估分类模型性能的工具,它由4个元素组成:真正例(TP)、真负例(TN)、假正例(FP)和假负例(FN)。其中,真正例表示模型预测为正例且实际也为正例的样本数;真负例表示模型预测为反例且实际也为反例的样本数;假正例表示模型预测为正例但实际为反例的样本数;假负例表示模型预测为反例但实际为正例的样本数。通过对这4个指标的计算和分析,可以了解分类模型在正负样本上的分类准确性和误判率,从而评估其性能。
2.4 模型性能测试
2.4.1 编码器改进试验
U-Net模型的编码器网络结构复杂程度直接影响到模型提取特征能力的优劣。若编码器网络深度过浅、结构较为简单,则模型提取图像特征的能力将受到限制,难以捕捉复杂特征且抗干扰能力较弱。反之,随着编码器网络的不断加深,虽然提取特征的能力大幅提高,但也会出现过拟合、梯度消失、梯度爆炸等问题,同时计算成本大幅提高,硬件负荷过大导致模型训练困难。因此,选择具有合适网络深度的编码器对模型性能非常重要。
为验证改进后编码器结构ConvNeXt20-Unet的有效性,设计了在编码器中添加不同数量的ConvNeXt Block模块后的网络模型,并进行对比试验,试验方案如表1所示。即通过对比加入0、14、20及29个ConvNeXt Block模块的4种模型,确定编码器改进后的效果。
表1 U-Net编码器改进试验
表1中4种网络模型的性能对比结果如表2所示。从表2中可以看出,原U-Net模型在针对高速钢碳化物的分割任务上表现较差,各项性能表征值均较低,准确率、召回率、类平均交并比、骰子系数分别为77.43%、66.62%、48.56%、54.74%,其中类平均交并比和Dice系数表现过差,均低于60%,说明原U-Net模型无法准确识别碳化物类型并将它们从背景上分割出来,特征提取能力弱;添加了14个ConvNeXt Block模块的CN14-Unet模型在各项性能上较原U-Net模型分别提高2.69%、2.66%、3.19%、4.69%,性能优化效果并不显著;而CN20-Unet模型的改进方式最好,在各项指标上较原U-Net模型分别提高了7.11%、8.79%、8.86%、11.72%,这表明此编码器结构的复杂程度最适合进行碳化物的特征提取;而当模块数进一步增多时,CN29-Unet模型的各项性能有所降低,这可能是由于编码器结构过于复杂,导致了过拟合、梯度爆炸等情况的发生。
表2 不同编码器结构模型性能对比
图6是上述4种网络模型在2张测试集图像上的分割效果。图6(b1,b2)是原始U-Net模型的分割效果,可以看出分割边界不清晰,存在漏分割对象,且分割出的碳化物存在大面积缺失像素,分割效果不佳,说明原模型在该任务上的表现不佳。图6(c1,c2)是CN14-Unet改进模型,可以看出其分割效果较原模型有一定提高,且漏分割问题有改善,但分割出的碳化物仍存在缺失像素,边界不清晰,存在形状与原图差别大等问题。图6(d1,d2)是CN20-Unet改进模型,从分割效果对比图可看出,该改进方案对碳化物的分割情况最好,缺失像素较少,轮廓清晰,且未出现漏分割情况,在本任务上有较好的应用。图6(e1,e2)是编码器网络结构最复杂的改进模型CN29-Unet,此时编码器的结构复杂程度较高,但其模型分割能力反而下降。这说明在设计编辑器模型时,需要做好结构复杂程度与性能之间的平衡,以达到最佳的分割效果。
图6 不同U-net编码器网络结构模型对碳化物的分割效果图(a1,a2)原图;(b1,b2)U-Net;(c1,c2)CN14-Unet;(d1,d2)CN20-Unet;(e1,e2)CN29-UnetFig.6 Effect diagram of carbide segmentation by U-net network with different encoder structures(a1,a2) original image; (b1,b2) U-Net; (c1,c2) CN14-Unet; (d1,d2) CN20-Unet; (e1,e2) CN29-Unet
2.4.2 注意力机制改进试验
选取最佳的编码器改进方案CN20-Unet后,采用添加CBAM注意力机制的方式进一步提升模型性能。向语义分割模型中添加注意力机制是一种常用且有效的改进方式,其能起到提升模型准确率、加强模型泛化性能、减少模型计算量、提高可视化性能等作用。
为验证CBAM注意力机制的有效性,在2.4.1节CN20-Unet模型编码器的解码器特征融合操作中不添加或分别添加SE、CA、CBAM 3种注意力机制,进行4种方案的性能对比,结果如表3所示。从表3中可以看出,加入不同类型的注意力机制可以提高模型的表现性能,相比于CN20-Unet,加入注意力机制后的模型具有更高的准确率、召回率、类平均交并比和骰子系数,说明注意力机制对于提升图像分割性能有一定作用。其中CBAM注意力机制的效果最好,相较不添加注意力机制的CN20-Unet模型,其准确率(91.31%)提高了6.77%,召回率(87.52%)提高了12.11%。同时,CBAM注意力机制的类平均交并比(84.89%)、骰子系数(83.16%)得到大幅提高,相较原始CN20-Unet模型分别提高了27.47%、16.7%。从性能评估上来看,加入CBAM注意力机制后的模型已经能够较好地完成碳化物分割任务,具备实际应用价值。
表3 不同注意力机制CN20-Unet对模型性能的提升对比
图7是CN20-Unet中添加不同注意力机制后的模型分割效果图。其中,图7(b1,b2)是CN20-Unet的分割效果,在2.4.1节已做出评价分析。图7 (c1,c2)是加入SE注意力机制后的分割效果,从图7(c1,c2)中可以看出,分割到的碳化物轮廓更加清晰,漏分割问题得到改善,但该模型对碳化物形状的把控仍存在一定不足。图7 (d1,d2)是加入CA注意力机制后的分割效果,此时模型分割效果也较好,但边界仍存在不连续间断的情况。图7(e1,e2)是加入CBAM注意力机制后的分割效果,综合来看,该注意力机制的改进效果最好,分割出的碳化物基本不存在像素缺失情况,边界清晰连续,形状与原图基本一致,且无漏分割、错分割问题,说明此模型在针对碳化物分割任务上的表现较好,有一定的实用价值。
图7 加入不同注意力机制的CN20-Unet网络模型对碳化物的分割效果图(a1,a2)原图;(b1,b2)CN20-Unet;(c1,c2)SE;(d1,d2)CA;(e1,e2)CBAMFig.7 Effect diagram of carbide segmentation by CN20-Unet network model with different attention mechanisms(a1,a2) original image; (b1,b2) CN20-Unet; (c1,c2) SE; (d1,d2) CA; (e1,e2) CBAM
3 结论
1) 提出了一种适用于喷射成形高速钢碳化物提取的语义分割模型——GSG-Unet,该模型由U-Net模型改进而来。在U-Net的基础上,采用ConvNeXt-T网络结构的思路改进了编码器部分,加强了其特征提取能力,并在编码-解码的特征融合过程中加入CBAM注意力机制提高了分割精度和效果。
2) 改进后模型在模型性能评价指标上较原模型有较大提升。具体来说,改进后模型的准确率、召回率、类平均交并比、骰子系数分别为91.31%、87.52%、84.89%、83.16%,较原模型分别提升了13.88%、20.90%、36.33%、28.42%。改进后模型为高速钢中碳化物的提取及定量分析提供了强有力的支持。
3) 改进后模型在HSF122喷射成形高速钢中碳化物的提取分割上表现较好,能够高效准确地对MC和M6C两种碳化物进行提取。