APP下载

基于U型网络的K-TIG焊熔池图像分割方法研究

2022-07-04黄辉蔡庆荣陆立明李会军

计算技术与自动化 2022年2期
关键词:注意力机制

黄辉 蔡庆荣 陆立明 李会军

关键词:K-TIG焊接;熔池图像分割;编解码结构;注意力机制;多尺度卷积核

在现代制造业中,K-TIG焊由于其在能量密度、焊接效率和熔深能力的优势而被广泛应用。在焊接过程中,熔融金属滴到母材上形成熔池,轮廓是熔体形状中最基本的视觉形态特征,熔池特征能在一定程度上预测焊接质量。近年来,为了监控K-TIG焊过程中熔池形态,研究人员尝试了多种方法。文献[2]通过纵向和横向扫描检测到的边缘位置线,可以估测熔池的形状。文献[3]提出了一种基于Canny边缘检测器改进的边缘检测算法,将其应用在钢板缺陷检测中。文献[4]对梯度算子进行了改进,并将其应用于检测高温凝固金属的质地和边缘。但是,由于焊接工艺和材料的影响,熔池表面的不均匀色彩分布和电弧光反射很容易出现在熔池图像中。

由于K-TIG焊熔池图像特征复杂,在研究其轮廓分割时需要考虑以下因素:(1)由于熔池轮廓前缘被焊接电弧覆盖且熔池表面的亮度饱和区对轮廓后缘产生冲击,熔池边缘与周边界限不清晰。(2)不同工艺参数下,熔池尺寸大小存在较大差异。(3)熔池的形态多样,其边缘呈现不规则形状。因此需要更灵活地对其轮廓形状进行表征。

近年来,随着深度学习的飞速发展,已经被广泛应用于各种工业领域,包括焊接过程的视觉检测。作为计算机视觉的关键问题之一,语义分割引起了研究人员的极大兴趣。语义细分有在许多领域都取得了突破,主要的语义分割网络包括:ENet、SegNet、全卷积神经网络FCN和Unet。在大数据的支持下,这些网络可以在目标细分任务中获得有效的结果。文献[11]在bot-tleneck模块的基础上,引入残差结构,提出了Re-sUNet,在一定程度上减少了因网络层数加深导致信息损耗的影响;为了能在分割过程中获取更好的表示特征,文献提出了递归卷积网络和递归残差卷积神经网络,通过改进模块的卷积变量来积累提取更丰富的特征;文献[13]借鉴inception[147模块,将3、5、7三个尺度的卷积核并联,以实现多感受野特征的分析,然后再采用多个3×3小卷积块串联近似替代更大尺度的卷积操作,提出了Multi-Res模块;同样借鉴inception模块,文献[15]提出一个inception-ResNet-V4模块,加深了网络的宽度,能够解决影像中物体尺寸的巨大变化问题;深度非对称瓶颈网络(Depth-wise AsymmetricBottleneck Network,DABNet)是一种用于语义分割的轻量级卷积神经网络,它在高精确度与高实时性之间的矛盾中找到合适的平衡。

在经典全卷积神经网络UNet中,为了避免在解码时候丢失大量空间精准细节信息,使用了跳跃连接的方法直接将编码阶段提取的特征图堆叠到解码的相对应的层进行特征融合,但是提取的低层特征图有很多冗余信息。文献[17]用4个Atten—tion模块替换bottleneck模块,文献[18]分别用双门递归单元和单门递归单元代替它,新的模块都提升了网络对有效特征的增益;这些改进的模块大部分是通过引入残差结构,获取更多的细节特征,从而增强最终的分割效果。注意力模块可以提升熔池的特征权重,抑制冗余信息的权重;文献[20]首先提出“挤压和激励”模块,一开始的设计目标是通过模拟信道之间的相互依赖关系来提高网络的表现能力,文献[21]首先将“挤压和激励”的模块引入各种编解网络中。

但复杂多样的焊接工艺参数下,K-TIG焊熔池锁孔的大小、形状和位置均会受到影响,导致了在实际焊接环境中熔池图像的分割难度较高,对图像分割网络的精度、效率、鲁棒性有更高的要求。

结合上述语义分割网络的优点,基于深度学习理论和工程应用背景,提出了一种新型的深度分割网络模型用于K-TIG焊过程中熔池輪廓的自动分割。所提出来的模型依据UNet架构,以多尺度残差非对称瓶颈单元为基础特征提取模块,在通道维度加强特征的提取能力,引入挤压激励注意力模块改进网络结构,过滤由于跳跃连接结构带来的冗余信息,使网络更加关注熔池的核心区域。并且结合了retinex算法胡对焊接图像进行增强。最后将网络模型应用于K-TIG焊不锈钢熔池轮廓检测各种焊接参数下的图像分割。

1 K-TIG焊图像采集系统搭建

实验设置包括两个子系统:焊接系统和视觉传感系统。焊接系统主要由1000 AMP电源、控制柜、水冷焊枪组成。视觉传感系统主要由XirisXVC-1000eHDR焊接摄像头与650 nm中心波长滤光片组合而成。摄像机由6自由度支架固定在工作平面,并对准锁孔入口和焊接池区域。焊接系统示意图如图1所示。

火炬在DCEN模式下运行,相机和焊枪静止不动,在焊接过程中工件设置为以给定速度运行,在250mm×150mm×6mm的304不锈钢上进行实验,使用纯氩气作为保护气,流量为25L/min。为了提供所需的电气特性,钨电极的直径为6.4mm的镧。钨尖端到工件的偏移量设置为3mm,摄像机采集频率为1000 Hz,曝光时间为20μs。表1列出了详细的焊接工艺参数。

熔池视觉传感系统采集了1920×1200像素大小的熔池图像,因为采集图像中熔池面积的比例较小,且图像上存在大量黑色像素。为了减少计算量,将以熔池区域为中心切割出512×512像素的感兴趣区域,五组工艺参数下的熔池图像如图2所示。

2基于注意力机制的多尺度UNet模型

2.1模型结构设计

由于在焊接图像中的熔池形态多样,而且不同的熔池尺寸也具有较大的差别,为了获取不同大小感受野的特征图,适应更复杂的分割背景,从而提高编解码网络的特征提取能力,参照UNet的对称式编解码结构,设计了一种基于挤压激励注意力机制的多尺度特征融合Unet(Multiscale Asymmet-ric Bottleneck UNet based on Squeezing Stimu-lates Attention,MDAB-SMA-UNet)的熔池图像分割网络模型。

该网络编码器部分由多个并行结构的多尺度卷积块(Multiscale Asymmetric Bottleneck mod-ule,MDAB)构成,尽可能提升熔池特征提取的能力。在跳跃连接引入跨层的注意力引导机制(Squeezing Stimulates Attention,SMA)提升有效特征增益,使得模型更好地过滤冗余的信息,减少误分割情况的发生。做出像素级别的分割预测,该网络模型的结构图如图3所示。

2.2多尺度特征提取模块

本研究对收缩路径和扩张路径中间的特征提取bottleneck模块做出改进。结合DABNet深度非对称瓶颈网络模块和MultiRes的多分辨率解析的优点,拓宽卷积模块的宽度,进行不同尺度的特征提取,设计了一个并行结构多尺度残差深度非对称瓶颈模块MDAB,如图4所示,具体参数如下:

MDAB的第一条分支,采用一个核为3×3感受野的卷积做特征提取模块,提取局部上下文信息,该分支的运算过程如式(1)所示。

Outputl—Cony 3,3(Input)

(1)

MDAB的第二条分支,采用深度非对称瓶颈网络结构的卷积,DAB分支包含一个3×3卷积、2个常规的非对称卷积、2个非对称空洞卷积以及1个1×1卷积的结构。首先将该模块的输入特征图进行尺寸为3×3卷积核的卷积操作,以达到压缩特征通道数的目的。然后将压缩后的特征图分别输入常规的非对称卷积块与非对称空洞卷积块中,以获得不同感受野的特征。将不同感受野的特征图执行对应点相加操作,再通过1×1卷积恢复原始特征通道数。最后,再与原有的输入特征相加。采用非对称卷积能极大地减少参数量,同时引入空洞卷积来扩大感受野并捕获更多的上下文信息,通过左右分支相融合来获取丰富的语义信息,运算过程如式(2)所示。

符号Input表示模块结构的输入,符号DAB表示函数中间运算层,数字1、2和3分别表示各中问层步骤,符号Output。表示模块输出层,函数Cony(·)表示核尺寸为(n,6)的卷积运算,函数Add(·)表示特征图相加的特征融合运算。

MDAB的第三条分支借鉴MutiResUNet中的卷积模块,在该模块中,使用三个3×3的卷积来达到近似7×7卷积核的效果,再与输入特征图经过1×1卷积的残差结构,得到最终结果。运算过程如下式(3)所示。

符号Input表示模块结构的输入,符号MR表示函数中间运算层,数字1、2和3分别表示各中间层步骤,符号Output。表示模块输出层,函数Cony(·)表示核尺寸为(a,6)的卷积运算,函数Add(·)表示特征图相加的特征融合运算,函数Concate(.)表示通道数的合并的特征融合运算。

MDAB模块最终将三个分支的特征图与恒等映射的特征图进行Concate堆叠特征来丰富语义信息,改进模块的输出结果表示如式(4)所示。

2.3跨层注意力引导模块

焊接图像中,熔池是主要的研究区域,所以分割过程中需要聚焦在熔池附近区域、抑制无关的背景信息,使得最终的分割边缘更加精确。经典编解码结构在逐层处理信息的过程,使用跳跃连接的机制拼接编码和解码阶段的特征图,会造成冗余信息的复用。注意力机制通过对熔池图像里的每个像素加权,使目标区域与较大的权重相乘,而无关的背景区域与小权重相乘,可以有效抑制氩弧光噪声的干扰,减少部分冗余信息。挤压和激励注意力模块(Squeeze and Motivate Attention Module,SMA)的具体结构如图5所示。

图5中,GS是解码部分的特征图,x是编码部分的特征图。输入特征映射x经过一个特征提取模块后,生成输出特征映射P∈RH(H和w分别表示特征图的长和宽,c代表输入和输出的通道数)将Gs视为一个通道组合G一{g-,gz,g。,…,g。},利用全局最大池化函数将每张特征图汇聚到一个点,对空间信息进行压缩,生成向量。

为了获得重新校准的特征增益,进一步对向量进行压缩和ReLu激活函数映射操作,并将其恢复到原始长度。最后,使用sigmoid函数来获得限制在区间[0,1]内的调整后的特征权重a。:

F(.)代表压缩卷积和ReLU函数激活等操作过程,(.)代表Sigmoid函数,a。表示空间特征权重向量,将向量a。作为激励作用在输出特征P上,计算出特征映射u:

注意系数与x中的特征图相乘,会使得不相关的区域的值变小,目标区域的值变大。解码特征经过注意力模块辅助定位后可以降低亮度对比不均匀等背景噪声的干扰,突出熔池分割区域,提高模型的分割精度。

3实验与分析

3.1数据集准备

实验环境如下:NVIDIA GTX 2080 GPU、编程环境Pycharm、深度学习框架Pytorchl.2.0。

在这项研究中,数据集的图像均在实际焊接环境中采集,5000张图像作为训练数据集,1000张图像作为训练验证集,1000张用于测试。为了使网络模型更具有鲁棒性,将数据发送到训练网络之前对熔池数据执行数据增强,并且扩充数据样本,将输入图像采用随机水平翻转、均值减法以及随机比例放缩操作,其参数设置为{O.75,1.0,1.25,1.5,1.75,2.0)。在模型训练中,采取Adam算法作为的优化方法,学习速率设置为0.001,批量大小为16,训练轮数为300。

3.2图像增强

与常规焊接方法相比,K-TIG焊在焊接过程中会产生更强的电弧光。虽然有些光学滤光片可用于约束电弧光,焊接图像仍然不可避免地变得朦胧,远离弧中心的区域可能会缺乏照明。能见度低会削弱图像的清晰度,并阻止深度学习网络有效率的提取特征。MSR(Multi-Scale Retinex)算法可以执行非线性空问变换,可以在保持焊接图像的高保真度的同时对图像动态范围压缩。在训练集的5000张图片中采用MSR算法增强图像将色彩稳定性和局部对比度增强。MSR算法能够将氩弧光与图像中的镜面反射分開,并补偿图像中不连续的亮度。因此,MSR算法在处理对比度和细节信息方面具有优势。

其中,S(x,y)为输入图像的像素值,r(x,y)为增强后的图像像素值,f(x,y)是像素点四周函数,K是中心环绕的数量,是环绕的大小。经过多次实验,K取值3,取值[15,80,200]有较好的实验效果,根据图6可以看出,图像增强后可以有效地消除强烈弧光导致的模糊性,并且熔池区域的细节更加清晰。

3.3网络模型测试结果分析

经过300轮次训练后,使用验证集中的最佳网络模型对测试集中熔池图像进行测试。如图7所示,红色区域为分割结果,与边缘提取算法UNet相比,基于卷积神经网络的轮廓提取方案DAB-UNet、ResUNet、MutiRes UNetl Dense U-Net、MDAB-UNet、MDAB-SMA-UNet均可以获得平滑并在接近真实熔池轮廓边缘分割效果,为便于分析提出方法的分割性能。根据研究对象数据特点以及评价指标之间的相关性,选择其中三项常用的图像分割指标做分割性能上的定量评估。

Dice系数表示图像中预测区域和真实区域交集占二者总面积的比例,计算公式如下:

其中,为预测熔池区域和标签熔池区域的交集像素点,为预测熔池区域像素点,为真实熔池区域像素点,K为类别数。

平均交并比(Mean Intersection over Union,MIOU)的计算公式如下:

其中,为真实像素点被预测为假的像素,是真实像素点被预测为真的像素,为假的像素被预测为真的像素,K+1为类别数。

F1分数是一种用来衡量二分类模型精确度的指标,计算公式如下:

表2列出六种改进卷积模块的实验结果。Re-sUNet的卷积模块引用了残差结构,在一定程度上解决了多次卷积造成的信息丢失问题,因而相比UNet模型在Dice系数、MIOU和F1分数中都有较为明显的提升,但是由于多级联一个1×1的卷积,ResUNet模型的单幅图像分割耗时比UNet模型略高0.0149s;DAB-UNet使用深度非对称瓶颈结构的设计,分割精度对比其他网络有明显提升;MutiResUNet和Dense UNet变体把多个层次的输出特征拼接到一起,多次使用了残差结构,因此分割耗时也更长;因而Dice系数和MIOU与MDAB-UNet的分割指标较为接近;MDAB模块采用并行结构的设计方式,使其能最大程度获取多尺度的特征,因而Dice系数和MIOU分别达到95.32%和82.03%,比UNet模型分别高出3.12%和6.71%。但是“MDAB”模块的结构比较复杂,单幅图像分割耗时为0.1608 s,远高于UNet模型0.0769 s,可明显观察到,MDAB-UNet模型的评估指标也在各种模型对比中取得较好的成绩。

MDAB-SMA-UNet借鉴了同类型图像分割网络的改进思路,引入SMA注意力模块,其Dice系数、MIOU以及F1分数分别达到95.78%、83.32%、91.86%,在各种分割模型中达到最佳,比表3中的MDAB-UNet模型分别高出0.46%、0.27%、1.26%,进一步说明该模型具备优秀的性能,但是由于添加了注意力模块,单幅分割耗时达到了0.1978s。

为了使实验数据分析更科学,同时为了测试模型的可靠稳定程度,将数据集随机分为5份,4份用作训练集,1份用作测试集,对MDAB-SMA-UNet框架单独进行交叉验证实验,实验结果如表3所示。考虑到分割精准度、鲁棒性和分割效率,选择MDAB-SMA-Net作为K-TIG焊熔池图像分割的网络体系结构是有效可靠的。

4结论

针对K-TIG焊接熔池区域存在的边缘与周边界限不清晰、尺寸大小存在较大差异、边缘呈现不规则形状的特点,开发视觉监控系统采集焊接过程中熔池的图像,提出了一种基于注意力机制的多尺度u型结构网络模型分割熔池的轮廓。该模型包括设计了一种多尺度感受野的卷积模块,以此替代UNet模型原本的Bottleneck模块,获取熔池形态的细节信息;在跳跃连接中加入了挤压和激励注意力模块,提升有效的特征增益,减少误分割情况的发生。通过与其他主流分割网络的实验结果对比显示,所提出的模型在單帧熔池轮廓检测中具有更好的分割效果。

猜你喜欢

注意力机制
基于注意力机制的行人轨迹预测生成模型
基于注意力机制和BGRU网络的文本情感分析方法研究
多特征融合的中文实体关系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度学习的手分割算法研究
从餐馆评论中提取方面术语
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法