基于改进UNet的人造板表面缺陷的图像分割方法

2022-09-09张平均翁悦王小红李稳稳林艺斌

福建工程学院学报 2022年4期

张平均，翁悦，王小红，李稳稳，林艺斌

(1.福建工程学院电子电气与物理学院，福建福州350118；2.漳州鑫华成机械制造有限公司，福建漳州 363999)

人造板在生产过程中由于原料的成分与配比、技术设备工艺等因素，表面会出现油污、胶斑、裂纹和沙痕等缺陷[1]。目前人造板表面缺陷检测主要还是依靠人工识别，容易产生错检和漏检，亟需开发基于机器视觉的人造板表面缺陷图像检测方法[2]。

图像分割是缺陷检测过程中一个关键的步骤，目的是在缺陷分类识别前将缺陷区域从人造板表面图像中分割出来。2018年，郭慧[3]等人提出一种基于灰度共生矩阵分层聚类的缺陷提取算法，根据缺陷区域与正常区域纹理不同的特点来提取缺陷，但分割缺陷的过程较长，需设定待提取的缺陷特征。2020年，郭慧[4]等人又提出了一种自适应快速阈值图像分割算法，通过改进Otsu算法能够根据当前图像给出最佳的类间分割阈值，但对于原料成分复杂、表面粗糙的人造板，缺陷的阈值与背景十分接近，无法达到预期检测效果。近年来，深度学习在图像处理领域表现出色，有不少研究者将图像的语义分割技术应用于材料缺陷检测[5]。2019年，He[6]等人提出了一种混和全卷积神经网络(mix full convolutionnal net work，Mix-FCN)的方法来检测木材表面的缺陷，准确率达到91.31%。UNet是由全卷积神经网络(FCN)改进得到的网络，主要应用于医学图像细胞分割[7]。2020年，Rahman[8]等人提出了一种融合多注意力机制的UNet卷积神经网络应用于太阳能电池缺陷检测，提高了检测的准确率。2021年，谢舰[9]等人基于UNet网络的架构添加辅助损失函数并进行在线数据增强，提升了磁瓦表面缺陷的分割准确率。上述所用UNet的特征提取网络都是基于VGG16(visual geometry group 16)网络构造的[10]，网络层数较少，上一层提取的缺陷特征不能充分表达到下一层，并且随着网络加深，梯度不断消失，产生学习效率下降与准确率无法有效提高的问题，同时直连的跳跃连接方法无法突出显示目标区域信息，容易被干扰信息影响，混入噪声。

本研究针对缺陷特征提取与目标区域位置信息学习两个问题，提出一种基于注意力机制的残差UNet语义分割网络模型，对人造板的表面图像缺陷提取更深层次特征，增强模型泛化能力，提高缺陷分割的准确率与精度。

1 改进UNet的网络设计

1.1 特征提取增强的残差UNet网络

UNet网络是一种从端到端的检测网络系统,主要包含上采样、下采样和跳跃连接。网络由两条对称路径构成，左半部分实现下采样过程，过程中图像不断进行卷积操作和下采样，以提取图像特征，获取特征信息，该过程称为编码过程。本研究选取ResNet50(resdiual network 50)网络替换原始的VGG16特征提取网络部分，该网络是2015年由He[11]等人提出的残差网络模型，能有效缓解梯度弥散和网络退化两个问题，增强各层之间的特征融合，更好地保留缺陷区域的特征信息。ResNet50的残差块包括3个卷积层，排序为：1×1，3×3，1×1，还有线性单元ReLU和线性映射Identity。ResNet50第二层残差块内部结构如图1所示。

图1 ResNet50第二层残差块内部结构

在残差结构中，Identity可以把先前丢失的信息重新传入网络，此前的权值层信息x与此时的输出残差F(x)叠加后再通过激活函数得到输出H(x)输入到网络下一层，残差的表述如下：

F(x)=H(x)-x

(1)

ResNet50特征提取部分通过4个层数的残差块的叠加构成，每层残差块叠加的数量依次为3、4、6、3，如表1所示。

表1 ResNet50特征提取网络结构

1.2 增强位置信息学习的聚焦注意力机制

UNet网络结构中的跳跃连接过程是将上采样过程中的特征图与下采样过程中的特征图融合，融合方式是叠加特征图通道数。但在卷积操作过程中，特征图被不断压缩，缺陷的有效信息逐渐丢失。为了提高准确性，本研究在原有的跳跃连接上嵌入一种聚焦注意力机制模块(attention focusing mechanism module)[12]，模块内部如图2所示。该模块能够提取多尺度图像特征，捕捉上下文信息，聚焦目标区域，增强对缺陷区域类别和位置的信息学习。提取的特征图随后通过跳跃连接进行合并，引入针对局部区域的注意力系数，抑制不相关的背景区域信息，突出显示缺陷区域。

图2 聚焦注意力机制模块内部结构

(2)

加权后的特征经过ReLU后再与1×1×1卷积进行点乘运算得到注意力中间矩阵qatt，如式(3)所示：

qatt=ΦT(σ1(ws))

(3)

式中的σ1表示ReLU激活函数，Φ表示1×1×1卷积。qatt经过Sigmoid激活函数得到最终基于空间的注意力权重矩阵，如式(4)所示：

α=σ2(qatt(f;δatt))

(4)

式中的σ2表示Sigmoid激活函数,δatt表示特征提取过程中的参数。最后把更新后的注意力权重矩阵和输入的原始特征图f点乘得到信息更丰富的输出特征图m，如式(5)所示：

m=α·f

(5)

1.3 融合聚焦注意力机制的残差UNet网络

本研究通过将左半部分编码过程中的特征提取网络换为提取深层次特征效果更好的ResNet50网络，将原始的ResNet50网络最后部分的全连接层和平均池化层去掉，保留特征提取结构，并在跳跃连接中嵌入一种聚焦注意力机制模块来抑制干扰信息，聚焦缺陷位置，保留目标区域有效信息，加强编码过程的特征与右半部分解码过程(上采样)的特征进行对应拼接，扩大特征图尺寸，对目标精确定位，最后进行二分类或多分类的输出。将改进后的网络命名为融合聚焦注意力机制的残差UNet(attention focusing residual UNet, Att-ResUNet)，其网络结构示意图如图3所示。

图3 Att-ResUNet网络结构

2 实验分析

2.1 图像数据集

本次实验的人造板表面缺陷数据集由漳州鑫华成机械制造有限公司提供，共52张胶斑缺陷图片，为避免训练过程中过拟合现象的出现，利用数据增强对训练集进行扩充，通过对图片旋转角度、镜像翻转、等比例缩放、对比度调节方法，形成468张图片，并对所有图片的缺陷位置做好对应标注，训练集和测试集按4∶1划分。

2.2 评价指标

本次实验选取像素准确率(pixel accuracy，PA)和平均交并比(mean intersection over union，MIoU)作为实验的评价指标。

像素准确率是一种比较简单的评价指标，它是通过预测类别正确的像素数占总像素数的比例来表示，其表达式为：

(6)

其中，FN表示被模型错误的分为负例，实际是正例；FP为被模型错误的分为正例，实际是负例；TP为被模型正确的分为正例，实际为正例；TN为被模型正确的分为负例，实际为负例。

平均交并比是对IoU指标优化的结果，IoU表示一种类别预测结果和真实值的交集与并集的比值，MIoU是计算每类的IoU的均值，其表达式为：

(7)

2.3 训练

为确保实验数据的准确性与有效性，本文实验都是在同一台基于Windows10操作系统电脑上完成，电脑的硬件环境和软件环境如表2所示。

表2 实验环境

训练开始时将输入的图片尺寸统一处理成256×256，训练过程中使用Adam算法进行优化，迭代300个训练周期，前100个周期学习率调为0.001，100个周期之后学习率调整为0.000 1，动量为0.9，采样批数据为2。实验采用的二分类损失函数(binary cross entropy，BCE)，公式如下：

BCE=

(8)

2.4 实验结果分析

为了验证设计模型的效果，本研究选取传统的UNet、UNet结合聚焦注意力模块(attention focusing UNet, Att-UNet)和特征提取网络更换为残差网络的UNet(residual UNet, ResUNet)3种网络模型与Att-ResUNet 模型进行实验对比，研究引入不同模块的作用。

表3所示为4种模型的实验结果。可见UNet分别引入残差网络和聚焦注意力机制模块的2种网络在像素准确率和平均交并比两个指标上较传统的UNet有小幅提升，而将2个模块同时融入到UNet中时，像素准确率提升了4.49%，平均交并比提升了12.53%，2项评价指标达到了更优。

表3 4种模型实验指标对比

4种模型对胶斑缺陷的分割效果如图4所示，传统UNet模型缺陷边界粗糙且模糊，引入残差网络的ResUNet模型增强了上下文信息表示，缺陷的边缘轮廓更为清晰，而引入注意力模块的Att-UNet模型有效消除了不必要的噪声，去除了非缺陷目标的干扰像素点，同时引入2个模块的Att-ResUNet 模型分割出的区域图像更加连续、平滑。实验结果表明，本研究所提出的Att-ResUNet网络显著提高了缺陷分割的精度。

图4 4种模型胶斑缺陷分割效果对比

3 结语

针对人造板表面缺陷图像，传统算法对缺陷特征提取能力弱，无法准确学习目标区域位置信息的问题，本研究提出了一种基于改进UNet的语义分割网络模型，将原始UNet特征提取网络换成ResNet50的网络结构并去掉最后的平均池化层和全连接层，增强上下层有效特征的传递，更加有效地提取缺陷的细节特征，同时在原始网络的跳跃连接层中引入一种聚焦注意力机制模块，对人造板表面背景的噪声信息进行抑制、消除干扰，保存有效位置信息。

实验选取原始UNet、Att-UNet和ResUNet与本研究所提出的网络模型进行对比实验。结果表明，同时引入2个模块的Att-ResUNet网络在像素准确率和平均交并比两个指标上提升更高，且缺陷图像分割精度更优，验证了改进网络模型有效，达到了人造板表面缺陷图像分割的精度要求。