基于改进Unet的食品包装盒图像分割

2024-06-17周阳贺福强聂文豪陈其梅

软件工程 2024年6期

周阳贺福强聂文豪陈其梅

摘要：

本文针对工业生产现场的复杂背景对印刷品缺陷检测造成的影响，以及为了更加精准地检测食品包装盒图像上的小目标，提出了一种基于改进Unet的语义分割算法，将前景图像从复杂的图像中提取出来，采用VGG16作为Unet网络的主干提取部分，提取高层的全局特征信息；引入了注意力机制提高图像分割的精确度和细节保留能力。经改进的Unet模型的评价指标IoU、mIoU、PA、F1＼|score分别为99.45%、99.60%、99.83%、99.72%，相比原Unet模型，各项指标分别提升了1.73百分点、1.24百分点、0.53百分点、0.87百分点，能够更加精准地分割食品包装盒与传送带背景的边缘，为后续的缺陷检测提供了精准的数据支持。

关键词：食品包装盒；图像分割；Unet；注意力机制

中图分类号：TP391.4 文献标志码：A

0 引言（Introduction）

在工业智能化的背景下，对印刷品表面质量检测技术是促使印刷行业印品质量的检测智能化的核心，需要通过算法识别并定位印刷品的缺陷。在工业生产场景中，印刷品的检测要满足高效需求，通常使用蜂窝眼传送带输送印刷品，由于传送速度较快，蜂窝眼传送带纹理和颜色的干扰会使某些印刷品的边界难以识别，加大了检测难度。为了实时快速、准确地在线检测印刷品的质量缺陷，需要将印刷品的前景图像从生产现场的复杂背景环境中分割出来，保证后续产品质量缺陷检测的精度。随着深度学习的迅速发展，有许多学者将语义分割应用于不同的领域，并取得了很多成果。ZHANG等［1］针对混凝土裂缝检测算法实现复杂、泛化能力弱及像素精度较低等问题，提出了一种基于Unet的改进方法CrackUnet，采用名为广义骰子损失（generalized dice loss）的新损失函数进行像素级裂缝自动检测。SINGH等［2］针对卫星图像提取植被和城市的问题，在Deep Unet使用两种超像素分割算法FAAGKFCM和SLIC Superpixel对图像进行预处理，建立基于卫星图像的不同垃圾填埋场分类映射并绘制土地覆被图。BOUGOURZI等［3］提出了PAtt＼|Unet和DAtt＼|Unet架构，提高了肺叶图像内 Covid＼|19 感染的分割性能。

目前，工业场景下使用更多的是基于传统的方法进行图像的分割，需要根据每种产品图像的特性设计分割的算法，本文针对这个问题在Unet的基础上做了改进，使用VGG16网络取代Unet的下采样来提取图像特征，并且引入了注意力机制，使网络可以自适应地学习到每个通道的重要性，帮助模型提高分割精度、减少背景干扰、处理多目标场景、增强细节信息及适应不同尺度的图像，从而提高分割模型的性能和效果。

1 网络模型（Network model）

1.1 Unet模型结构[HJ1.5mm]

Unet模型是由德国弗莱堡大学的Olaf Ronneberger等提出的，通常用于生物医学领域的图像分割。Unet模型的结构优美（图1），是一个呈对称分布的“U”形结构。Unet模型具有对称的编码器和解码器结构，编码器就是图1中左边的部分，能够层层压缩图像的分辨率并提取图像特征信息，而解码器是图1中右边的部分，将压缩图像层层还原并与每层相同分辨率的图像进行融合，得到更全面的上下文和位置信息。

当图像被输入Unet模型中，先经过编码器，即主干特征提取网络，该过程会对输入图像进行两次3×3的卷积，提取有效的特征层，并对特征层使用ReLU非线性激活函数和通过2×2的最大池化maxpooling进行下采样，然后重复对特征层进行上述操作3次，共计执行4次下采样，最终会得到5个有效特征层。通过对模型最底层的有效特征层执行上采样操作，会生成一个新的特征层，将这个新的特征层与主干特征提取网络的第四层特征拼接，实现特征的融合。对通过两次3×3的卷积得到的特征层执行上采样操作，并将其与主干特征提取网络的第三层特征层进行拼接，再进行特征融合，重复这个过程两次，共计执行4次上采样，得到了与原始输入图像相同尺寸的特征图，然后进行两次3×3的卷积后，再使用1×1的卷积将通道数调整为类别数，得到最终的预测结果。

1.2 改进主干特征提取网络

Unet模型的主干提取部分网络较浅，是由几个卷积和最大池化层构成的，在提取浅层特征信息时有一定的优势，但是可能无法提取到高层的全局特征信息［4］，因此本文考虑在主干提取网络部分使用VGG16网络进行特征的提取［5］，可以得到更高层抽象的特征信息。VGG16网络结构如图2所示。

本文使用VGG16作为主干提取网络进行下采样，对比原本的Unet主干提取网络，将主干提取网络下采样中的两次卷积调整为3次卷积，增强了网络的非线性变换能力，大大提高了网络对高层抽象特征的提取，同时减少了特征图在下采样过程中的信息损失，提高了Unet模型对图像细节和边缘的保留能力，得到的结果有清晰的细节和完整的边缘信息。

1.3 CBAM与SE注意力机制

注意力机制是一种让模型学习和关注重要信息的方法，它可以让模型将注意力集中于图像中的重要区域或特征［6＼|7］，进而提高分割模型的准确性和精度。CBAM模块（Convolutional Block Attention Module）由通道注意力模块（Channel Attention Module）和空间注意力模块（Spatial Attention Module）组成［8］，CBAM注意力机制结构如图3所示，它能够自动识别并赋予重要性权重给特征图中关键的通道和空间位置，提高整个Unet模型对空间和通道注意力的学习能力，从而增强Unet模型的特征表示能力和整体性能，CBAM注意力机制的公式如下：

SE（Squeeze＼|and＼|Excitation）是一种注意力机制模块［9］，用于神经网络模型的特征表示能力，通过学习自适应地分配不同的特征图通道权重［图4（a）］，提高模型对不同通道的关注能力。

首先，第一步的 Fsq压缩机制是将通道全局平均池化，将输入的特征图压缩成1×1×C的特征向量[WTHX]Z[WTBZ]［图4（b）］，这个特征向量包含了上下文信息，能够表示每个通道的重要性，降低了对通道的依赖性，压缩机制的公式如下：

其次，通过Fex激励机制将特征向量[WTHX]Z[WTBX]中的上下文信息捕获通道依赖性，这一机制包含由两个全连接层构成的门控结构，最后得到权重s，用来描述特征图x中不同通道特征图的权重，激励机制的公式如下：

其中：S是计算得到的权重，[WTHX]Z[WTBX]是压缩机制得到的特征向量，W是网络学习得到的权重，W1和W2是两个全连接层，δ是ReLU非线性激活函数，σ是sigmoid激活函数。

最后，将生成的权重S与输入特征x对应通道相乘得到SE注意力机制的特征图x～，将激励机制生成的自适应权重应用到输入特征图的每个通道中，使模型能够关注更重要的特征，提高了Unet模型的性能。

1.4 改进的Unet模型结构

改进的Unet模型框架如图5所示，在主干特征提取阶段使用VGG16的部分网络，将Unet模型的两次卷积换成3次卷积，有更多的卷积层意味着能够提取更丰富的特征，在跳跃连接到解码器之前加入CBAM注意力机制模块，在输出卷积前加入SE注意力机制模块，让模型关注图像中的重要细节信息，特别是食品包装盒的纹理、形状和边界等细节信息，让Unet模型中编码器部分捕获到的低级和高级语义信息能更好地与解码器中的特征融合，使得上采样后的图像能够保留更多的原始特征信息，最终实现对不同食品包装盒与蜂窝孔传送带（背景）的准确可靠分割。

2 实验与分析（Experiment and analysis）

2.1 实验准备

本文使用自制的食品包装盒图像分割数据集，在生产线上采集食品包装盒图像，图像使用labelme进行标注，将图片中的像素点分别划分为两类，分别是Print（印刷品）和Background（背景）。如图6所示，食品包装盒图像数据集共400张图片，包含不同的食品包装盒图像，如图6（a）至图6（d）所示，分别为刺梨汁、枣仁安神胶囊、黄连上清片和仙灵骨葆片的包装盒图像，图像的大小、边缘和颜色各不相同，通过镜像、旋转、裁剪、对比度增强等方法实现数据增强，将数据集扩充至1 000张。

本文实验的硬件参数配置如表1所示，模型训练使用随机梯度下降SGD（Stochastic Gradient Descent）作为优化器，初始学习率为1×10-4，使用在voc2007数据集上训练的权重作为初始权值，在其基础上训练食品包装盒数据集的改进Unet模型，训练模型共训练100轮。

2.2 评价指标

本文采用像素准确率（Pixel Accuracy，PA）、交并比（Intersection over Union，IoU）、平均交并比（Mean Intersection over Union，mIoU）及F1＼|score（F1）对模型的图像分割性能进行评判。其中，PA是指预测正确的像素数量占整个图像的像素数量的比例，分数越高，代表图像整体的分割效果越好，但是PA只关注像素级别的准确性，忽略了类别的平衡性和分割的细节，其公式如下：

IoU是指预测食品包装盒分割模板和真实标注模板的交集与并集之比，分数越高，代表预测的分割模板与真实标注模板的重叠程度越好，意味着模型能够更好地捕捉到食品包装盒的边界和形状，模型分割精度也越高，但IoU忽略了像素级别的准确性和类别的平衡性，其公式如下：

IoU=TPTP+FP+FN[JZ）][JY]（6）

mIoU是平均计算所有类别的IoU，如果模型在某些类别上的分割结果较差，就会降低mIoU值，因此可以对不同类别的分割结果做整体评估。

F1是准确率（Precision）和召回率（Recall）的调和平均数，能够平衡预测的准确性和对正类别的识别能力，其公式如下：

2.3 消融实验

将CBAM注意力机制与SE注意力机制加入原Unet模型中，可以让模型将注意力集中于图像中的重要区域或特征，提高分割模型的准确性和精度，同时采用VGG16网络作为核心的特征提取网络，替换Unet原有的主干网络，并引入了两种注意力机制进行模型的训练和分析。实验结果如表2所示，引入两种注意力机制的模型的各项指标均高于原Unet模型；加入CBAM注意力机制的模型的IoU、mIoU、PA及F1指标相比原Unet模型，分别提升了1.89百分点、1.03百分点、0.43百分点、0.73百分点；加入SE注意力机制的模型的IoU、mIoU、PA及F1指标相比原Unet模型，分别提升了0.98百分点、0.68百分点、0.28百分点、0.49百分点；而将两种注意力机制一起加入原Unet模型后，其IoU、mIoU、PA及F1指标分别提升了1.73百分点、1.24百分点、0.53百分点、0.87百分点，说明在模型中引入注意力机制的有效性。

为了验证改进的Unet模型的性能，将其与基线Unet模型对比。如图7所示，图7（a）、图7（b）、图7（c）分别表示为训练损失、验证损失和mIoU的对比，结果显示改进的Unet模型在这三个指标上的性能都远高于基线模型，说明改进的Unet模型的有效性。

2.4 对比实验

为了验证本文提出的改进的Unet模型的分割性能，本文选取3种典型的语义分割算法DeepLabv3+、原Unet和PSPNet，将以上3种算法与改进的Unet模型算法进行图像分割结果的对比，结果如图8（a）至图8（d）所示。从图中可以看出，4种语义分割算法都能够大致分割出食品包装盒的主体部分，但DeepLabv3+、原Unet、PSPNet对离传送带最近的包装盒的边缘出现了过分割或者欠分割的问题，在图8（a）至图8（c）中，DeepLabv3+、原Unet、PSPNet对食品包装盒与背景连接的转角处出现将背景识别为包装盒而把包装盒识别为背景的情况，而改进的Unet模型只在图8（d）中对靠近背景的边缘分割出现分割分界线不够明确的结果，对其他的食品包装盒包括边缘密集的转角处都能很精细地分割出来。

通过测试集计算，得到了不同网络的IoU、mIoU、PA及F1指标对照如表3所示，改进的Unet的IoU、mIoU、PA以及F1指标分别为99.45%、99.60%、99.83%、99.72%，高于其他3种模型，相较于原Unet模型，上述4项指标分别提升了1.73百分点、1.24百分点、0.53百分点、0.87百分点。综上所述，本文提出的改进Unet模型能够更加完整地分割食品包装盒及精准地分割包装盒边缘，为后续的缺陷检测提供了精准的数据支持。

3 结论（Conclusion）

对印刷品进行表面质量检测之前，先将其从复杂背景环境中分割出来，能够提高后续缺陷检测的精度并降低计算成本。针对传统算法必须对不同的对象使用不同的分割算法而导致效率低下的问题，本文提出了改进的Unet模型，在原Unet模型中将特征提取部分修改为VGG16的部分网络，并采用了CBAM注意力机制和SE注意力机制，使模型能够区分不同目标之间的边界，捕捉目标区域的细节信息，从而提高分割的精确度和细节保留能力，解决了其他模型对食品包装盒和背景分割效果不好的问题。改进的Unet模型的评价指标IoU、mIoU、PA、F1指标分别为99.45%、99.60%、99.83%、99.72%，高于其他模型，实现了将食品包装盒从复杂背景中分割出来，降低了下一步食品包装盒缺陷检测时的计算成本，同时解决了对缺陷进行识别与定位时存在的背景干扰问题。

参考文献（References）

［1］ ZHANG L X，SHEN J K，ZHU B J. A research on an improved Unet＼|based concrete crack detection algorithm［J］. Structural health monitoring，2021，20（4）：1864＼|1879.

［2］ SINGH N J，NONGMEIKAPAM K. Semantic segmentation of satellite images using deep＼|Unet［J］. Arabian journal for science and engineering，2023，48（2）：1193＼|1205.

［3］ BOUGOURZI F，DISTANTE C，DORNAIKA F，et al. PDAtt＼|Unet：pyramid Dual＼|Decoder Attention Unet for Covid＼|19 infection segmentation from CT＼|scans［J］. Medical image analysis，2023，86：102797.

［4］殷金平. 基于深度学习的地质裂缝识别方法研究与实现［D］. 大庆：东北石油大学，2022.

［5］胡骏，陆兴华，林柽莼，等. 改进的VGG16在水稻稻瘟病图像识别中的应用［J］. 计算机应用，2023，43（S2）：196＼|200.

［6］刘颖，孙海江，赵勇先. 基于注意力机制的复杂背景下红外弱小目标检测方法研究［J］. 液晶与显示，2023，38（11）：1455＼|1467.

［7］ GUO Y Y，AGGREY S E，YANG X，et al. Detecting broiler chickens on litter floor with the YOLOv5＼|CBAM deep learning model［J］. Artificial intelligence in agriculture，2023，9：36＼|45.

［8］孙凌辉，赵丽科，李琛，等. 融入CBAM的Res＼|UNet高分辨率遥感影像语义分割模型［J］. 地理空间信息，2024，22（2）：68＼|70.

［9］ LI K，HUANG W，HU G Y，et al. Ultra＼|short term power load forecasting based on CEEMDAN＼|SE and LSTM neural network［J］. Energy and buildings，2023，279：112666.

作者简介：

周阳（1998＼|），男，硕士生。研究领域：机器视觉，缺陷检测。

贺福强（1975＼|），男，博士，副教授。研究领域：机器视觉与模式识别。

聂文豪（1976＼|），男，本科，高级工程师。研究领域：印刷技术。

陈其梅（1977＼|），女，本科，高级工程师。研究领域：印刷技术。