APP下载

基于多尺度融合的一次性竹筷表面缺陷检测方法

2024-05-20周宇博匡迎春

现代计算机 2024年5期
关键词:竹筷注意力样本

周宇博,沈 岳,匡迎春

(湖南农业大学信息与智能科学技术学院,长沙 410128)

0 引言

竹筷缺陷检测在竹筷生产过程中具有重要的意义[1]。竹筷是日常餐桌上常用的餐具之一,质量直接关系到用户的使用体验和健康安全。及时发现和筛选出存在缺陷的竹筷,确保符合质量标准的竹筷进入市场流通,保障用户的饮食安全至关重要。竹筷作为一种可再生资源,生产需要消耗大量的竹子。而竹子的生长需要较长的时间,在资源有限的情况下,竹筷的质量和可用性变得尤为重要。通过缺陷检测减少不合格竹筷的生产和浪费,提高资源利用效率,降低对环境的影响。此外,竹筷的生产规模庞大,传统的人工检测效率低下且存在主观性,采用自动化的竹筷缺陷检测系统,寻求精准高效的竹筷实时检测为目标,探索新的方法和途径。

近年来,基于机器视觉的图像检测技术得到了巨大发展[2]。传统的机器视觉方法用于缺陷识别,通常涉及灰度变换[3]、平滑滤波[4]、阈值分割、边缘检测[5]和轮廓提取等步骤。然而,这种传统方法在准确率、稳定性和实时性方面存在着一些限制,导致其识别效果不理想且无法满足实时性要求。随着传统目标检测算法的发展,性能提升也遇到了瓶颈。

算法主要存在以下问题:检测图像的同时会生成大量冗余的候选区域,从复杂的图像中提出具有丰富语义信息的区域十分困难。因此,在面对复杂背景、光照不足、缺陷较小的场景时,传统目标检测算法容易出现漏检和误检操作,导致检测精度低、实时性差,并且泛化能力弱[6]。

为了解决这个问题,提出了一种多尺度加权特征融合网络,通过自适应加权特征融合捕获全局上下文信息,增加检测网络的感受野并提取高级缺陷特征。采用改进的Retinex 图像增强方法[7],学习从低光图像到正常图像的端到端映射,提升特征提取中的特征表示,获得噪声少的图像,还能大幅度提升图像的亮度,对于细节特征的提取有很大的优势。同时在模型中加入坐标注意(CA)模块[8],学习输入图像的通道间缺陷特征信息和位置信息,从而增强目标特征并抑制无用特征。

通过学习输入训练数据的固有特征,在没有标签信息的情况下学习一些特征和联系,并根据无标签数据的模式自动对输入训练数据进行分类[9]。将正样本对的距离最小化以及负样本对的距离最大化,获取具有较强区分性的正负样本内在表示,依赖数据本身的固有特征和关系,以自动对未标记的数据进行分类。新的竹筷图片输入到模型当中时,将原始特征分布投影到低维特征,以扩大缺陷和噪声背景之间的距离,神经网络学习序列的前几个表示,并进行后续表示的预测。当序列的表示属于相同类别(正时),预测与真实表示的距离被期望保持较小;如果后续的片段被其他类别的数据随机替换(负时),则预测与真实表示的距离被期望保持较大。模型从中抽取序列中的关键特征,并在训练中使得正样本的表示更为接近,负样本的表示更为远离。与传统的检测方法相比,该方法对于数据集样本的限制更少,计算的复杂度更低,为实际应用提供了更好的选择。

1 模型方法

1.1 整体架构

EfficientNet[10]对CNN 的维度进行缩放,包括深度、宽度,以及图像分辨率,以实现网络的高效性。采用了复合缩放方法,使用移动倒瓶颈卷积(MB-Conv)作为基线网络,并将其扩展为EfficientNet,在各个维度上实现网络的扩展。EfficientNetv2[11]进一步优化了该架构,动态调整正则化方法,以适应训练图像的大小,在训练速度和参数数量上超越了EfficientNet。EfficientNetv2 的核心结构包括移动翻转瓶颈卷积结构(MBConv)和融合移动翻转瓶颈卷积结构(Fused_MBConv)模块,这些模块共同构成了高效的网络设计。其结构如图1所示。

图1 MBConv和Fused-MBConv结构图

将输入的图片做一次线性变换降维,同时嵌入位置信息,再输入到主干网络中进行特征提取,以获得特征映射。特征金字塔网络[12]在主干网络当中融合了输入图像的多层次特征,增强了特征的多尺度表达。通过多通道的处理,将这些特征映射整合在一起,形成多通道的特征表示,模型可以更全面地捕捉图像的局部和全局特征。提高对图像内容的抽象和理解,并为后续的任务(如目标检测、分类等)提供更具信息丰富的输入。利用候选区域网络(RPN)生成候选框[13],框是由特征映射上提出的。形成了候选框架,使用预定义的区域提取网络和由主干网络生成的特征映射。特征映射被发送到候选框网络,以生成所需的候选框,将ROI 池化层的特征映射传递到完全连接层和激活层,得到坐标回归参数和模型损失。模型能够学习如何准确地定位和分类目标,调整坐标参数实现检测任务,其整体架构如图2所示。

图2 整体架构图

1.2 改进的CA注意力机制

坐标注意力机制对输入特征图在水平和垂直方向进行平均池化,生成两个一维向量。两个向量在空间维度上拼接,并通过1*1 的卷积层减少通道数。对得到的特征向量进行批量归一化和非线性激活操作[14],以捕捉垂直和水平方向的空间信息。两个1 × 1 的卷积操作,将编码后的向量分别调整为与输入特征图相同的通道数。最终,通过归一化加权的方式,融合了水平和垂直方向的信息,生成最终的输出特征图。

SE 注意力机制关注于通过建模通道关系重新评估每个通道的重要性,却忽视了位置信息的关键性。在生成空间选择性的注意力图时,位置信息具有重要意义。坐标注意力机制捕获位置信息和通道信息,全局池化方法用于通道注意力编码空间信息的全局编码,但是由于全局空间信息压缩到通道描述符当中,很难保存位置信息。为了使注意力机制能够捕获具有准确位置信息的远程空间交互,全局池化转为一对一维特征编码,增强特征的表达能力。对于给定的输入X,每个通道使用维度(H,1)和(1,W)的池化内核沿水平和垂直坐标方向进行编码。高度为h的第c个通道的输出为

宽度为w的第c个通道的输出为

在两个空间方向上,分别进行两种变换聚合特征,获得一对方向感知的特征图。使得注意力模块能够捕获沿一个空间方向的长期依赖关系,同时在另一个空间方向上保持准确的位置信息。这种方式有助于网络更加准确地定位感兴趣的目标。

坐标Attention 生成是为了更好地利用上述变换获取全局感受野,并编码准确的位置信息生成的表示。将模块生成的两个特征图级联起来,然后使用1 × 1 共享的卷积进行变换,生成f∈RC/r×(H+W)是水平和垂直方向空间信息的中间特征图。r代表下采样率,与SE 模块一样用来控制模块的大小。接下来,沿着空间维度划分f为两个独立的张量f h∈RC/r×H和f W∈RC/r×W,复用两个1 × 1 卷积Fh和Fw变换特征图f h和f w到与输入X相同数量的通道。公式为

其中,σ是一个sigmoid 函数。为了降低网络复杂度,采用适当的下采样比r来减少通道数。gh和gw被扩展为注意力权重。最后,坐标注意力块的输出表示如下:

坐标注意力模块将位置信息嵌入通道注意力,并将通道注意力分解为两个并行的一维特征码,将空间坐标信息有效地整合到生成的特征图中。每个特征图捕获输入特征图沿空间方向的远程依赖性。将CA 嵌入到Fused-MBConv和MBConv模块中,其结构如图3所示。

图3 引入CA的Fused-MBConv和MBConv模块

1.3 改进的Retinex图像增强方法

光照不足通常导致图像质量下降,表现为噪声和伪影。这类图像无法满足高级视觉任务需求,为解决低亮度和低对比度问题,提出了一种利用Retinex 理论增强弱光图像的改进方法,改进的Retinex 图像增强方法主要由Decom-Net 和Enhance-Net 两部分组成,Decom-Net接受低照度图像作为输入,其输出包括光照图像和反射图像。两个分解出的图像分别输入Enhance-Net,以获取增强的照度图像,此过程通过Enhance-Net提升图像亮度。经过增强的照度图像与分解后的反射图像进行合并,形成最终的增强结果。通过分解-增强-融合的流程,系统能够有效处理低照度条件下的图像,提高图像质量和细节。这种复合方法不仅能够应对低照度挑战,同时确保光照和反射信息得到充分优化。一个分解损失函数由三个分量组成:重建损失、反射分量一致性损失和照明平滑度损失。分解函数的公式如下:

其中:LReconstruction表示重建损失项,LReflectance表示反射分量一致性损失项,LIllumination表示照明平滑度损失项,λ1,λ2,λ3是权衡不同损失项的系数。

2 实验结果与分析

2.1 实验环境

实验所用GPU 为NVIDIA GeForce RTX 3090 GPU,显存大小为24 GB,所用操作系统为Ubuntu 20.04 LTS,深度学习框架为PyTorch 1.8.1,Python 3.8 版本。训练网络时,Batch_size为16,初始学习率为0.0001,迭代总批次为2000,权重衰减设置为0.00001,学习率每100轮进行一次衰减来保证模型更好地收敛。

2.2 竹筷缺陷检测平台

根据竹筷缺陷检测实验,采用PLC、变频器、弹出机构等,搭建一次性竹筷检测平台,实现竹筷上料、智能检测、次品剔除等操作环节,搭建的实验平台结构如图4所示。

图4 检测实验平台

2.3 竹筷表面缺陷检测数据集

本实验图像采集使用工业摄像头对一次性竹筷进行拍摄,数据集图像尺寸统一为60×1500像素大小,按照一次性竹筷分级标准GB 19790.2—2005,一共六类缺陷,分为弯曲、长短、虫蛀、霉变、腐朽、破裂。每类缺陷样本约800张,所含正常竹筷图像约5000 张,按照7∶2∶1 的比例划分训练集、测试集和验证集。

表1 一次性竹筷表面缺陷检测数据集上的实验结果(%)

为进一步为验证CA 机制在本文改进的一次性竹筷缺陷检测模型中的有效性,将CA 机制和SE、GAM 注意力机制进行对比实验验证,实验结果见表2。

表2 一次性竹筷表面缺陷检测数据集消融实验(%)

2.4 性能指标

实验采用准确率(Accuracy)作为验证集的评价指标,表示所有正确分类的缺陷样本占总被测样本的比例。F1指标(F1-score,F1)兼顾分类模型的精确率(Precision,P)和召回率(Recall,R),是一种调和平均值,与混淆矩阵一起作为评价模型学习性能的指标。

式中:TP(True Positive)为正样本被正确识别为正样本的数量,FP(False Positive)为负样本被错误识别为正样本的数量,TN(True Negative)为负样本被正确识别为负样本的数量,FN(False Negative)为正样本被错误识别为负样本的数量,sum代表所有被检测数据例的个数。

3 结语

以一次性竹筷为检测对象,针对基于机器视觉中对一次性竹筷检测识别困难、对特征提取不敏感、且缺陷样本不足、检测效率低等问题,提出了一种多尺度加权特征融合网络,通过对原始图像进行Retinex 分解、光照调整和反射率恢复来提升对图像中纹理和颜色细节的特征提取能力;在训练阶段充分利用大量正常样本进行特征学习,更好地捕捉正常状态下的复杂纹理和结构特征,面对具有不同缺陷类型的测试图片时表现出更高的鉴别能力;在架构中加入了坐标注意力机制(CA),学习输入图像通道间的特征信息和位置信息,以增强对复杂相似背景下特征的表示,更加关注缺陷特征信息。实验结果表明,本文所提出的方法在一次性竹筷缺陷检测任务中展现出较好的鲁棒性,为实际应用提供了可靠而有效的解决方案。

猜你喜欢

竹筷注意力样本
让注意力“飞”回来
竹筷木桥
用样本估计总体复习点拨
点燃一支竹筷
推动医改的“直销样本”
“扬眼”APP:让注意力“变现”
随机微分方程的样本Lyapunov二次型估计
A Beautiful Way Of Looking At Things
探究竹筷在水中的变化
村企共赢的样本