适于少样本缺陷检测的两阶段缺陷增强网络
2022-10-17李恭杨彭铁根
陈 朝,刘 志,李恭杨,彭铁根
1.上海大学 通信与信息工程学院,上海 200444
2.宝山钢铁股份有限公司 中央研究院,上海 201999
在工业制造领域,如何在生产过程中准确检测出产品的表面缺陷对于产品的质量控制有着重大意义。近几年,深度学习技术在智能制造领域崭露头角,它利用大量数据可以训练出用于缺陷检测的模型,大大提高了缺陷检测的准确率。但在实际的生产过程中,缺陷产品出现的比率非常低,上百万个样本中仅能找出几千个缺陷样本,对于一些较为罕见的缺陷,甚至只能收集到几个到几十个缺陷样本,这会造成各类样本数量不均衡且少的问题。如果只有少量缺陷样本参与训练,模型会容易过拟合,这会造成该类缺陷的检测性能急剧下降的情况。少样本学习便是针对该问题而提出的解决方案,它基于先验知识并利用从少量样本中学习的新知识来对模型微调[1],从而实现对新样本的缺陷检测。综上所述,提出一种针对工业生产场景的基于少样本学习的缺陷检测模型是非常有必要的。
少样本目标检测是计算机视觉领域的一个新兴分支,在近几年受到了广泛关注。2019年,Kang等人[2]在单阶段检测模型的基础上提出了一个基于少样本学习的目标检测模型,将少量的样本通过一个重新加权模块来得到多个类别相关的特征向量,并与特征图相乘,之后进行分类和回归计算。Yan等人[3]基于双阶段检测模型,用骨干网络生成的特征向量与感兴趣区域特征相乘并输入到检测器中,取得了不错的检测性能。此外,Yang等人[4]提出了FSDet,该模型利用两个编码器得到每个类别的特征向量和感兴趣区域(region of interest,ROI),然后对两组特征向量进行聚合操作,并将这些向量用作检测器的输入。通过这种方法,模型可以充分利用训练样本和测试样本的特征和相关性,进而提升检测性能。然而,上述少样本目标检测模型属于通用的少样本目标检测模型,在缺陷检测任务中的表现不理想,不适合直接应用到工业场景中。
目前,工厂中普遍使用传统的图像处理方法来进行产品的表面缺陷检测。Borselli等人[5]提出利用缺陷边缘的亮度变化较大的特点来检测缺陷。李军华等人[6]对提取到的两种区域特征进行加权融合,在生成综合特征向量后送入分类器,提升了瓷砖的缺陷检测效果。Tolba等人[7]提出将Gabor滤波器[8]应用于缺陷检测,并取得了不错的效果。黄梦涛等人[9]提出了基于改进Canny算子的模型,该模型能够减少噪声的干扰并突出待检测的缺陷区域,进而提升了检测性能。然而,这些方法都存在较大的局限性,只能在某些缺陷类别上取得良好的检测效果。随着深度学习的发展,多项研究[10-12]证明了基于卷积神经网络的模型在缺陷检测任务上的优越性。Yi等人[10]提出了一种端到端的模型来提高缺陷检测的性能。Ren等人[11]优化了一个两阶段的目标检测模型,使其更适合用于缺陷检测。徐镪等人[12]改进了YOLOv3[13]网络,不仅适当减少了网络的参数量,还提升了模型在钢板表面缺陷检测的准确率。上述方法通过对现有模型的修改,使其更适合用于缺陷检测。但是,这些模型在训练阶段依然需要大量的缺陷样本,当只提供少量的缺陷样本时,它们的检测性能会急剧下降。
在实际工业场景的缺陷检测任务中,很多时候难以提供大量的缺陷样本。针对这个问题,李钧正等人[14]提出用数据增强方法来增广数据集,在钢板表面缺陷检测任务中取得了良好的结果。Wang等人[15]提出在少样本训练之前进行缺陷图像的预处理,利用噪声正则化等策略,提升了模型训练的鲁棒性并获得了良好的检测性能。张艺桥[16]提出了YO-FR算法,在定位阶段采用YOLOv3[13]的结构,在分类阶段采用Faster R-CNN[17]的结构。上述的几种方法尝试利用数据增强、数据预处理和模型集成的策略来解决少样本学习的问题,但并未针对工业场景中少样本缺陷检测任务来设计一种全新结构的少样本缺陷检测模型。与上述方法不同的是,本文提出了一个全新的基于元学习的少样本缺陷检测模型,即两阶段缺陷增强网络(two-phase defect enhancement network,TDENet),且首次利用了无缺陷样本来提高少样本缺陷检测的性能。同时还构建了一个用于少样本缺陷检测的新数据集,即工业表面缺陷(industrial surface defects,ISD)数据集。在缺陷检测过程中,数量远超过缺陷样本的无缺陷样本通常会被忽略,导致其无法被有效利用。因此,ISD数据集额外添加了200个无缺陷样本,便于本文探究对无缺陷样本的利用。此外,本文提出的少样本缺陷检测模型将整个训练过程分为两个阶段:第一阶段需要大量的基类缺陷样本来获得预训练模型,第二阶段只需要少量的基类和新类的缺陷样本即可在预训练模型的基础上学习新特征。
本文的主要贡献包括以下三个方面:
(1)提出了适用于工业场景中缺陷检测任务的基于元学习的少样本缺陷检测模型,首次将无缺陷样本的应用引入到少样本缺陷检测领域,并为少样本缺陷检测任务构建了一个新的ISD数据集。该数据集中同时包含缺陷样本和无缺陷样本,旨在促进少样本缺陷检测领域的发展,并提高对工厂实际生产中大量存在却被忽视的无缺陷样本的重视。
(2)针对少样本缺陷检测提出了一个两阶段缺陷增强网络TDENet,它将整个训练过程分为两个阶段。其中,第一个阶段基于大量样本训练得到一个预训练模型,第二个阶段基于少量样本对预训练模型进行模型微调。此外,在第二个阶段添加了一个新的网络分支,使得两个阶段的网络结构不同。在这个新的网络分支上应用了新提出的缺陷突显模块(defect prominence module,DPM)。DPM利用特征向量相减操作以借助无缺陷样本的特征来加强缺陷区域的特征。之后,TDENet利用特征聚合操作来综合不同网络分支输出的特征,进一步提升了缺陷检测性能。
(3)在ISD数据集、皮革和木材数据上进行了全面的实验,与最先进的少样本目标检测模型相比,TDENet在不同的工业场景下都取得了最优的缺陷检测性能。
本文已经将相关实验设置、数据集以及源代码公布在https://github.com/chenzhao339/TDENet。
1 构建数据集
由于目前没有适用于少样本缺陷检测课题的数据集,所以本文基于东北大学(North East University,NEU)表面缺陷数据集[18]和磁瓦(magnetic tile,MT)数据集[19],构建了一个适用于少样本缺陷检测的新数据集,即ISD数据集。NEU钢铁表面缺陷数据集包含1 800个缺陷样本,其中每个缺陷类都有300个样本。MT数据集共有387个缺陷样本和952个无缺陷样本,其中包含了5个缺陷类,各类样本数量如表1所示。虽然这两个数据集属于两种不同的材料,但它们的背景和缺陷区域具有一定的相似性,使得它们可用于少样本缺陷检测的研究。
表1 MT数据集中各类样本数量Table 1 Number of samples of every class in MT dataset
遵循现有的少样本学习策略[3],ISD数据集包含基类Cbase和新类Cnovel两部分。其中,基类为样本较多且多样的缺陷类型,而新类为样本较少的缺陷类型。本文提出的ISD数据集选取NEU数据集中的5个缺陷类作为基类,并选取MT数据集中的所有类作为新类,还从MT数据集中随机选取了200个无缺陷样本,以缓解少样本学习过程中新类缺陷数据缺乏的问题。如表2所示,ISD数据集共有2 087个样本,其中,1 500个样本属于基类,387个样本属于新类,200个样本属于无缺陷样本。在少样本学习过程中,将该数据集随机地划分为训练集和测试集,且这两个部分相互独立。训练集根据少样本学习策略[3]分为两部分,第一部分用于第一阶段的训练,包括基类中每个缺陷类的200个缺陷样本(共有5个类);第二部分用于第二阶段的训练,包括基类和新类中每个类10个缺陷样本(共有10个类)和10个无缺陷样本。测试集则是包括基类中每类90个样本以及105个气孔缺陷样本、75个断裂缺陷样本、47个裂纹缺陷样本、22个磨损缺陷样本和88个凹凸不平缺陷样本。
表2 ISD数据集的组成Table 2 Composition of ISD dataset
MT数据集原本针对的任务为显著性检测,因此其中的缺陷二值图需要转换为缺陷检测的标注方式,即xml文件,转换步骤如下所述:
(1)获取每个缺陷位置。根据二值图中缺陷的连通关系,得到每个连通域的坐标信息,并将每个连通域视为独立的缺陷[20]。
(2)生成缺陷检测标注文件。基于单个缺陷的坐标信息及其对应的缺陷类,可以生成缺陷检测的标注文件,即标明缺陷类的边界框。这些标注文件与原始缺陷图像是一一对应的关系。
图1展示了ISD数据集中缺陷类的部分样本。从图中可以看出,基类和新类之间的差异较小,这有利于基类和新类之间的知识迁移。
图1 ISD数据集中所有缺陷类的样本Fig.1 Samples of all defect classes in ISD dataset
2 提出少样本缺陷检测模型
2.1 两阶段缺陷增强网络
在少样本学习过程中,由于新类缺陷的样本量不足,导致基于传统的训练策略得到的模型对于新类缺陷的检测性能不如基类缺陷的检测性能。这说明传统的训练策略在样本很少的情况下无法很好地学习新类缺陷的特征。针对这个问题,本文提出了一个两阶段缺陷增强网络TDENet,该网络在两个训练阶段采用不同的网络结构。
本文提出的TDENet使用Faster R-CNN[17]作为基本的检测框架,并将整个训练过程分为两个阶段。第一个训练阶段与Meta R-CNN[3]类似,即基于大量的基类样本训练得到一个可检测基类缺陷的预训练模型。如图2所示,第一个训练阶段的网络由两个分支组成。其中,第一个网络分支基于Faster R-CNN的主干网络输出特征图,之后利用区域生成网络(region proposal network,RPN)来获取各个类别的感兴趣区域相关的特征图(即ROI特征向量)。RPN的网络结构如图3所示,它以主干网络输出的特征图为输入,并经过一个卷积核为3×3的卷积层。然后分为两个分支,第一个分支用于锚框的二分类,判断锚框中是否含有缺陷,但不关注缺陷的类别;第二个分支用于锚框的回归计算(即计算相对于真实边框的偏移量)。最后综合两个分支获取的锚框信息来进行候选框的生成并输出。如图2所示,TDENet的第二个网络分支基于预测头重构网络(predictor-head remodeling network,PRN),并利用缺陷样本来生成缺陷类注意力特征向量缺陷类注意力特征向量编码了训练样本的第n类缺陷信息,可用于生成缺陷类相关的特征图。这个过程可以用公式(1)表述:
图2 TDENet第一个训练阶段的网络结构Fig.2 Network structure of first training phase of TDENet
图3 RPN网络结构Fig.3 Network structure of RPN
其中,⊗代表特征向量与特征图的逐元素相乘,N代表训练集的缺陷类数量的维度均为128×2 048(其中128表示感兴趣区域ROI的数量),且的维度为1×2 048。之后,通过分类和回归计算,TDENet可以根据获得缺陷的类别和位置信息。
与第一个训练阶段不同,第二个阶段需要少量的基类和新类样本。在不考虑背景差异的情况下,本文发现不同材料的缺陷特征具有一定的相似性,例如钢铁的划痕缺陷和磁瓦的裂纹缺陷。因此,如图4所示,TDENet在第二个训练阶段引入了第三个网络分支,目的是为了同时利用输入的缺陷样本和无缺陷样本来增强网络对新类的缺陷区域特征的提取能力。具体来说,TDENet在第三个分支上添加了一个缺陷突显模块(DPM),它可以利用从缺陷样本和无缺陷样本中提取到的特征,将这两个特征相减来生成缺陷区域特征突显向量然后利用每个缺陷类的来生成缺陷区域特征突显的特征图。这个过程可以用公式(2)来表述:
图4 TDENet第二个训练阶段的网络结构Fig.4 Network structure of second training phase of TDENet
其中,FC(·)代表全连接层,⊙代表特征图在通道维度进行串联的操作,且的维度为128×4 096,Fn的维度为128×2 048。特征图在通道维度进行串联的特征聚合操作可以在保持原有效果的同时提高模型对于新类缺陷的感知。之后使用全连接层来压缩特征的维度。最后通过边框的分类和回归计算,可以得到基类缺陷和新类缺陷的检测结果。
此外,TDENet中两个训练阶段的损失函数与Meta R-CNN[3]的保持一致,可以用公式(4)来表述:
其中,Lreg表示边框回归的平滑L1损失函数,Lcls表示分类的交叉熵损失函数,Lmeta表示旨在提高特征向量表征能力的交叉熵损失函数,可以用公式(5)表述:
2.2 缺陷突显模块
由于常见的缺陷检测模型并不能很好地基于少量样本来提取新类缺陷的特征,所以本文提出了缺陷突显模块(defect prominence module,DPM)来更好地利用无缺陷样本,并用于提升第二个训练阶段的新类缺陷表征能力。
如图5所示,DPM包括两部分。第一部分将少量的新类样本输入PRN以生成缺陷类注意力特征向量,这些向量编码了新类缺陷的特征信息。第一部分中的卷积层使用M×M的卷积核,其中M设置为7。因为背景信息一般是全局信息,所以将第二部分的卷积核扩展为S×S,其中S=2M-1,即S为13。该做法可以更好地提取无缺陷样本的全局特征,并生成无缺陷的特征向量vdf。之后通过和vdf的相减操作可得到特征突显的特征向量,这可以减少背景的干扰并突显缺陷区域的特征信息。该过程可由公式(6)表述:
图5 DPM的网络结构Fig.5 Network structure of DPM
其中,λ是vdf的比例系数,其作用是减少无缺陷样本中的噪声对计算结果的干扰。λ的值不能设置太大,该参数值的选取将在3.4节中进一步说明。
对于缺陷检测任务,激活函数引入了非线性因素,使模型得到高维的深度特征。本文使用sigmoid激活函数是因为sigmoid激活函数的输出范围(0,1)比tanh激活函数的输出范围(-1,1)更集中。此外,sigmoid激活函数输出的特征向量的每个值都在区间(0,1)上且总和不受约束,而softmax激活函数输出的特征向量的每个值虽然都在区间(0,1)上,但其所有值的总和限制为1。相比之下,softmax激活函数在计算过程中更容易出现信息丢失的问题,所以选用sigmoid激活函数可以使输出的特征在传递的过程中不容易发散,同时可以减少特征提取过程中信息丢失的风险。DPM+输出的特征向量在之后会用于检测框的分类和回归,而sigmoid激活函数可以兼顾TDENet的分类和回归,保证候选框的分类和回归效果。因此,DPM+可确保在进行特征向量的减法操作时更好地保留特征向量中的重要特征,进而提升新模型在新类缺陷上的检测性能。3.5节中的消融实验也证明了DPM+确实可以减少缺陷检测的错误并优化性能。
3 实验设计与结果分析
3.1 实验数据集
本文利用两个不同的缺陷数据集来测试模型的缺陷检测性能。第一个数据集是ISD数据集,其中有1 500个钢铁表面缺陷样本,387个磁瓦表面缺陷样本以及200个无缺陷样本。第二个数据集是MVTec公司提出的缺陷数据集[21],该数据集包含皮革、木材、牙刷、胶囊和螺丝等样本,其中皮革和木材的样本与ISD数据集中的样本具有一定的相似性且都属于平面上的缺陷。因此选用该数据集中的皮革和木材样本作为接下来的实验数据集。由于该数据集对缺陷区域做了像素级别的标注,所以需要利用第1章中提出的方法将像素级别的标注转换为缺陷检测的标注文件。在该数据集中,皮革样本共有245个无缺陷样本、19个颜料缺陷样本、19个切裂缺陷样本、17个折叠缺陷样本、19个胶水缺陷样本和18个戳裂缺陷样本;而木材样本共有247个无缺陷样本、8个颜料缺陷样本、10个孔洞缺陷样本、10个水迹缺陷样本和21个刮伤缺陷样本。本文随机抽取样本作为训练集和测试集,以满足后续的实验需求。
3.2 实验设置
首先,采用第1章构建的ISD数据集中的训练集,分两个阶段来训练模型。第一个阶段采用ISD训练集的第一部分,即基类缺陷中每个类的200个样本(共计5类)进行训练,获取预训练模型。第二个阶段采用训练集的第二部分,即从ISD数据集中随机选择10个无缺陷样本并分别在每个缺陷类(共计10类)中随机选择k个缺陷样本(即k-shot)进行模型的微调,其中k值可以为1,5和10。测试阶段采用第1章中构建的测试集,即5类基类缺陷共450个样本以及5类新类缺陷共337个样本。
其次,利用3.1节中提到的皮革和木材数据集来训练模型。第一个训练阶段的设置与上一段的描述保持一致,均采用ISD数据集的第一部分参与训练。对于皮革数据集的训练,第二个训练阶段从皮革数据集中随机选取10个皮革无缺陷样本,并分别在ISD数据集中的基类和皮革数据集中每个类(共10类)随机选取k个缺陷样本(即k-shot)进行模型的微调,其中k值可以为1,5和10。皮革缺陷的测试集包括9个颜料缺陷样本、9个切裂缺陷样本、7个折叠缺陷样本、9个胶水缺陷样本和8个戳裂缺陷样本。而对于木材数据集的训练,第二个训练阶段从木材数据集中随机选取10个木材无缺陷样本,并分别在ISD数据集中的基类和木材数据集中每个类(共9类)随机选取k个缺陷样本(即k-shot)进行模型的微调,由于样本量不足,此时的k值只能为1和5。木材缺陷的测试集包括3个颜料缺陷样本、5个孔洞缺陷样本、5个水迹缺陷样本和16个刮伤缺陷样本。
本文提出的模型采用ResNet-101[22]作为主干网络,基于NVIDIA Titan XP GPU进行实验,并使用随机梯度下降(stochastic gradient descent,SGD)算法进行训练。第一个训练阶段将批尺寸设置为8,学习率设置为0.008,权重衰减设置为0.000 5。而在第二个训练阶段批尺寸将减小到4。
3.3 对比实验
本文将TDENet与三个少样本目标检测模型FRCN+ft[3]、Meta R-CNN[3]和FSDet[4]进行比较,在ISD数据集、皮革和木材数据集上进行了实验,并采用mAP作为评估指标。其中,FRCN+ft表示按照少样本学习策略[3]训练得到的Faster R-CNN模型。为了公平比较,三个比较模型也是按照同样的少样本学习策略重新训练得到。
3.3.1 定量分析
表3呈现了在ISD数据集上本文提出的模型和三个少样本目标检测模型的k-shot(k=1,5,10)性能评估结果。表中记录了IoU阈值为0.5时,对应的mAP大小。与FRCN+ft相比,TDENet对于新类缺陷的检测性能在各种情况下都有较大的提升。具体来说,在1-shot、5-shot和10-shot时,mAP的增长分别为3.64、3.86和4.40个百分点。与Meta-RCNN相比,TDENet对于新类缺陷的检测性能有很大的提升,在1-shot、5-shot和10-shot时分别提高了2.75、1.81和2.81个百分点。值得注意的是,Meta R-CNN在两个训练阶段使用相同的网络结构,而TDENet使用了两种不同的网络结构。
表3 在ISD数据集上的性能评估Table 3 Evaluations on ISD dataset单位:%
这表明本文在两个训练阶段采用不同网络结构的方法是有效的。此外,TDENet在新类上的检测性能比FSDet高得多。从表中可以观察到,与FSDet相比,TDENet对于新类的检测性能有了非常大的提升,在1-shot、5-shot和10-shot时分别提升了19.04、21.04和5.52个百分点。虽然FSDet对于基类缺陷的检测性能比TDENet高,但对于新类的检测性能比较低。而这种情况也说明FSDet不适合少样本缺陷检测任务。从表3可以看出,TDENet对于新类缺陷的检测性能最高,同时也保证对于基类缺陷的检测性能的稳定。虽然FSDet在1-shot和5-shot时对于基类缺陷的检测性能略高,但对于新类缺陷的检测性能却出现了大幅度下滑。表4呈现了基于皮革和木材数据集的性能评估结果。从中可以观察到,TDENet在皮革和木材数据上的缺陷检测性能都达到了最优。综合以上的比较,可以看出TDENet在不同的工业场景中均拥有比其他几个模型更好的缺陷检测性能。
表4 在皮革和木材数据集上的性能评估Table 4 Evaluations on leather and wood datasets 单位:%
3.3.2测试结果展示
图6展示了一些具有代表性的少样本缺陷检测模型的实验结果,包括ISD数据集,皮革以及木材数据集的测试结果。图中的Grounnd Truth表示缺陷样本的真实标注值。与真实值相比,TDENet表现出了最好的缺陷检测性能。与此同时,其他模型的检测结果并不理想,检测框的位置与真实值有很大的偏移,甚至是遗漏了部分重要缺陷。如图6(a)和图6(c)所示,FRCN+ft的检测结果遗漏了一些缺陷。在图6(b)的第3列中,Meta R-CNN检测到与真实缺陷相似的伪缺陷,而这些伪缺陷会干扰真实缺陷的检测准确率。在图6(c)中,Meta R-CNN在同一个缺陷位置上生成了2个不同类别的检测框。此外,Meta R-CNN和FSDet甚至无法检测到某些样本中的任一缺陷,这是很严重的错误。因此,与其他模型相比,TDENet的缺陷检测性能更为稳定,更适合用于不同工业场景下的表面缺陷检测任务。
图6 少样本缺陷检测模型的测试结果Fig.6 Test results of few-shot defect detection models
3.4 参数选取
图7中蓝色的线表示模型对于ISD数据集的基类(即钢铁表面缺陷)在10-shot情况下的检测效果,橙色的线表示模型对于ISD数据集的新类(即磁瓦表面缺陷)在10-shot情况下的检测效果。如图7所示,在ISD数据集上,新类的正确率比基类的正确率高。从图1(a)可以看出,图中第1列、第3列和第4列的钢铁表面缺陷是线状缺陷和面状缺陷,较为简单;但第2列和第5列的钢铁表面缺陷是散点状缺陷,较为复杂。从图1(b)可以看出,图中的五列磁瓦表面缺陷是线状缺陷和面状缺陷,且每张图一般只有一个缺陷,较为简单。基于以上分析可知,钢铁表面缺陷比磁瓦表面缺陷更加复杂且背景多变,缺陷检测的难度更高。图6(a)和图6(b)的缺陷检测结果也验证了上述分析,其中两类散点状缺陷较难检测,拉低了对于钢铁表面缺陷的检测效果。因此,图7中新类的正确率比基类的正确率高。
图7 参数值λ的选取实验Fig.7 Selection experiment of parameter value λ
在vclassn与vdf的特征向量相减操作中,比例系数λ是最重要的参数。如图7所示,本文进行了多次实验以找出最合适的λ值,当λ值为0.05时,TDENet对于ISD数据集中基类和新类缺陷的检测性能都是最佳。当选取的λ值小于0.05时,TDENet的缺陷检测性能会下降。而导致这种情况的原因主要是,当λ太小时,从无缺陷样本中提取到的特征就会不起作用。此外,当选取的λ值大于0.05时,TDENet的缺陷检测性能也会下降。而这主要是因为中的部分值在特征向量相减操作后变为零,从而遗失了部分特征信息。因此,当λ的值设置为0.05时,TDENet可以较好地利用无缺陷样本,并获得良好的缺陷检测性能。
3.5 消融实验
本文做的消融实验结果如表5所示,其中[·,·]代表在通道维度进行特征图串联的操作。在消融实验中用IoU阈值为0.5时的mAP作为性能评价指标,且在第二阶段的训练中,每次从新类数据中选取k个样本参与模型的微调,以获得最终的缺陷检测模型。从表中可以看出TDENet中提出的新模块的有效性。之后,本文将要探讨两个方面的问题:(1)针对TDENet的三个网络分支输出的特征,不同的利用方法对缺陷检测性能的影响;(2)本文提出的缺陷突显模块的有效性。本文所有的消融实验基于ISD数据集,并将Meta R-CNN的缺陷检测性能设置为消融实验研究的基准(即Baseline)。
3.5.1 如何利用TDENet的三个分支更有效
在网络结构上,TDENet在第二个训练阶段有三个网络分支。其中,第一个分支由缺陷检测的骨干网络ResNet和RPN组成,输出的是ROI特征。而PRN和DPM作为两个特征提取模块分别属于第二个和第三个分支,旨在从样本中提取出更多有价值的特征。这两个分支可分别提取到两种特征图,即之后,本文探索了三种使用这两种特征图的方法:(1)只利用DPM提取出的特征图且不进行特征聚合;(2)将这两种特征图进行逐通道求和来实现特征聚合;(3)将这两种特征图在通道维度进行串联以实现特征聚合。
从表5可以看出,对使用(1)中的方法获得的模型进行测试(即表中第2行的实验),发现其检测性能有所提升。与Baseline相比,它在1-shot、5-shot和10-shot时的检测性能分别增加了0.19、0.98和0.81个百分点。这说明第三个网络分支能够利用无缺陷样本来增强缺陷区域的特征,进而提升缺陷检测性能。对使用(2)中的方法获得的模型进行测试时(即表中第3行的实验),发现其检测性能出现显著性下降。与Baseline相比,它在1-shot、5-shot和10-shot时的检测性能分别减少了0.37、3.47和2.06个百分点。查看图像检测结果可发现,虽然使用(2)中的特征聚合方法可以使较为明显的缺陷更容易被检出,但同时也会降低不明显的缺陷的分类得分,进而使这些不明显的缺陷更容易被抛弃。与之不同的是,对使用(3)中的方法获得的模型进行测试时(即表中第4行的实验),发现其检测性能相对于使用(1)中的方法获得的模型有了进一步的提升。在1-shot、5-shot和10-shot时,其检测性能分别增加了0.33、0.40和1.41个百分点。此外,从实际的图像检测结果来看,有更多的不明显缺陷被检出。这说明,利用特征图在通道维度进行串联的操作可以整合PRN和DPM这两个模块提取的缺陷特征,在保证较明显缺陷的检测性能稳定的同时,更容易检测出那些不明显的缺陷。
3.5.2 缺陷突显模块是否能提高TDENet的性能
本文提出缺陷突显模块(DPM)以提高模型在只有少量样本输入时对于新类缺陷的表征能力。从表5容易看出,缺陷突显模块可以提升模型对于新类缺陷的检测性能。与Baseline(即表中第1行的结果)相比,加入DPM后,在1-shot、5-shot和10-shot时的mAP均有所增长。而性能提升的主要原因是DPM利用了无缺陷样本的特征以突出特征图中缺陷区域的特征。此外可以观察到,与Baseline相比,加入DPM后,在1-shot时的检测性能提升很小。出现这种情况的主要原因是当输入的样本很少的时候,训练集数据不具有多样性,导致DPM提取的特征不足。但是当更多的样本作为输入时,检测性能会得到提高。
本文提供了两个配备不同激活函数的DPM+变体,即配备softmax激活函数的DPM+w/soft和配备tanh激活函数的DPM+w/tanh,其中DPM+w/soft和DPM+w/tanh分别表示移除PRN的最后一层(即sigmoid层),然后在特征向量的相减操作之后分别添加一个softmax和tanh激活函数。如表5所示,相比于DPM+w/soft和DPM+w/tanh较差的表现,DPM+更能提升缺陷检测的性能。与使用DPM并在通道维度进行特征图串联的模型(即表中第4行的实验)相比,使用DPM+并在通道维度进行特征图串联(即表中第7行的实验)可以将模型的检测性能,分别在1-shot、5-shot和10-shot上提升2.23、0.43和0.59个百分点。因此,DPM+可以减少特征向量相减运算过程中的计算误差,使特征向量中的重要特征得到更好的保留,进而提升了少样本缺陷检测模型的性能。
表5 TDENet中提出的新组件的消融实验Table 5 Ablation experiments for novel components proposed in TDENet 单位:%
4 结语
本文构建了一个用于少样本缺陷检测的新数据集,旨在促进少样本缺陷检测的研究,并且该数据集对提升工业生产的产品质量有着实际的意义。针对部分工业场景中难以提供大量缺陷样本的问题,本文提出了TDENet,它遵循少样本学习策略并将整个训练过程分为两个阶段,仅利用少量样本就可以在很大程度上提高对于罕见缺陷的检测效果。同时,在TDENet中提出了DPM模块,以更好地利用无缺陷样本来提升模型对于新类缺陷的表征能力。此外,在DPM的基础上,本文提出了DPM+,可以更好地处理特征信息丢失的问题。基于ISD数据集,皮革和木材数据集的对比实验以及消融实验证明了TDENet性能的优越性以及其中各个模块的有效性。