APP下载

基于改进YOLOv5的药用胶囊表面缺陷检测方法

2022-12-21武泽坤叶晓娴陈梦

包装工程 2022年23期
关键词:注意力卷积胶囊

武泽坤,叶晓娴,陈梦

基于改进YOLOv5的药用胶囊表面缺陷检测方法

武泽坤,叶晓娴,陈梦

(上海工程技术大学 艺术设计学院,上海 201620)

在质检过程中精确快速地检测到药用空心胶囊的表面缺陷。基于YOLOv5算法,针对模型网络参数量大和对长距离依赖关系的学习能力较弱的问题,提出在主干网络部分引入GhostNet模块和坐标注意力机制,使网络有效捕捉数据位置信息和通道信息的关系。实验结果表明,改进的网络结构能够在参数量下降为原来的57%的前提下,对药用胶囊表面的破损、印刷错误、孔洞、划痕、凹陷等5类缺陷的平均检测精度达到96.9%,相较于YOLOv5s提高了2.4个百分点,检测速度提升了12帧/s。文中方法能够有效对药用胶囊表面缺陷进行分类和定位,提高缺陷检测的准确率。

YOLOv5;胶囊;缺陷检测;注意力机制;GhostNet

在我国社会老龄化形势加剧的今天,每年药品的生产量不断上升。这对药品质量检测精度和速度提出更高的要求。药用胶囊作为被广泛使用的药物之一,随着生产规模的不断扩大,其生产过程中存在的表面缺陷问题时有发生,缺陷检测成为生产环节中的一大难点。

药用胶囊常见的表面缺陷有尺寸不正确、孔洞、凹陷、印刷缺失。目前,对药物生产的缺陷检测工作主要使用人工方式进行,但人工检测存在效率低、误检率高和漏检率高等问题,难以满足日益扩大的药物生产规模需求。

为了在保障药品生产质量的同时降低人工成本,制药企业亟待完成由人工检测向自动化检测的转型。在早期针对药用胶囊的表面缺陷检测的探索中,许多学者使用传统机器学习的方法对其进行检测和分类。Kekre等[1]使用多方法对5种类型的胶囊缺陷进行分类检测,据观察,灰度密度计算和灰度共生矩阵效果较好。赖大虎等[2]针对胶囊常见的凹陷缺陷,提取其偏心率和圆形度为特征向量,提出一种基于极端学习机器的胶囊缺陷检测方法,分类正确率接近100%。Qi等[3]针对胶囊缺陷种类多的问题,对胶囊质地、形状、胶囊缺陷区域以及胶囊缺陷特征进行边缘提取,使用多层支持向量机进行分类,得出分层支持向量机的效果优于反向传播(Back Propagation,BP)神经网络的结论,传统机器学习方法对胶囊表面缺陷进行分类检测虽然能够取得较好的效果,但是其图像处理过程烦琐,速度较慢,难以适用于生产检测中。

在现阶段目标检测技术的火热发展下,目标分类与识别已经在军事侦察、医疗健康、安防等领域广泛应用。近年来,深度学习机器视觉的方法在药物表面缺陷检测中得到应用。Zhou等[4]针对胶囊表面出现的凹陷、孔洞、污点等多种缺陷提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)的胶囊缺陷检测模型,可完成对不同缺陷类型的分类任务,但难以对缺陷位置进行定位。Liu等[5]使用区域卷积神经网络(Regions with CNN features,R-CNN),完成对胶囊表面划痕和污点这2类缺陷的分类和定位任务。

使用深度学习方法进行缺陷检测,相较于传统机器学习,其训练样本量大、预处理环节较少以及处理速度更快,但同时,复杂的网络结构使其参数量和计算量较大,不利于在实际应用中的模型部署。文中提出一种基于改进YOLOv5的药用胶囊表面缺陷检测方法,该方法对卷积操作进行改变,引入GhostNet模块和注意力机制,针对5种常见的药用胶囊表面缺陷类型进行模型训练,相较于原YOLOv5s模型,实现了在参数量大幅下降的前提下,对缺陷的精确分类和准确定位。

1 基础理论

1.1 YOLOv5算法

YOLO(You Only Look Once)系列模型是单阶段目标检测中的常用模型[6]。YOLOv5模型是由Ultralytics LLC团队在2020年6月推出,相较于YOLOv4,YOLOv5在网络结构上做出调整,拥有比YOLOv4更高的检测精度。截至本文撰写时,YOLOv5–v6.0版本推出YOLOv5n权重类型,该权重文件大小仅有3.84 MB,更加方便地将其部署至移动端进行工业缺陷检测。YOLOv5的网络结构见图1。

YOLOv5网络结构分为输入端、主干网络、特征融合网络、输出端。

输入端由Mosaic数据增强、自适应Anchor计算、自适应图片缩放组成。Mosaic数据增强在YOLOv3[7]、YOLOv4[8]中也有使用,将数据集中的4张图像进行随机缩放、随机分布后进行拼接。该处理方式增加多个小目标后可增强网络的鲁棒性并加减少计算资源的消耗。同等尺寸的图像输入,Mosiac增强方式在训练时直接计算4张图片的数据。自适应Anchor计算是指针对数据集,设置固定的锚框大小。YOLOv5中初始锚框的尺寸是根据COCO数据集均值聚类得到的,使用不同数据集时自动计算该数据集的最佳锚框尺寸,有效提高检测精度。自适应图片缩放在模型推理时使用,避免信息冗余,加快推理速度。

图1 YOLOv5网络结构

主干网络由focus模块、CSP模块组成,对输入图像数据进行特征提取。focus模块对输入图像数据进行切片操作,将输入数据的高和宽缩减一半,通道数增加为原始通道数的4倍,将空间信息转变为通道信息,减少浮点运算量。YOLOv5提供4种不同大小的网络结构按照从小到大排序依次为YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。其中YOLOv5s网络体量最小,推理速度快,但检测精度不高,适用于运算能力较低的设备,比如树莓派设备。在服务器设备上一般选用YOLOv5l网络,其检测精度较高、推理速度适中。CSP模块将基础层的特征映射分为两部分,通过跨阶段层次结构将特征映射合并,在减少计算量的前提下保证准确率。

特征融合网络采组成部分为FPN(Feature Pyramid Networks)和PAN(Path Aggregation Network)模块,加强网络对不同尺度对象特征融合的能力。FPN模块自上向下传递强语义特征,PAN模块自底向上传递强定位特征,两者集合加强网络对小目标对象的检测能力。

YOLOv5的输出端相较于YOLOv4的做出改变,采用CIOU函数作为边界框回归的损失函数,CIOU函数将重叠面积、中心点距离、宽高比综合考虑,使得检测框更加准确。

1.2 注意力机制

20世纪90年代在视觉图像领域提出注意力机制,这是一种模仿人类注意力所实现的信息处理资源的高效分配方式[9]。

当人进入某一场景时,视觉会优先停留在一些特殊的点,剩余的场景信息会被暂时忽略。比如人在图像中在寻找具有某一特征的事物时,会更多的将视线停留在符合这一特征的图像区域,这即是注意力的有效分配。注意力作为人类大脑中一项必不可少的认知功能,保证人类通过五感获取海量信息的同时,筛选出部分有用的信息进行处理。在深度学习网络模型中,注意力机制对重要信息添加高权重,对次要信息添加低权重,增强网络对关键信息的特征提取能力。

注意力机制的优点如下。

1)结构简单,适用于多种任务,如机器翻译、目标检测、对话系统、数据监测等。

2)通过建立循环来构建输入与输出间的依赖关系和并行化的方式提高运行速度。

3)增强了网络对长距离依赖关系的学习能力,避免为增强模型的表达能力而增加网络深度所造成的梯度爆炸现象。

2 胶囊缺陷检测模型

为简化模型的参数量和计算量,强化其对于空间信息特征的提取能力。文中重点对YOLOv5的特征提取网络进行重新设计,将原网络中的所有Conv模块和BottleneckCSP模块替换为GhostConv模块和GhostBottleneck模块,并在主干部分的GhostConv模块后嵌入坐标注意力模块以提升网络的检测精度。改进后的网络结构见图2。

2.1 坐标注意力

目标检测网络中常用的卷积运算对全局关系的捕获能力较弱,当图像中出现连续缺陷的痕迹时,缺陷长度越大,其特征就越难表征,为解决此问题,将注意力机制引入检测模型中。注意力机制通过对人类视觉中的选择性特点进行模仿,从输入中筛选出当前任务所需的关键信息,通过对关键信息进行加权,增强模型对目标的捕捉能力。注意力机制可有效提高模型在目标检测任务中的性能。

文中将注意力机制引入到YOLOv5网络中[10],增强模型网络捕捉位置信息和通道信息关系的能力,提高缺陷检测的精确度。在选择注意力模块时必须考虑将其加入后对网络参数量和运算复杂度的影响,对文中的研究对象来说,结构复杂的注意力机制,如自注意力(Self-Atttention,SA)[11],在大幅加深网络结构的基础上,降低模型的推理速度,不适合在工业缺陷检测模型中使用。轻量型的注意力模块在略微增加参数量和运算复杂度的前提下提高模型的检测精度,适合在模型中嵌入使用。Hu等[12]提出通道注意力(Sequeeze-and-Excitation,SE)模块,针对通道关系进行建模,使用全局池化,避免普通卷积在通道关系特征提取上的信息丢失,增强模型对输入数据通道信息的敏感度,使模型在分类任务中有更好的表现,但是在全局池化编码通道信息的同时,空间信息被压缩为一维张量,这将导致空间信息的丢失。CBAM(Convolution Block Attention Module)[13]在SE注意力的基础上增加空间特征的获取,该注意力的处理方式是对经过通道注意力模块加权后的特征图的所有通道进行最大池化和平均池化,汇聚空间信息,再通过1×1卷积和Sigmod激活函数得到空间注意力特征,但在进行卷积操作时,也弱化了网络对长距离依赖关系的的学习能力。

大部分轻量级注意力模块在构筑时,仅对通道关系进行建模来重新权衡其重要性,忽略了位置信息。坐标注意力[14]模块由坐标信息嵌入和坐标注意力生成等2个部分组成,坐标注意力结构见图3。

同样的,第通道在宽度上的输出为:

以上2种变换沿着水平方向和垂直方向聚合特征,得到一对方向感知的特征图。这种转换方式与SE模块通过全局池化获取单一特征向量不同。具体而言,坐标注意力模块更容易捕捉到沿着一个方向的长期依赖关系,并保存另一方向上的位置信息,这正是缺陷检测任务所需的。

为有效利用坐标注意力嵌入中的式(1)和(2)得到的全局感受野与其位置信息的表征,设计坐标注意力生成的过程。在完成信息嵌入后,该过程将得到的2个方向上的输出进行拼接,将拼接后的张量送入1×1的卷积函数1中进行计算:

2.2 GhostNet

在缺陷检测任务中,部分特征图包含较多的背景信息,这使得常规卷积操作中产生大量重复的特征图。冗余的中间特征映射对缺陷检测的精度提升有限,同时增大对计算资源的消耗。

冗余的特征图一般由常规卷积产生,针对缺陷数据集的特点,使用Ghostnet模块[15],减少模型参数量和计算复杂度,加快检测速度。Ghostnet模块结构如图4所示,Ghostnet卷积过程为以下3步。

1)常规卷积。首先使用普通卷积得到本征特征图。卷积操作和运算量表示为:

由于Ghost模块中存在一个恒等映射过程,则线性运算的数量和计算量分别为:

3)特征图拼接。将本征特征图和本征特征图线性变换得到的特征图拼接。

图4 GhostNet模块原理

Fig.4 Principle of GhostNet module

使用Ghostnet模块作为Backbone网络部分的卷积层,简化模型网络的结构,减少模型的参数量和计算量,利于模型部署。

3 实验结果与分析

3.1 实验环境配置

实验环境为Ubuntu16.04 LTS64位操作系统、Intel®Core™i9−7700HQCPU@3.7 GHz×10核CPU,GPU为QuadroRTX500016GB,所使用深度学习框架为PyTorch 1.7,cuda 10.2加速。

模型训练使用Adam优化器,输出图片尺寸设置为640像素×640像素,Batchsize设置为16,总训练批次(epoch)为300,初始学习率为0.001。数据集中共2 276张图像,包括5种缺陷和合格产品。将80%的数据集作为训练集,10%的数据集作为验证集,余下10%作为测试集。

3.2 数据预处理

模型训练使用的数据来自于MVTEC AD数据集[16],该数据集用于对常见的生活用品进行缺陷检测,它包含超过5 000张高分辨率图像,分为15个不同的对象和纹理类别,文中选择其中的胶囊缺陷数据集。图片的分辨率为1 000像素×1 000像素,表面缺陷分别为印刷错误、孔洞、划痕、凹陷、裂纹。

原始数据集中的缺陷产品数据量为350张,合格产品数据量为219张,各类缺陷数据在训练过程中容易被正样本稀释,影响模型对合格和缺陷2类数据的检测精度,因此,在训练前使用Opencv库将缺陷数据进行数据增强,分别对缺陷数据进行旋转、翻转、对比度增强。经过数据增强后的图像见图5。模型训练前对原始数据进行数据增强,是增强模型泛化能力,提高鲁棒性的有效方法。

3.3 评价指标

实验选用平均精度(Average Precision,AP)和平均精度均值(Mean Average Precison,mAP)作为评价指标,具体的公式为:

式中:P为被检测为正类的正类;P为被检测为正类的负类;N为被检测为负类的正类。平均精度由P–R曲线下的面积表示,平均精度均值由平均精度和总类别数的比值得到。

图5 数据增强

3.4 实验结果对比

文中在YOLOv5s网络中加入坐标注意力机制和Ghost模块对其进行改进,经过300轮训练,各模型的平均精度均值见图9,可以看到文中模型的收敛速度要快于其他3个模型,通过消融实验对2种模块在药用胶囊表面缺陷数据集上进行验证[15],分别对比两模块对模型网络的影响。

表1 2种方法的消融实验分析

Tab.1 Analysis of ablation experiments of two methods

如表1所示,嵌入坐标注意力模块和替换普通卷积为Ghost卷积后,参数量大幅下降的同时,检测精度提升。在嵌入坐标注意力模块时,平均精度均值提高了0.6%;替换常规卷积为Ghost卷积时,参数量下降了52.8%,平均精度均值仅下降了0.1%。通过嵌入坐标注意力模块,增强了YOLOv5模型网络对位置特征的获取能力,通过替换普通卷积为Ghost卷积,减少了重复的特征信息,模型参数量减少为原先的57%。实验数据表明,同时使用2种模块,平均精度均值提升了1.6%,参数量下降了42.8%,达到轻量化模型和提升检测精度的目的。

为更好地验证改进后YOLOv5网络性能,在实验配置不变的条件下,分别在YOLOv4、Faster RCNN、SSD模型对相同数据集进行训练与推理,表2为各模型在相同数据集下的表现。

图6 检测效果

表2 各模型在数据集上的结果

Tab.2 Results of each model on dataset

由表2可知,轻量化模型后的平均精度均值达到96.9%,对比YOLOv4、Faster RCNN和SSD提升了2.0%、10.1%、14.4%,且改进后模型在推理速度上高达80帧/s,也优于其他3个模型,较其他3个模型分别提升了27、33、41帧/s,实验证明轻量化后的YOLOv5网络优于YOLOv4、Faster RCNN和SSD等3种网络。

4 结语

文中针对药用胶囊表面缺陷在生产过程的自动化检测,提出了一种YOLOv5–GhostNet–CA轻量级网络模型。其中,通过融合注意力机制,结合GhostNet模块,使特征图中的空间位置特征更容易被获取。在数据集上的实验结果证明,文中的模型在参数量大幅下降的基础上,提高了缺陷检测的准确率,可达96.9%;缩短模型推理时间,在检测的实时性上可满足工业缺陷检测的需求;模型尺寸减小,更容易部署至边缘计算设备。提高检测精度、降低模型的参数量、增强网络的泛化能力依旧是未来工业缺陷检测的重点。

[1] KEKRE H B, MISHRA D, DESAI V. Detection of Defective Pharmaceutical Capsules and Its Types of Defect Using Image Processing Techniques[C]// 2014 International Conference on Circuits, Power and Computing Technologies, Nagercoil, India, 2014: 1190-1195.

[2] 赖大虎, 黄宴委. 基于极端学习机的胶囊缺陷检测[J]. 福州大学学报(自然科学版), 2012, 40(4): 489-494.

LAI Da-hu, HUANG Yan-wei. Inspection for Defected Capsules Based on Extreme Learning Machine[J]. Journal of Fuzhou University (Natural Science Edition), 2012, 40(4): 489-494.

[3] QI Dan-yang, JIANG Zheng. Capsule Defects Classification Based on Hierarchical Support Vector Machines[J]. Advanced Materials Research, 2014, 926-930: 3373-3378.

[4] ZHOU Jun-lin, HE Jiao, LI Guo-li, et al. Identifying Capsule Defect Based on an Improved Convolutional Neural Network[J]. Shock and Vibration, 2020, 2020: 8887723.

[5] LIU R, GU Q, WANG X, et al. Region-Convolutional Neural Network for Detecting Capsule Surface Defects[J]. Boletin Tecnico/Technical Bulletin, 2017, 55(3): 92-100.

[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, IEEE Recognition, 2016: 779—788.

[7] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA, 2017: 6517-6525.

[8] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[R/OL]. (2020)[2021-03-14]. http://arxiv.org/pdf/ 2004.10934.

[9] TSOTSOS J K, CULHANE S M, KEI WAI W Y, et al. Modeling Visual Attention via Selective Tuning[J]. Artificial Intelligence, 1995, 78(1/2): 507-545.

[10] 孙刘杰, 张煜森, 王文举, 等. 基于注意力机制的轻量级RGB‒D图像语义分割网络[J]. 包装工程, 2022, 43(3): 264-273.

SUN Liu-jie, ZHANG Yu-sen, WANG Wen-ju, et al. Lightweight Semantic Segmentation Network for RGB-D Image Based on Attention Mechanism[J]. Packaging Engineering, 2022, 43(3): 264-273.

[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You Need[C]// Advances in Neural Information Processing System, 2017: 5998-6008

[12] HU Jie, SHEN Li, ALBANIE S, et al. Squeeze-and- Excitation Networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence: 2011-2023.

[13] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]// Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[14] HOU Qi-bin, ZHOU Da-quan, FENG Jia-shi. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA. IEEE, 2021: 13708-13717.

[15] HAN Kai, WANG Yun-he, TIAN Qi, et al. GhostNet: More Features from Cheap Operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. IEEE, 2020: 1577-1586.

[16] BERGMANN P, BATZNER K, FAUSER M, et al. The MVTec Anomaly Detection Dataset: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection[J]. International Journal of Computer Vision, 2021, 129(4): 1038-1059.

Surface Defect Detection Method for Pharmaceutical Capsules Based on Modified YOLOv5

WU Ze-kun,YE Xiao-xian,CHEN Meng

(School of Art and Design, Shanghai University of Engineering Science, Shanghai 201620, China)

The work aims to detect the surface defects of pharmaceutical hollow capsules in quality inspection accurately and quickly. Based on YOLOv5 algorithm and aiming at the problems of large amount of model network parameters and weak learning ability of long-distance dependence, GhostNet module and Coordinate attention mechanism were introduced into the backbone network to make the network effectively capture the relationship between data location information and channel information. The experimental results showed that the improved network structure could accurately detect five kinds of defects such as damage, printing error, hole, scratch and depression on the surface of pharmaceutical capsule on the premise of decreasing to 57% of the original parameters. The average accuracy of each defect was 96.9%, which was increased by 2.4 percentage points. The detection speed was increased by 12 FPS. The proposed method can effectively classify and locate the surface defects of pharmaceutical capsules, and improve the accuracy of defect detection.

YOLOv5; pharmaceutical capsules; defect detection; attention mechanism; GhostNet

TB487

A

1001-3563(2022)23-0297-08

10.19554/j.cnki.1001-3563.2022.23.035

2022–04–24

武泽坤(1997—),男,硕士生,主攻计算机视觉。

叶晓娴(1984—),女,博士,教授,主要研究方向为影像档案修复、视觉与媒体设计等。

责任编辑:曾钰婵

猜你喜欢

注意力卷积胶囊
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
时光胶囊
时光胶囊
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
聚焦“毒胶囊”