基于改进 Cascade Faster R-CNN的铝型材表面缺陷识别研究
2021-08-20崔亚飞罗辉秦龙邓慧
崔亚飞 罗辉 秦龙 邓慧
摘要:在铝型材实际生产过程中,由于碰撞、加工温度、压力等原因,可能导致铝型材产生擦花、脏点、喷流等数种表面缺陷,缺陷目标较小,长宽大,传统目标检测算法的准确率较低,严重影响铝型材的美观和质量。在 Faster R-CNN 网络的基础上,引入了多阶段模型训练方法使部分无缺陷样本生成对抗样本,用 ResNeXt105网络代替原始 VGG16网络提取图像特征,设计了 Cascade Faster R-CNN 的网络结构,采用 FPN 提取多尺度特征图并进行特征图融合。实验结果表明,在2722张图像测试集上,Faster R-CNN模型准确率为62.7%,网络模型测试准确率达到81.4%,提高了18.7%。故相比于其他网络模型,改进后的 Cascade Faster R-CNN的模型具有更强的特征提取能力和泛化能力,为类似小目标检测提高了技术参考。
关键词:Cascade Faster R-CNN;铝型材;缺陷识别
中图分类号:TP391.4文献标志码:A文章编号:1009-9492(2021)11-0085-06
Research on Surface Defect Recognition of Aluminum Profile Based on Improved Cascade Faster R-CNN
Cui Yafei,Luo Hui ,Qin long ,Deng Hui
(School of Intelligent Manufacturing and Architectural Engineering, Yongzhou Vocational and Technical College, Yongzhou,Hunan 425100, China)
Abstract: In the actual production process of aluminum profiles, due to collision, processing temperature, pressure and other reasons, aluminum profiles may produce several kinds of surface defects, such as scratch, dirty spots and jet. The defect target is small, long and wide, and the accuracy of traditional target detection algorithm is low, which seriously affects the appearance and quality of aluminum profiles. Based on the faster R-CNN network, a multi-stage model training method was introduced to make some defect free samples generate confrontation samples. ResNeXt105 network was used to replace the original VGG16 network to extract image features. The network structure of Cascade Faster R-CNN was designed. The multi-scale feature map was extracted by FPN and the feature map was fused. In 2722 image test sets, the accuracy of fast R-CNN model is 62.7%, and the accuracy of this network model is 81.4%, which is improved by 18.7%. Compared with other network models, the improved Cascade Fast R-CNN model has stronger feature extraction ability and generalization ability, which improves the technical reference for similar small target detection.
Key words: Cascade Faster R-CNN; aluminum profile; defect identification
0 引言
我國是铝型材生产和消费大国,铝型材在建筑、工业、车辆、家装和日常生活中都有广泛的应用。但是,铝型材在实际生产过程中,由于碰撞、加工温度、杂物、压力等原因,可能导致铝型材产生擦花、角位漏底、桔皮、漏底、喷流、漆泡、起坑、杂色和脏点等数十种表面瑕疵缺陷,这些表面瑕疵不但影响铝型材的美观和价格,还可能留下安全隐患。因此,铝型材在出厂之前,必须进行铝型材质量检测。传统的铝型材人工检测不仅费时费力,而且效率低下,人眼容易产生疲劳,进而产生误判,影响产品质量,企业急需智能化的缺陷目标检测技术。
近年来,基于机器视觉[1]、人工智能[2]等的目标检测技术蓬勃发展广泛应用到各个领域。机器视觉检测技术通过相机采集图像,再通过图像处理算法对采集图像进行预处理,之后通过轮廓提取与模板匹配达到目标识别和定位缺陷的目的[3-5]。但是机器视觉技术输入图像尺寸较大时,它们需要更多的运行时间,对现场环境和工件形状、背景颜色有较高要求,泛化能力较差。铝型材表面缺陷无论是种类、面积还是形状都很复杂,如图1所示,传统机器视觉图像处理技术难以满足检测要求。
2012年,Krizhevsky等[6]提出一种叫AlexNet的深度卷积神经网络,大获成功。随后深度学习快速发展,特别是涌现出众多基于深度学习的优秀目标检测识别技术[7],如 R-CNN[8]、Fast R-CNN[9]、Faster R-CNN[10]、Cas- cade R-CNN[11]相继提出。基于深度学习的目标检测技术直接从数据中学习物体特征,较少受到环境因素的影响,因此,在泛型目标检测领域取得了显著突破。
随着《德国工业4.0》《中国制造2025》[12]等战略的出台,在人力成本急剧上涨的背景下,传统企业急需转型升级,传统制造业正逐步进入智能制造时代。本文结合前沿的目标检测技术,针对铝型材缺陷目标检测的行业痛点,在 Faster R-CNN网络的基础上,设计了一种改进的级联 Faster R-CNN算法。该算法,采用多阶段训练方法充分学习无缺陷样本特征,使用 FPN 网络提取多尺度特征,主干网络使用 ResNeXt152代替Faster R-CNN中的 VGG16进行特征提取,同时将特征提取分为级联的3个阶段,以解决 IOU的阈值太高容易造成检测性能下降的问题。
1 目标检测现状
目标检测是一个复杂的问题,需要解决两个主要任务。一个是识别任务,识别检测目标与背景的区别,并且能给识别的检测目标所属类别。另一个是定位任务,必须给不同的识别检测目标分配精确的边界框。目标检测现状以2012年Krizhevsky等[6]提出的AlexNet为界限,之前的传统目标检测方法以图像处理和视觉为主,之后的目标检测以深度学习为主。目标检测发展历程如图2所示。
1.1 传统目标检测算法
2012年之前,目标检测的主要有Haar、 SFIT、HOG 、SURF 、SPM 、LBP 、SVM 等[13-14]图像处理和计算机视觉的检测算法,算法流程如图3所示。
传统目标检测算法采用不同的滑动窗口在图像的不同位置选取候选区域,然后进行特征提取,提取的特征主要围绕底层特征和中层次特征来展开,像颜色、纹理等,最后把这些特征送到分类器进行分类和识别。
1.2 深度学习目标检测算法
2012年提出基于深度卷积神经网络的AlexNet算法之后,基于深度学习的目标检测算法蓬勃发展,逐渐取代传统的目标检测算法。其中基于候选区域的目标检测 R-CNN 、Fast R-CNN 、Faster R-CNN 应用最为广泛。R-CNN 算法首先利用选择性搜索创建约2000个候选区域,然后候选区域转换为固定大小送到卷积神经网络进行特征提取,之后使用 SVM 分类器进行分类,使用线性回归来校正边界框,达到目标分类并获得边界框。Fast R-CNN 直接对整个图像进行卷积,避免了 R-CNN 对约2000个候选区域进行卷积和重复提取特征,因此,训练速度得以提升。Faster R-CNN 与 Fast R-CNN 相似,不同点是 Faster R-CNN 用区域生成网( RPN )代替候选区域法。Faster R-CNN 基本网络结构如图4所示,首先通过卷积神经网络提取特征,然后通过 RPN 产生预测框,最后在融合特征图上实现分类和回归。
2 铝型材算法设计与改进
2.1 算法流程
针对铝型材表面缺陷的特点,本文在 Faster R-CNN 网络基础做了3个方面的改进,如图5所示。首先,主干网络选择了 ResNeXt152,ResNeXt网络是ResNet的升级版,升级内容为引入 Inception 的多支路的思想;与ResNet相比,相同的参数个数,结果更好。其次,针对铝型材缺陷框存在尺度变化大的问题,在模型中引入了 FPN (特征金字塔网络),即使缺陷很小,也能充分地学习到特征,提高了网络地检测精度。最后,在 two-stage 的基础上还用到了一种 Cascade-rcnn级联检测器方法,该方法可以有效地提高铝型材的检测准确率。
2.2 加入 Multi-stage多阶段训练方法
第一个改进点是用到 Multi-stage多階段的模型训练方法。第一阶段,本文用有缺陷的样本数据集来训练的识别模型,可以识别10类有缺陷样本;第二阶段,通过训练的模型测试无缺陷的样本数据集,经实验发现,无缺陷数据集也会产生有缺陷的结果,生成假阳性数据集;第三阶段,通过假阳性数据集和有缺陷数据集一起再次训练识别模型,可以识别11类,其中10类缺陷样本和1类无缺陷样本。
改进 Multi-stage多阶段的模型的原因是因为第一阶段模型学习到的特征是比较浅的,其训练并不充分,所以需要把这个模型训练结果拿来检测无缺陷样本数据集,对无瑕疵样本进行检测,发现出现了大量的误检,大概生成了4000多的误检,因此本文认为这部分误检的结果是一个很好的对抗样本,可以把这个假阳性样本加入到模型的训练集,直接让模型去学习没有缺陷的图像特征和已知的10类缺陷之间的生产的一个关系,让这个模型学到更好的特征。经过实验测试可以得出,只用有缺陷的样本来训练的话,mAP只有77.8%,如果用 Multi-stage 多阶段的mAP是80.8%,故本文增加了 Multi-stage多阶段的训练方法。
2.3 改进 Faster R-CNN检测模型
第二个改进点是用到了 Cascade Faster R-CNN 的结构。本文所用铝型材的缺陷有个特点,其缺陷没有一个明显的区域,如图7(a)所示。图8(a)是传统的 Fast- er R-CNN 两级的检测结构,就是说先通过一阶检测器 RPN 网络生产预测框,然后再通过二阶检测器对边界框进行回归和分类。该模型难以预测一个比较准确的边界框的位置,包括人也很难给出比较准确的边界框的位置,所以增加了本文识别的难度,其实本文想要的效果如图7(b)所示,模型能给出精确的边界框的位置。
基于这个问题,本文从网络结构出发,研究边界框回归如何能回归出比较好的位置。在模型训练的时候,其 IOU的阈值是比较重要的,通常情况下,IOU的阀值会选择 u=0.5左右,如果 IOU的阀值选择小的话会有非常多的噪声,如果选择大的话检测性能又会下降,但是使用 u=0.5回归的边界框质量差,不适合精确定位。如果想要精确的邊界框,则需要用 IOU的高阀值来训练检测器,所以本文设计了 Cascade Faster R-CNN 结构,其框架结构如图8(b)所示。
本文在传统的基础上增加了 H2、H3的检测器,H1的检测器阀值还是 u=0.5, H2的检测器阀值 u=0.6, H3的检测器阀值 u=0.7, H2的输入是 H1的边界框回归输出,H2的 IOU会在0.5的基础上有所提高,同理,H3的输入是 H2的边界框输出,通过这种形式,不仅让检测结构有了 H1常规的边界框输出,还有更好阀值的检测器的输出,得出最终的结果,如图7(b)所示。
图8(b)结构依赖于一系列特殊的回归因子,如式(1) 所示:
式中: T 为级联级数的总数。
需要注意的是级联中的每个回归因子fT相对于达到了相应阶段的样本分布{bt}而不是初始分布{b1}进行了优化,这种级联方式使得模型逐级得到改善。级联回归从一组示例(xi , bi)开始,依此对较高 IOU的示例分布(x′i , b′i)进行重采样。这样,即使 IOU阀值增加的情况下,也可以使每个阶段的正样本子集保持恒定的数量。
在每个 t 阶段,Faster R-CNN包括一个分类器ht和一个为ut优化了的回归器ft ,其中ut>ut-1。这些是通过下式来保证最小化损失的:
式中:bt =ft -1(xt -1, bt -1);对于xt、g 为基准对象;λ=1为权衡系数;yt是xt的标签,这保证了一系列有效检测器质量地不断提高。
2.4 改进基于 FPN的区域推荐网络
针对铝型材表面缺陷小、长宽比大的特点,为了更好地提取并保留特征,本文设计了一种基于 FPN 的多尺度融合特征推荐网络,能更好地对铝型材缺陷特点进行检测。
如图9所示,经过特征提取得到特征图 C1、C2、C3,然后与 P1、P2、P3融合,再经过3×3卷积核消除采用过程中地混叠效应,随后再 RPN 地作用下完成目标缺陷分类与回归。改进后的算法能有效提高对铝型材小目标和极度长宽比的提取能力,准确率明显提高。
3 实验过程
3.1 铝型材数据集
铝型材是佛山南海的支柱性产业,在铝型材的实际生产过程中,由于各方面因素的影响,铝型材表面会产生裂纹、起皮、划伤等瑕疵,这些瑕疵会严重影响铝型材的质量。该瑕疵数据集是来自于某企业某一生产线在某一段时间段实际生产中有瑕疵的铝型材监测影像数据,每个影像中包含一个或多种瑕疵。
铝材表面瑕疵图片的分辨率为2560×1920,瑕疵的种类主要有不导电、擦花、角位漏底、桔皮、漏底、喷流、漆泡、起坑、杂色和脏点10类。图10所示为不同类型的铝型材表面瑕疵。
3.2 数据集统计分析
本数据集共有图像4536张的训练数据,包括无缺陷图片1351张,单瑕疵图片2776张,多瑕疵图片229张,如图11所示,该数据集样本量比较少,同时不同类缺陷之间存在比较大的样本不均衡。图2统计了单瑕疵图片和多瑕疵图片中各种类型的铝材表面瑕疵包含的图片数量。从统计图中可以看出每种瑕疵类别所拥有的样本数量极其不均匀,有些类别的样本数量特别少,如喷流类、漆泡类,而漏底类瑕疵样本远高于其他类型的瑕疵样本数量。
针对铝型材原始图像数量少的问题,本文在原始图像的基础上通过图像的水平和竖直翻转等操作增加了数据集,增加后的数据集有13608张。同时对数据集进行随机分割,选取80%约10886张图像作为训练集,剩余的20%的约2722张图像作为测试集。
3.3 对比实验
本文为了选出最优的铝型材表面瑕疵识别与定位方法首先使用了 Faster RCNN模型,然后分别使用了 FPN、FPN+Cascade-RCNN、FPN+Cascade-RCNN +Multi-stage 三个网络模型作为对比实验,主干网络模型分别使用了 ResNeXt101和 ResNeXt152。ResNeXt网络是ResNet的升级版,升级内容为引入 Inception 的多支路的思想;与ResNet相比,相同的参数个数,结果更好。
3.4 实验平台
本文实验所用的计算机配置: CPU为I5-9400F ,内存为16 G ,显卡为 RTX 20606 G ,图像处理使用的是 OpenCV ,深度学习算法框架选用的是 TensorFlow2.0。
4 实验结果与数据分析
本文训练使用的 ResNeXt101为101层,ResNeXt105为105层; FPN 输入的通道数为[256, 512, 1024, 2048];级联检测器 H1的 IOU阀值为0.5,H2的 IOU阀值为0.6, H3的 IOU 阀值为0.7;每种额昂了模型迭代总次数为300000次,共进行了20次训练,训练结果如表1所示。表中结果展示了本文所用的几种模型在铝型材数据集上的测试结果。从表1中数据可以看出,Faster R-CNN模型准确率只有62.7%,其他3种网络模型都使用了 ResNeXt101和 ResNeXt105网络,但是 ResNeXt105网络比 ResNeXt101网络模型的准确率高。ResNeXt105网络优于 ResNeXt101网络,主要是因为 ResNeXt105比 ResNeXt101拥有更多的参数,精度更高,所以结果会更好。同时,本文改进后的 FPN + Cascade-RCNN + Multi-stage 网络模型检测精度为81.40%,相比于 FasterR-CNN 、FPN 和FPN+Cascade-RCNN网络模型有所提高,说明改进的FPN+Cascade-RCNN+Multi-stage网络模型具有良好的有效性和鲁棒性,综合表现优于其他网络。
图12所示为改进后的 FPN + Cascade-RCNN + Multi-stage网络模型对铝型材表面缺陷的检测结果,图 12(a)为单目标缺陷检测结果,图 12(b)为多目标缺陷检测结果。检测结果的显示信息主要包括:(1) 缺陷的具体位置,用绿色标出;(2)缺陷的种类和置信度,用红色字母和数字标出。从图中可以看出,本文改进后的网络模型可以有效地提取铝型材的缺陷特征,并识别出具体缺陷类别,找出具体缺陷位置。
5 结束语
本文在传统的目标检测框架 Faster R-CNN 的基础上,提出一种改进的CascadeFaster R-CNN来实现对铝型材目标检测的识别与定位。经过实验验证可以得出,该算法主要有以下优点:(1) 迭代训练充分利用无缺陷样本,增强模型的泛化能力; (2)相比于 ResNeXt101和ResNet,ResNeXt152具有强大的特征提取能力;(3)基于 FPN 的多尺度特征网络进一步提升准确率;(4)级联CascadeFaster R-CNN网络逐阶训练,可以更好地抑制假阳性,减少过拟合问题。本文提出地改进的CascadeFast- er R-CNN相较于传统网络模型具有较高的正确率,为类似小目标缺陷检测领域提供了技术参考。
参考文献:
[1] Baltru?aitis T, Ahuja C, Morency L P. Multimodal machine learn- ing: Asurveyandtaxonomy[J]. IEEEtransactionsonpattern analysis and machine intelligence, 2018, 41(2):423-443.
[2] Zou Z ,Shi Z ,Guo Y , et al. Object Detection in 20 Years: A Survey[J].2019.
[3] W Wang,SChen,LChen,etal,A Machine Vision Based Automat- ic Optical Inspection System for Measuring Drilling Quality of Printed Circuit Boards [J].IEEE Access,2017(5):10817-10833.
[4] N Chen,JSun,XWang,etal.Research on surface defect detection and grinding path planning of steel plate based on machine vision [C]//14th IEEE Conference on Industrial Electronics and Appli- cations (ICIEA), 2019.
[5]王海云,王劍平, 罗付华.融合多层次特征 Faster R-CNN的金属板带材表面缺陷检测研究[J].机械科学与技术,2021,40(2):262-269.
[6] KrizhevskyA ,Sutskever I , Hinton G . ImageNet Classification with Deep Convolutional Neural Networks[C]//NIPS. Curran As- sociates Inc.2012.
[7] Liu L,OuyangW,WangX,etal.Deep learning for generic object detection:A survey[J]. International journal of computer vision, 2020, 128(2):261-318.
[8] GirshickR , Donahue J , Darrell T , et al. Rich Feature Hierar- chies for Accurate Object Detection and Semantic Segmentation [J].2013.
[9] GirshickR . Fast R-CNN[J]. ICCV, 2015.
[10] Ren S , He K , Girshick R , et al. Faster R-CNN: Towards Re- al-TimeObject Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence, 2017, 39(6):1137-1149.
[11] Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality objectdetection[C]//ProceedingsoftheIEEEconferenceon computer vision and pattern recognition.2018.
[12] Feng W . Industry 4.0: Advances of Germany's manufacturing innovation *(Extended abstract: Presentation-only)[C]//201713th IEEE Conference on Automation Science and Engineering (CASE 2017). IEEE, 2017.
[13] DaniilidisK , Maragos P , Paragios N . Improving the FisherKernel for Large-Scale Image Classification[J]. Eccv, 2010.
[14] Wang X , Han T X , Yan S . An HOG-LBP human detector with partial occlusion handling[C]// IEEE International Confer- ence on Computer Vision. IEEE, 2009.
第一作者简介:崔亚飞(1992-),男,硕士,讲师,研究领域为机器视觉、机器学习、工业机器人等,已发表论文10篇。
(编辑:刁少华)