基于改进Faster R-CNN的钢材表面缺陷检测方法

2021-09-06张亚楠王婷婷刘添翼

吉林大学学报(信息科学版) 2021年4期

杨莉张亚楠王婷婷刘添翼

(东北石油大学电气信息工程学院,黑龙江大庆 163318)

0 引言

目前由于钢材产量的快速增长和检测技术的不完善,其表面的任何缺陷,比如残缺、变形等不仅影响其质量性能,而且还影响企业的形象及产品美观。人工检测是生产过程中最常见的一种传统检测方法,由于缺陷类型的多样性与相似性对员工的敬业度与检测水平有着巨大的考验,而且对于企业,效率与成本更是一个极其敏感的问题,因此人工检测方法不能完全保证检测的稳定性与准确性。而机器视觉则具有稳定、安全、高效、实时和准确等多种优势,该检测方法是企业实现自动化、智能化的有效方式之一[1-2]。随着人工智能的迅速发展与深度学习算法的日益成熟,卷积神经网络在人脸识别、图像分类、目标检测等方面具有更加优异的性能比[3-4],可以将低层的特征数据提取抽象化为高层的特征表示。边栋梁[5]通过卷积神经网络模型对钢材表面粗糙度的分类准确率高达100%。钢材检测需要网络的加深获得更多的目标特征信息,但随着网络的加深容易导致梯度消失以及梯度爆炸。Wu 等[6]通过残差块(Residual Block)构建的残差网络(ResNet)突破了网络深度的问题。基于深度学习的目标检测算法主要分为两大类:一类是基于区域建议的二阶段目标检测算法,如SPP-Net(Sputial Pgramid Pooling-Network)[7]、Fast R-CNN(Region-Convolutional Neural Networks)[8]、Faster R-CNN[9]；另一类是基于回归的单阶段目标检测,如YOLO[10]、SDD(Sciteh Display Doctor)[11]、Retinanet[12]。与二阶段目标检测相比,单阶段目标检测无需提取候选区域,虽然在速度上有很大提升,但检测精度偏低。由于钢材表面缺陷检测精度要求较高,为更好地平衡精度与速度,Cha 等[13]用Faster R-CNN 对钢材裂缝等多种缺陷类型进行检测。该方法首先通过卷积网络进行特征提取,然后通过RPN 生成高质量的预选区域,比基于CNN 模型有更良好的检测性能,但在训练过程中产生的锚点大多数是无用的,因此网络做了很多的无用计算。软非极大值抑制(Soft-NMS:Soft Non-Maximum Suppression)[14]算法可以在候选框进行分类时去除多余的检测框；邓志鹏等[15]利用可形变卷积代替传统卷积,将每个采样点增加偏移量(Offset Field)实现任意形状的感兴趣区域；Dong 等[16]利用非局部块(Non-Local Block)捕捉交通监控图像时间、空间上的依赖关系；张珹[17]用GA-RPN代替传统RPN 提升固件装置的识别效果。Ren 等[18]在Faster R-CNN 引入区域建议网络(FPN:Feature Pyramid Network)可以提高图像中的小目标检测率,但FPN 底层与高层之间的路径太远,从而影响高层特征样本的定位,同时相邻卷积层融合再采样的融合方式鲁棒性能不强。而Liu 等[19]提出的PANet 是在FPN的基础上通过增加由底层向上层的路径,从而可以利用浅层的精准定位信息的优点,但未能考虑融合再采样的不充分特征融合。通过比较相关学者的方法以及存在的不足,笔者提出了一种改进Faster R-CNN 检测方法,通过引入GA-RPN代替RPN,加入可调节机制增强形变卷积的效果,并通过提出的多任务FPN 不仅可以缩短浅层与高层之间的路径,而且能更有效地融入各层次之间的信息。

1 识别方法与网络结构模型

1.1 网络结构

笔者采用ResNet-101 卷积神经网络结构,根据残差模块将网络结构分为5 个卷积阶段,图1 为改进后的Faster R-CNN 网络结构图。首先输入图像通过卷积神经网络进行特征提取；其次在特征融合过程中,多任务FPN 将每个阶段最后一层的特征图进行融合,并将得到的特征图输送到GA-RPN 中生成稀疏形状自适应锚点,同时加入可调节机制优化感兴趣区域(ROI:Regions Of Interest)；最后将生成的ROIs 映射到特征图中产生候选框。而传统RPN 则是将特征图每个点作为中心点,经过3×3 卷积将根据设置3 种大小规格和3 种不同的长宽比得到9 个矩形的锚点,缺点是产生了很多无用的锚点。RoI Align 为感兴趣区域池化层,将候选框区域提取并固定大小为7×7,再通过两层全连接层进行定位和分类。

图1 网络结构Fig.1 Structure of network

1.2 可调节机制

笔者针对传统RPN 产生大量无用锚点,而增加计算消耗问题,引入GA-RPN 代替RPN 生成高质量、低密度的检测框以提高召回率。GA-RPN 主要分为两个部分:利用图像特征预测中心区域区分正负样本以及预测锚点的形状。图2 为正负样本区域比例图,利用ROI 重映射规则,将每个人工标注检测框映射到不同的特征图,当标注检测框落入中心区域(C 字母代表的矩形面积)则为正样本,当落入灰色部分(N 代表的区域)则为负样本区域,I 部分面积为忽略区域,该区域的样本不参与计算。笔者中心区域占据比例设为0.2,忽略区域占据比例设为0.5。锚点框进行回归前,首先计算每个位置的9 个锚点与人工标注检测框的交并比(IOU:Intersection Over Union)值,将最大IOU 值作为当前位置的锚点,并通过计算每个位置上的缩放系数预测最优的宽与高。

图2 正负样本区域比例图Fig.2 The area ratio of positive and negative samples

虽然引入可变形卷积能更好地预测检测框形状,但其不仅会影响训练速度,而且还会使正样本采样点不能完全集合到感兴趣区域,为此,笔者引入可调节机制,通过权重稀释输入的采样点。在传统卷积过程中,输入特征图位置p的特征经过大小为k×k的卷积核进行卷积,通过卷积得到的感兴趣区域都是矩形的,因此在同一层特征图中不同形状的物体经过同一个卷积显然是不合理的。可变形卷积可以通过学习到实数偏移量Δpk提高网络的形变建模能力,其中偏移量方向为两个维度(特征图宽度方向和长度方向),当偏移量超过样本的范围时,网络学习的特征将是错误的,通过引入可调节参数调节错误采样点。卷积过程如下

其中k为卷积核采样位置个数,pk为卷积核中第k个位置上的数值,Δmk为在可变形卷积中增加的可调节参数,取值范围为[0,1],wk为采样点权重系数,y为输出,x为卷积函数。当可调节参数为0,可以强制性丢弃错误采样点,使网络更加灵活。

1.3 多任务FPN

在使用Resnet-101 提取特征时需要经过近百层的卷积,随着网络层数的增加,前景的语义信息容易丢失,这对小目标检测非常不利。因此通过多尺度特征融合,将网络高层与低层特征相融合,但低层与高层之间距离过长会影响定位的精准性。因此笔者通过提出多任务FPN,结构如图3 所示,左侧为FPN采样过程,其中C1～C5分别为5 个阶段中最后一层特征图,由于C1尺寸过大,融合过程将占据很多显存,因此将其舍弃,通过FPN 将其融合得到｛P2,P3,P4,P5｝。多任务FPN 在其基础上增加两条路径:第1 条路径为利用加权平均和算法将FPN 输出的4 层特征图融合,再通过文献[16]的非局部块进行去噪提纯处理,从而解决了FPN 融合后再采样的融合不充分问题；第2 条路径为下采样特征融合,用于缩短高层正样本映射到原图的信息路径。

图3 多任务FPN 采样流程Fig.3 The sampling process of multi-task FPN

1.3.1 加权平均和与去噪提纯

针对FPN 融合再采样的不充分融合,笔者通过加权平均和算法将其优化,根据网络模型的特性,通过卷积和池化采样进行特征提取,层数越高分辨率越低,将FPN 中的｛P2,P3,P4,P5｝调整到相同尺寸。笔者采用的方法是当分辨率需要调小时,采用池化减小尺寸,反之用定位差值法将尺寸调大(去噪提纯阶段也采用此方法),之后进行加权平均,计算如下

其中L为总层数,Pl为l层,lmin和lmax分别为FPN 中最低层特征图和最高层特征图,而笔者将4 个层数调整成与P4大小相同的尺寸,然后进行加权平均和。将4 层的特性有效地结合后需要进一步去噪提纯处理,在提取某处的特征时,非局部块可以利用其局部像素的相似度信息,通过卷积增大感受野以获取原图上更多的信息,而且不改变输入大小。利用度量函数f计算像素之间相似度,映射函数g(x)通过1×1卷积计算某点的特征。计算方式如下

其中x为输入,y为输出,i,j则为某个空间位置,C(x)为归一化系数。度量函数如下

其中hrelu为线性整流函数,wf为可以转化为标量的向量,wθ与wσ为权值参数。通过降噪算法可以集成更多的特征信息,之后重新调整与FPN 中尺寸大小相等的4 层特征图｛G2,G3,G4,G5｝。

1.3.2 下采样特征融合

笔者在FPN 基础上引入一条低层向高层特征融合的路径。图4 为下采样特征融合过程中计算示意图,左侧为浅层向深层方向特征融合方式,其中没有对P2做任何处理,而右侧是融合过程示意图。FPN中深层进行空间大小为增加2 倍的上采样,而笔者则采用低层进行3×3 卷积下采样,再与对应FPN的特征图进行融合,得到新的4 层特征图｛N2,N3,N4,N5｝,为了防止混叠效应的发生,融合后进行步长为1的3×3 卷积保证特征的稳定。在FPN 融合过程中要经过上百层,显然影响回归定位的准确性,而笔者引入新的路径为9 层,很大程度上缓解了定位信息丢失的问题。最后去噪提纯后的特征图逐元素对应相加,将两个分支的特征有效地融合。

图4 下采样特征融合过程Fig.4 The process of feature fusion

2 实验

笔者将Faster R-CNN 模型与改进后的网络模型分别对钢材表面缺陷进行检测,通过mAP 值与检测速度两项指标进行评估,并将笔者的模型训练得到的分类、回归的各个损失值与准确率模拟合成曲线。

实验均使用python3.7、PyTorch、cuda10.0 和cudnn7.5 作为深度学习库,显卡型号为NVIDA-2080ti。网络输入图像短边像素为960,并将固定的均值和方差进行归一化处理,通过随机梯度下降法更新权重,其中学习率为0.001,动量参数为0.9,权重衰减为0.000 5。在训练过程中批量batch size 设为1,训练次数epoch 设为50,以提高性能。

2.1 数据集

笔者使用的钢板表层图像数据来源于N 钢集团科技质量部,数据集共5 405 张像素大小为2 560×1 920的图片,其中训练数据集4 805 张,测试集600 张。通常认定小目标为低于图像分辨率0.15%[20],该数据集小目标的比例为74.95%。图5 是抽取的一些样本,共有10 种类型的缺陷,分别为不导电(DT0)、擦花(DT1)、角漏(DT2)、桔皮(DT3)、渗漏(DT4)、喷流(DT5)、漆泡(DT6)、起坑(DT7)、杂色(DT8)、脏点(DT9),其中数据集图像单缺陷4 584 张,多类缺陷821 张。

图5 钢材表面缺陷的类型Fig.5 Types of steel surface defects

2.2 研究对比

在完成网络的训练后,笔者的模型与Faster R-CNN 进行对比,通过图6 描绘出两种网路模型中每种缺陷类型的召回率,IOU 值设为0.5。五星折线代表Faster R-CNN 训练结果,而圆点折线代表笔者改进模型。从图6 中可以看出,Faster R-CNN 中DT7(起坑)召回率很低,是由于起坑目标太小,导致正样本过少而负样本过多,而改进后的模型DT2、DT4、DT6、DT7等缺陷类型的召回率都得到很大的提升,其他缺陷类型也有不同程度的提升。

图6 各缺陷类型召回率Fig.6 Recall rate of each defect type

网络性能指标通过mAP(mean Average Precision)与检测速度进行评估,mAP 由各类缺陷类型平均检测率(AP)之和除以总缺陷类型数10(10 类钢材缺陷模型)计算得到。表1 是笔者模型与Faster R-CNN 性能对比表,可以看到Faster R-CNN的mAP 值为0.630,单张图片检测时间为0.047 s,改进网络mAP 值为0.863 s,提高了0.233,这与提升的召回率有很大关联,虽然检测速度仍低于Faster R-CNN,但是在实际生产中相邻道次间钢材轧制的时间间隔最短也需要40 s 左右,因此本网络具有时效性。

表1 Faster RCNN 与改进网络的性能对比Tab.1 Performance comparison of Faster RCNN and improved network

2.3 训练损失值与准确率

在网络训练过程中,通过可视化损失值与准确率判断网络是否有效,如图7 所示。

图7 损失值与准确率曲线Fig.7 Curves of loss value and accuracy

将网络中损失曲线与准确率可视化。图7a 表明模型的损失值曲线低于Faster R-CNN,从图7b 中可看出改进的网络模型准确率曲线较高,表明改进的网络训练方式更加有效,通过比较发现两者的损失值曲线开始大幅度下降之后逐渐收敛稳定,准确率曲线逐渐升高后也逐渐收敛,表明设置的参数合理。

3 钢材检测效果

图8 为网络对随机选取钢材表面缺陷图像的效果图,缺陷的位置由矩形框标记,并在左上角标出置信度,图8a～图8d 均为单一类缺陷的图像,而图8e、图8f 为多类型缺陷检测效果图,从效果上都可以成功检测出缺陷位置与类型,说明该网络具有较强的检测能力。

图8 钢材表面缺陷类型检测图Fig.8 Images of steel surface defect detection

4 结语

传统钢材表面缺陷检测由于依赖于人工检测的准确性,从而影响产品的质量性能和安全性,为此笔者在Faster R-CNN的基础上,通过引入GA-RPN 稀疏无用的检测框提高效率,在预测锚点形状的同时引入可调节机制增强网络的建模性能。并且提出的多任务FPN,不仅可以缩短低层与高层之间的路径,更好地保留定位信息,而且还能通过加权平均和可以更好地融合多层之间的信息。通过与Faster R-CNN对比,mAP 提高0.233,在速度与精度方面也达到良好的平衡。今后将在这10 种类型中提供更多的缺陷图像,通过训练网络,分析类型缺陷中的不良性能,对网络结构进一步优化。