APP下载

基于参数优化残差网络的皮革缺陷分类

2020-05-07邓杰航吴昌政梁鸿津顾国生翁韶伟

科学技术与工程 2020年8期
关键词:皮革残差准确率

邓杰航, 吴昌政, 梁鸿津, 顾国生*, 翁韶伟

(1.广东工业大学计算机学院,广州 510006;2.肇庆学院计算机科学与软件学院,肇庆 526061;3.广东工业大学信息工程学院,广州 510006)

随着时代的发展和人们生活水平的提高,大多数人群对皮革产品的消费观念正在由实用型到高品质进行转变,人们对皮革制品的质量和美观有了更高的要求。虽然科技不断进步,但皮革制品行业目前的发展还是比较缓慢,究其原因是在皮革加工前的缺陷检测技术发展滞后,自动化程度低。为了提高皮革制品的质量以及更加合理地利用皮革原料,加工前的缺陷检测与分类必不可少。但一直以来,这些缺陷检测与分类的工作基本都由人工完成,加工效率低,生产的成本也高;同时由于人工筛选存在很大程度的主观性以及工作中的疲劳,这些因素都直接或者间接影响检测的效果[1]。随着计算机视觉技术的发展,使用计算机对皮革缺陷进行检测成为目前的研究方向。

在皮革缺陷检测方面,皮革表面缺陷检测技术不断发展,研究人员基于计算机视觉技术提出了不同的检测、分割算法。Tsai等[2-3]通过傅里叶变换使用基于全局图像重构的方法对纹理图像中重复性、周期性的内容进行处理,提出了一种基于 Gabor Filter 的检测方法,该方法需要通过完好的样本来获取最优参数,同时领域窗的选取对结果也会有很大影响。崔杨[4]提出了一种基于改进模糊C-均值算法的皮革缺陷检测算法,该方法通过测算其共生矩阵的多个测度作为像素的特征向量,最后通过模糊聚类对其分类。该方法虽然在检测精度方面得到提高,但其计算量大,不能满足皮革行业的自动化检测要求。李健等[5]使用改进决策树结合前馈神经网络选择最优分类属性的方法,此方法对缺陷皮革进行了分类但预处理复杂。陈虹[6]采用基于纹理的分析方法,其方法采用将灰度共生矩阵与改进的模糊C-均值聚类两者相结合的方法对皮革图像进行分割,得到最后的缺陷区域。这些皮革检测算法均是使用传统的检测算法对皮革进行缺陷检测,判断皮革有无缺陷或缺陷是否明显,但不能对缺陷皮革进行缺陷类型的分类,不满足自动化生产中针对不同缺陷类型的皮革进行特定处理的需求。

图1 基于残差网络分类流程Fig.1 The flow chart of the classification based on the residual network

在图像分类的技术中,深度学习的发展十分迅速。深度学习这一概念在2006年提出,它是机器学习的一个分支,其目标是建立模拟人脑功能的神经网络,通过此网络对实验数据进行解释。深度学习的发展十分迅速,其在图像识别、分类方面的优越性也越来越明显。深度学习允许由多个处理层组成的网络模型来学习数据表示。此算法极大地改进了语音识别、视觉对象识别等许多其他技术。其在训练过程中通过反向传播算法来计算网络参数所需的调整[7],目前在图像处理方面,深度学习也取得了十分显著的成效[8]。其中深度卷积网络在处理图像、视频、语音方面有很大突破[9-10]。邓柳等[11]使用深度卷积神经网络对车型进行识别,通过神经网络对车辆图像进行特征提取,最后根据提取的特征进行分类。该研究在车流量监测方面有很大意义。何雪英等[12]基于深度学习对乳腺癌病理图像进行自动分类并取得了较高的准确率。Zhang等[13]利用卷积网络对西红柿各个生长期图像进行分类确定其类别。深度学习在人脸识别[14-15]方面的各个研究中也是富有成效的。Korbar等[16]利用深度残差网络对结直肠息肉的组织切片做分类,对于确定结直肠癌的风险和未来的患者监护率有很大作用。

文献[16]中图像分类的特点是结直肠息肉图片上正常组织的纹理具有一定规律性,但病变息肉有多种,且大小、形状各不相同,只有纹理、结构具有相似性。这跟常见的牛、羊皮革图像具有类似的特征。皮革图像也是正常纹理具有一定规律,但缺陷有多种,且大小、形状各不相同,只有纹理、结构具有相似性。鉴于两种识别场景的相似性,及深度残差网络在文献[16]识别中的有效应用,提出应用基于深度残差网络的算法对缺陷皮革图像进行分类处理,从而解决大部分缺陷检测算法存在的处理难度大或不适用于自动化生产以及不能对皮革缺陷类型进行详细分类的问题;同时在预处理时采用数据增强方法对样本集进行扩充,防止深度学习算法在小数据集上的过拟合问题,提高皮革图像的分类准确率,达到自动化生产的要求。

1 基于深度残差网络的皮革缺陷分类方法

1.1 深度残差网络架构

对比现在常用的LeNet[7]、AlexNet[8]、GoogleNet[10]等卷积网络,ResNet网络引入了残差结构(residual block),可以解决因网络层数增加而带来的退化问题,提高分类的精度[17]。 实验流程如图1所示,实验的工作包括皮革的图像采集、实验样本图像的制作与标注、模型的训练及改进。

1.1.1 基础结构

应用的残差网络(部分)结构如图2所示。其中皮革图像的分辨率为110像素/in(1in=25.4 mm),缩放比例为原图的17%;BatchNorm为批规范化(batch normalization),scale为尺度变化,ReLu为修正线性单元(rectified linear units); Eltwise层包含点乘、相加减和取大值操作。该网络通过对样本进行卷积、池化操作进行特征提取,最终通过分类器对样本图像进行分类。

图2 残差网络(部分)结构Fig.2 Theresidual network structure

输入层:网络的起始层,载入皮革样本图像的同时将图像数据化作为下一网络层的输入。网络以彩色皮革样本图像作为输入,在Caffe生成lmdb文件时会统一调整为224×224大小,从而适用网络的全连接层。

卷积层:卷积网络中的特征提取层。输入数据与一组卷积核进行卷积操作之后再加上偏置后传递给激活函数,得到的结果是一组特征图。不同的特征图提取不同的特征。一个特征图由一个卷积核得到,即权值共享。其计算方法为

(1)

卷积层的局部连接方式可以极大地减少参数数量,降低算法的复杂性;同时采用多卷积核,通过不同权重的卷积核来获取图像的不同特征。

池化层:也叫下采样层,主要是对皮革特征图的相邻区进行聚合统计。主要包括最大值池化和平均值池化,主要操作是取区域上的一个值做下采样;其目的是进一步减少网络的参数,保持某种不变性(旋转、平移等)。其中最大值池化是取区域内最大值作为保留特征值,均值池化则是以区域平均值作为保留特征值。

Softmax分类器:最后使用Softmax分类器对提取特征进行操作,进而对输入皮革图像做缺陷分类。Softmax分类器是多分类问题常用方法,通过Softmax分类器可以得到一个值域为[0,1]且全部元素和为1的一维向量,其下标分别对应不同的分类类别,模型训练完成后就可以对皮革图像进行识别分类。Softmax分类器定义为

(2)

式(2)中:P(α)为第α个分类对应的概率;zα为第α个分类对应的输入值;K为总的分类数。

1.1.2 残差模块

残差网络相对于传统的各种神经网络主要是引入了残差结构。其结构如图2中虚线框所示。残差结构是通过具有快捷连接(图2中虚线区域右半部分)的神经网络来实现。实验中快捷连接被添加到残差模块的输出中,此过程不会增加参数,同时仍然可以通过梯度下降算法进行模型训练。残差结构解决了梯度消失问题,这允许更大的神经网络深度,同时将计算复杂度保持在可控的水平[17]。

1.2 数据增强

深度神经网络训练中有数以百万的参数,而训练的目的就是通过海量数据使参数优化,因此小数据集会带来网络过拟合问题。因采集图像需要经验丰富的工人进行筛选并分类整理,其成本较高故图像数量有限,所以网络训练中缺少大规模的实验数据。为了避免小数据集带来的网络过拟合问题,采用数据增强的方法对数据集进行扩充。数据增强方法就是利用已有的数据进行诸如翻转、平移、旋转等方法来获取更多的数据,从而使得网络参数训练更加彻底,网络具有更好的泛化效果。

实验使用图像由深圳来择科技有限公司提供。皮革样本的高分辨率图像很大,缺陷皮革图像中大部分均为完好皮革,只有图像的一小部分实际上与缺陷特征有关。在这项研究中,实验人员在皮革加工厂中采集高清皮革图后进行固定目标窗的裁剪对数据进行扩充(图3)。

通过使用固定大小的目标窗对原始高清图像进行滑动裁剪,从而获取更多的实验数据。缺陷区域一般都是局部的,过大的目标窗在生成lmdb文件时会通过缩放函数将样本图像裁剪成224×224大小,可能导致缺陷形状改变(如从破洞皮革中间裁剪可能使其变成无缺陷皮革);过小的目标窗则可能不能完全包含缺陷部位,通过大量实验验证,将滑动窗设为500×500像素。实验结果证明,采用此大小滑动窗的数据集识别准确率可以满足应用要求。

图3 滑动窗增强示意图Fig.3 The schematic diagram of data volume enhancement by sliding patch windows

由经验丰富的工人协助实验人员对样本图像建立分类图像库。实验数据包括划痕、烂面、破洞、针眼、无缺陷5类,其中5类皮革的训练图像共1 608张,测试图像共366张,总计1 974张样本图像。经过反复实验验证,使用此规模的数据集训练可以让网络稳定;同时,实验保证如果从同一张高清皮革图像裁剪的多个样本都被放置在同一组中(全在训练集或全在测试集),保证了实验结果的可信度。表1所示为5类样本训练集与测试集具体数目分布情况。

表1 5种皮革样本训练、测试图像具体分布

2 实验及结果分析

2.1 实验环境

实验使用Intel Core i7-8700k 3.70 GHz 12核CPU,NVIDIA1080ti显卡,显存11 GB,ubuntu16.04LTS系统。系统配置了Caffe开源深度学习框架以及使用Python编程语言实现残差网络。

2.2 评价标准

对于皮革图像的缺陷识别与分类工作,采用测试过程中正确识别的图像数目Nr与总的测试图像数目N来得到实验的精度β,即

(3)

通过实验的评价指标β可以直观地看出各种网络对于皮革缺陷分类方面的效果,从而确定网络模型的有效性。

2.3 训练策略与参数优化

对经过数据增强的5类皮革样本进行随机分配,得到训练数据集与测试数据集。实验的最终实验数据集如表1所示,再按照式(4)的比例对各类样本进行随机划分,保证划分的随机性。

(4)

式(4)中:Nte表示各类缺陷皮革测试图像的数量;Ntr表示各类缺陷皮革训练图像的数量;Pt表示第t类缺陷(1划痕,2烂面,3破洞,4针眼,5无缺陷)测试图像数量与训练图像数量的比例。Pt是通过随机产生,在实验中,P=[0.308, 0.188, 0.229, 0.17, 0.238]。训练集与测试集之间无交叉,保证实验结果的有效性。通过完成的数据集在不同的网络模型上训练集测试进行对比实验,验证方法的优势,同时通过准确率反应方法的实用性。

针对实验对残差网络的最大迭代次数、网络训练的初始学习率、学习策略等参数进行优化。通过大量实验验证实验以10 000次作为网络训练的最大迭代次数,网络训练的初始学习率为0.05,同时训练网络采用“multistep”学习策略在模型训练过程中更新学习率且保持每次减小0.5倍以便达到更好的训练结果。

2.4 实验结果

经过大量实验验证,选择RestNet-50作为残差网络进行验证。为了验证所提方法的有效性,对常见的深度学习网络架构进行对比实验,包括Lenet_5、Caffenet以及未优化参数的ResNet-50网络,且各网络参数均针对皮革实验进行参数调整。实验结果如表2所示。

在基于ResNet-50基础上进行参数优化后进一步提高了分类准确率,达到92.34%,具体如图4所示。同时各类样本的识别准确率如表3所示。

表2 不同网络模型对同一数据集的实验结果对比

图4 测试准确率与迭代次数的关系Fig.4 The relationship between the classification accuracy and the total number of iterations

测试数量是实验数据量与Pt的乘积。由表3可以看出:划痕、无缺陷、烂面类的皮革分类准确率高;而破洞和针眼类型的缺陷皮革因为其特征极其相似。故模型对这两类缺陷皮革的分类精度略低。

2.5 实验总结

由表2可看出:Lenet_5、Caffenet这些传统神经网络于本实验的分类准确率为70%左右,准确率较低;而引入残差结构的ResNet-50网络有更好的分类效果使分类准确率提高到80%以上;在ResNet-50网络的基础上经过参数优化的本文方法进一步提高了皮革缺陷分类的准确率,使其超过92%。同时通过表3可以看出,对于无缺陷的皮革以及划痕类缺陷皮革其分类准确率均超过95%,破洞和针眼类的缺陷皮革的分类准确率略低。通过以上实验结果可以看出,本文方法对皮革缺陷的识别与分类有很显著的效果,超过了传统卷积网络的识别结果。同时相对于传统的皮革缺陷检测实验,对皮革的缺陷类型进行了分类,更好地与自动化生产结合在一起。

3 结语

研究了参数优化的残差网络对皮革的缺陷进行分类处理。采用的残差网络相比于传统的卷积网络具有更深及更为有效的结构,识别准确率高。同时使用数据增强方法对数据进行扩充,避免了因样本不足而可能产生的过拟合问题。实验过程中,对网络训练最大迭代次数、初始学习率和学习策略等参数进行优化。实验证明本文方法在很大程度上满足自动化生产的需要,但是因破洞、针眼特征相似性带来的分类精度问题还需要进一步研究。

猜你喜欢

皮革残差准确率
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
皮革回潮
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于残差学习的自适应无人机目标跟踪算法
基于深度卷积的残差三生网络研究与应用
足球上到底有多少块皮革