基于改进AlexNet卷积神经网络的轮胎图像识别

2021-08-02张素智吴玉红

计算机技术与发展 2021年7期

张素智，吴玉红，常俊

(1.郑州轻工业大学软件学院，河南郑州 450000；2.郑州轻工业大学计算机与通信工程学院，河南郑州 450000)

0 引言

近些年，国内经济的高速提升带动了汽车行业的飞速发展，使得汽车的销售量大幅上涨，汽车轮胎的使用与理赔问题逐渐成为现代社会的关注焦点。而将深度学习应用于轮胎破损图像的分类识别中，利用学习模型对大量的轮胎破损图像进行训练，学习有用的特征，实现利用计算机自动对图像分类和识别，无疑是给轮胎工业带来了新的机遇和挑战。

图像识别是指利用计算机模仿人类对图像的认知过程，以图像的特征信息为记忆点，自动地根据图像不同的特征信息完成分类识别。近些年，国内计算机行业有很大的发展，促使图像识别技术与现代人们的生活息息相关，由于它很大限度地满足了人们在不同情况下的各种需求，被广泛应用在各个方面，包括医疗健康、农业生产、监控追踪等，所采用的图像识别技术也从最早的模板匹配、原型匹配到现在的深度学习方法[1]。深度学习在图像识别的很多领域都被成功应用，而且使得图像的识别准确率越来越高，也吸引了很多人对其进行改进研究。

深度学习是机器学习的一个新的研究领域，它是通过建立、模拟人类大脑进行分析学习的神经网络，通过模仿人脑的机制来解释数据[2]。近年来，以卷积神经网络为基础的深度学习技术在图像识别的很多应用上都取得了很大的进步，比如人脸识别[3]、文字识别[4]、花卉识别[5]等。与常规的识别方法相比，卷积神经网络(convolutional neural network，CNN)方法直接由数据本身驱动特征及表达关系的自我学习，对图像具有极强的数据表征能力[6]。LeCun采用有监督反向传播网络实现了数字识别[7]。Hinton在ImageNet比赛中设计了AlexNet网络模型提高了图像识别的准确率[8]。柯鹏飞结合CNN平面网络和残差网络的特点，使用平均池化层代替全连接层，使得网络结构变得简单且增强了可移植性[9]。傅勇提出并训练一个多任务级联卷积神经网络实现了360度范围内检测平面旋转人脸[10]。白琮在AlexNet网络模型的全连接层引入了一层新的隐层，通过隐层让网络可以同时有学习图像特征和二值哈希的功能，使AlexNet网络拥有了处理大规模图像数据的能力[11]。刘亮对Softmax层进行了改进设计，在Softmax的损失代价函数中加入一个正则项，引入权重衰减系数使得卷积神经网络在人脸识别领域的测试集识别率有一定的提高[12]。王昱皓等将核主成分分析法与Softmax分类函数结合在一起，提出了一种新的故障诊断分类模型，通过对高压断路器机械故障的分类也验证了模型的优越性[13]。周非等人通过增加训练样本标签的维度和增加不同样本类别的最小汉明距离，并将Sigmoid激活函数与交叉熵损失函数相结合，提高了卷积网络模型的分类能力[14]。杨鹤标针对Softmax层在大量数据训练效率低的问题，提出了一种新型的动态层序Softmax算法，采用节点置换方法动态构建编码树，通过动态使用一阶矩估计和二阶矩估计方法调整更新方向和学习率，提高了Softmax分类在对海量数据时进行训练分类的准确率[15]。

该文针对轮胎破损图像识别中容易出现过拟合现象，导致图像分类识别准确率不高的问题，提出一种基于岭回归分析的AlexNet卷积神经网络轮胎破损图像识别模型。在AlexNet网络的图像特征信息提取模块中引入岭回归模型，通过在原来的损失函数中加入一个新的正则项，尽可能地减小目标函数，以此降低模型训练过程中出现的过拟合现象，提高图像的训练准确率。最终实验结果也验证了提出的改进算法提高了轮胎破损图像分类识别的准确率。

1 相关理论

1.1 AlexNet模型网络结构

卷积神经网络是第一个成功训练多层网络结构的学习算法，通过提取图像特征信息，最终得到一幅图像的高级语义特征[16]。卷积神经网络的基本结构一般由卷积层、池化层和全连接层组成。而AlexNet网络是一种深度卷积神经网络，由五个卷积层、三个池化层和三个全连接层构成。其中卷积层和池化层主要是进行图像特征信息的提取操作，全连接层将特征图转换为特征向量，其中最后一个全连接层将输出结果递交给Softmax层[17]。AlexNet模型的网络结构如图1所示。

图1 AlexNet模型的网络结构

其中卷积层的计算表达式为：

(1)

(2)

全连接层的计算表达式为：

(3)

其中，ω表示权重变量；bi表示第i个神经元的偏置项数值；yi表示第i个神经元的输出数值；N表示所有样本特征图的个数；M表示样本数据的特征图的熵神经元个数；m表示分类类别的数目；Q表示输出层激活函数的作用值。

使用AlexNet网络对图像训练得到训练模型的过程共分成两个阶段，包括前向传播阶段和反向传播阶段。每个阶段的运算过程如下：

(1)前向传播阶段AlexNet网络模型对每层输入的运算为：

(4)

其中，y(l)表示第l个卷积层的输出，x(i)表示输入向量，⊗表示卷积计算，bl表示偏置，Wi表示此层所对应的卷积核的权值，m表示输入图像的特征图的全部集合，f(x)表示非线性激活函数。

(2)反向传播阶段AlexNet网络模型对每层输入的运算为：

一个含有m个样本的数据集，经过前向传播的过程之后AlexNet网络会输出每一种不同类别预测的最终结果，则根据此结果与期望值的输出，可定义网络的整体目标函数为：

(5)

式中，L(zi)是网络对应的损失函数，它是通过迭代训练最小化损失函数，目的是降低网络模型的分类错误率，zi是反向传播阶段开始时的输入，也就是前向传播阶段最后一层网络的输出结果。W表示网络在本次迭代中所占的权值，λ表示相应的归一项所占的比重。损失函数L(zi)随着不同的分类数量而改变。而Softmax层的归一化概率函数可以定义为：

zi=zi-max(z1,z2,…,zm)

(6)

(7)

在上述定义中，zi是每一个类别线性预测的结果，σi(z)表示概率，是网络预测输入值zi属于每一种类别的可能性。则可定义损失函数为：

L(zi)=-logσi(z)

(8)

采用梯度下降算法对公式(1)中每一层的W与bl分别求其导数，最终通过计算可以得到网络参数的更新权值和模型的最小化损失函数。

1.2 岭回归模型

当数据存在多重共性数据时，尽管使用最小二乘法得出的估计值不存在偏差，但是它们的方差差别很大，使得预测结果与真实结果相差甚远。岭回归(ridge regression)分析是最小二乘估计法的一种改进方程，主要被用来处理共线性的数据，是一种有偏估计的回归方法[18]。它不考虑最小二乘法的无偏性，而是损失一些信息以此获得一个新的回归系数[19]。岭回归分析虽然降低了数据精度，但更贴近实际应用，是一种更值得信任的回归方法，对于破损轮胎图像的数据的拟合比最小二乘法更好。

对于传统的最小二乘法线性回归，它的代价函数如下式所示：

(9)

公式(9)是通过改变拟合系数β的大小使RSS值最小。而岭回归分析是在传统的最小二乘线性回归方程中加上一个正则项，用此正则项对参数进行改进，即加上正则项(L2范数)。正则化是一种常见的防止过拟合的方法，一般原理是在代价函数后面加上一个对参数的约束项，而这个约束项被称作正则化项。

(10)

(11)

引入正则化项L2范数后，此时代价函数可被定义为：

(12)

其中，λ是一个非负的调节参数。从上式可以得到：当λ=0时，结果与传统的最小二乘法一致，没有起到任何作用，而当λ=+∞，RSS占整个代价函数的比重非常小，正则项变得非常大，若要代价函数的值取最小，只能选择改变拟合系数β的值，使其无限接近零。

岭回归的代价函数是一个凸函数，L2范数惩罚项的加入使得满秩，保证了可逆，但是也由于惩罚项的加入，使得回归系数β的估计不再是无偏估计。所以岭回归是以放弃无偏性、降低精度为代价解决病态矩阵问题的回归方法。

2 基于改进的AlexNet卷积神经网络模型

为提高轮胎破损图像的识别准确率，该文提出了一种改进的AlexNet卷积神经网络模型，该模型是在原来模型的图像特征信息提取模块中加入岭回归分析。传统的模型由于轮胎图像的特征信息具有较多的共性，在训练时会出现过拟合现象，使得算法的训练准确率降低了。而岭回归分析对含有大量多重共性信息的数据有较好的分析能力，引入岭回归分析可以在一定程度上弱化过拟合问题。改进的AlexNet卷积神经网络模型的结构如图2所示。

图2 改进AlexNet模型的网络结构

该文在卷积层和池化层之间引入岭回归分析方程，在进行特征信息的提取时，首先找出多重共线性的信息，并剔除一部分信息，目的是通过岭回归系数的稳定与否找出代表性不够大的变量。利用岭回归分析对共性数据强大的分析能力，放弃一些轮胎数据信息，选择提取信息丰富具有特征代表性的信息，并获得一个新的回归系数。利用新的回归系数调整网络的代价函数，以此达到改变函数比重的目的。这也降低了网络模型在训练过程中出现的过拟合现象，更进一步增强了模型的训练能力，提高了轮胎破损图像的识别准确率。

3 实验与分析

3.1 数据集

本次实验数据集是由人工拍摄以及网上获取的轮胎破损图像组成，共分为四类，包括2 488张图片。为保证数据样本数量充足，在进行模型训练之前首先对轮胎破损图像进行预处理操作，对数据的样本数量进行扩充处理。预处理技术包括水平翻转、垂直翻转、随机旋转或缩放技术等。经过预处理后，最终共有样本3 735张。该文选择每类样本中的70%作为训练集，剩余的30%则构成测试集，数据集中所有轮胎破损图像的尺寸均为64*64像素。数据集的具体分类如表1所示。

表1 轮胎破损图像数据集分类

3.2 实验平台

为了验证将岭回归分析方法引入AlexNet卷积神经网络模型的可行性，将其用于轮胎破损图像的分类和识别中。本次实验均是在基于Python语言的深度学习框架TensorFlow下实现的。环境为Windows10 64位操作系统，硬件环境为Intel i5。

3.3 实验验证与分析

为了验证提出的改进网络模型可以应用在轮胎破损图像识别中，在相同的实验环境下，将处理完成的训练集用传统的AlexNet卷积神经网络模型与提出的改进模型分别训练并进行对比。实验结果如图3所示，其中左图为传统的网络模型训练结果，右图为提出的改进网络模型训练结果。

图3 对比实验结果

从实验结果图可以看出，在训练过程中，随着迭代次数的不断增加，两种网络模型的训练准确率均逐渐上升且最终趋于一个稳定的状态，但改进的AlexNet卷积神经网络模型的训练准确率与损失率都更加稳定。总体看来，改进的AlexNet卷积神经网络模型的性能优于传统的网络模型。传统模型的训练准确率为88.732%，而提出的改进AlexNet卷积神经网络模型的训练准确率为90.158%，训练准确率有所提高。使用测试集对改进的网络模型以及传统网络模型分别进行测试实验，实验结果也显示改进的网络模型识别准确率也优于传统的网络模型。

4 结束语

针对卷积神经网络算法在应用于轮胎破损图像的分类识别时，由于轮胎图像特征信息含有大量的共性数据以至于分类准确率与识别准确率不高的问题，提出一种基于岭回归分析的AlexNet卷积神经网络模型并将其应用于轮胎破损图像识别中。针对训练过程中由于图像特征信息的共性而出现的过拟合现象导致模型的训练准确率降低的问题，在传统的网络模型的基础上，引入了岭回归分析，在一定程度上解决了此问题。根据实验结果可以看出，改进的AlexNet卷积神经网络模型相比于传统的网络模型有更高的训练准确率和识别准确率，但是在轮胎破损图像识别的应用中，此网络模型还存在一定的不足，后续工作将致力于进一步改进网络模型，以达到对轮胎破损图像有更高的识别准确率的目的。