基于深度学习的主轴承盖分类识别算法

2021-09-19张鹏飞石志良李晓垚欧阳祥波

图学学报 2021年4期

张鹏飞，石志良，李晓垚，欧阳祥波

(1.武汉理工大学机电工程学院，湖北武汉 430070；2.广州工业大学机电工程学院，广东广州 510006)

汽车发动机主轴承盖零件，主要用于曲轴定位，保护曲轴轴承，是发动机重要组成零件之一。作为发动机零部件的配套企业，需要为多款发动机配备不同的主轴承盖零件，实际生产中，各种主轴承盖零件，经过清洗、去毛刺等工序后，被杂乱地混合在一起，对后续的激光打标和分类包装带来了严重干扰。

区别于传统的人工目视识别方法，自动识别分类技术信息化程度高，可控性好，其分类的准确性和稳定性也更有保障。基于机器视觉的图像物体识别分类方法，主要分为特征描述和深度学习2 种技术路线。

采用特征提取的图像物体识别方法，重点关注图像描述规则的设计，通过人为设计的规则，将一幅图像描述成一个特征向量，最后使用机器学习分类器，如支持向量机(support vector machines，SVM)[1]等，对特征向量的集合进行识别和分类。经典的特征提取方法有：局部二值模式(local binary pattern，LBP)[2]、尺度不变特征变换(scale invariant feature transform，SIFT)[3]、方向梯度直方图(histogram of oriented gradient，HOG)[4]等。尽管，在形成最终特征描述向量的过程中，通过特征编码和特征汇聚等方式，一定程度上提高了特征描述的稳定性，但此类方法在处理不均匀光照、细粒度分类等问题上，仍具有较大误差。在之前的研究中，提出基于特征提取的SIFT-SVM 零件识别方法[5]。该方法关注零件顶部图像的SIFT 特征关键点，通过聚类算法对分散的关键点进行整合，结合词袋模型，进行特征汇聚和降维，最终使用SVM 分类器进行识别分类。实验结果证明，在正常光源条件下，识别准确率为100%，单个零件识别时间为0.6 s。

采用深度学习的图像物体识别方法，是近年来机器视觉领域的热点研究方向[6]，其中最具代表性的方法是卷积神经网络(convolutional neural networks，CNN)，已广泛应用于物体识别[7]、行人检测[8]、人脸识别[9]等多个领域。事实上，学术界已有观点[10]认为，基于手工特征描述的方法，将人为设计的特征描述子，作为识别系统的信息来源，可能过早地丢失了图像中的有用信息。FANG 等[11]提出一种由粗到细的细粒度车型识别框架，通过构建CNN，抓取汽车图像中的目标特征区域，并反复细化特征区域，最后结合全局特征和局部特征完成车型细粒度分类；KRÜGER 等[12]基于经典ResNet 网络模型，使用非工业零件数据集，对网络进行迁移学习。经研究表明非工业图像数据集，对于工业图像的识别具有促进作用。同时，对于识别形状较简单或数据较少的零件而言，适当降低CNN 的深度，会取得更高识别效率。

1 发动机主轴承盖识别算法框架

研究涉及的主轴承盖零件，共有5 种，依次标记为ABCDE，不同种类的主轴承盖零件，形状相似，类间差异小，特征提取精度要求高，是典型的细粒度图像分类问题[13]，面临的主要难点有：

(1) 学术界尚未形成成熟的工业零件数据集，研究需要的主轴承盖图像数据，均来自实验模拟平台，数据集规模较小，需考虑过拟合风险；

(2) 由于主轴承盖零件本身的形状特点，差异特征主要分布于零件顶部和侧面，需要探索一种可以综合考虑2 个位置的识别方法；

(3) 零件实际识别过程中，或存在光照不均等问题，要求零件识别系统具有较高的稳定性。

文献[5]提出的SIFT-SVM方法对零件图像拍摄质量要求较高，需要额外设置光线遮挡装置。在实际应用中，当零件分类特征区域，未被光源有效照亮时，会导致图像SIFT 关键点发生改变，对识别系统产生严重干扰。

针对上述主轴承盖零件自动识别任务难点，设计了一种多分支特征融合卷积神经网络(multi-branch feature fusion convolutional neural network，MFF-CNN)，模型的基本设计框架如图1 所示。

图1 发动机主轴承盖零件识别算法框架 Fig.1 Algorithm framework for identifying parts of engine main bearing cap

MFF-CNN 采用多分支结构，设计2 个独立子网络，分别提取主轴承盖零件的侧面和顶部特征，实现主轴承盖零件的细粒度分类。该网络模型具有以下特点：

(1) 网络结构设计，需考虑主轴承盖差异性特征分布于2 个不同表面，设计多分支网络结构，分别提取零件的侧面和顶部特征，经过特征融合后得到最终的识别分类依据，提高零件特征表达的精度。

(2) 采用密集连接型CNN 结构，通过强化特征重用，降低网络参数量，提高模型的鲁棒性与适用性，同时，结合批量归一化(batch normalization，BN)[14]和全局平均池化(global average pooling，GAP)[15]等优化方法，进一步优化网络参数分布，提升模型准确率。

(3) 针对零件细粒度分类的过拟合问题，使用翻转、旋转、缩放、分割等数据增强方法，扩大样本数据量。

2 数据集及其预处理

尽管机器视觉已广泛应用于工业生产，但公开的机械零件图像数据集尚未形成。因此，通过实验平台来模拟主轴承盖实际生产过程，抓取处于物料传输中的零件图像，形成主轴承盖图像数据集。

实验平台主要用于图像采集和模拟在线识别，其基本组件包括电机、传送带、Basler 单通道ac2500型工业相机、LED 光源、OMRON 漫反射光电触发器、电源和计算机，平台整体结构包括物料传送、图像采集、辅助光源3 个基本模块组成，如图2 所示，其中图2(a)用于获取主轴承盖侧面图像数据；图2(b)用于获取主轴承盖顶部图像数据。同时，后续识别算法的实验验证与分析，也是基于该实际生产模拟实验平台。

图2 模拟实际生产的实验平台((a)获取主轴承盖侧面图像数据；(b)获取主轴承盖顶部图像数据) Fig.2 Experimental platform that simulates actual production ((a) Obtain the side image data of the main bearing cap;(b) Obtain the top image data of the main bearing cap)

进行零件识别分类时，要求所拍摄的零件图片，应清晰地展现不同种类间的差异特征。对于汽车发动机主轴承盖零件，其各种类之间的差别，主要存在于零件顶部的螺栓支撑台部位，同时，零件侧面的长度尺寸和中心半圆半径尺寸，也存在微小差别。因此，数据集包含了2 个角度的图像数据，如图3(a)为主轴承盖侧面图像，图3(b)为顶部图像。

图3 不同种类发动机主轴承盖零件的侧面图像和顶部图像((a)侧面图像；(b)顶部图像) Fig.3 Side and top images of different types of engine main bearing cap parts ((a) Side images;(b) Top images)

数据集整体包含顶部和侧面各1 000 张图像，对应每个种类200 张图像，其中140 张作为训练数据，60张作为测试数据。图像原始尺寸为2048×2048。为了验证网络模型的泛化性能，在实验数据集中，补充添加了不均匀光照图像，每类100 张，其中70张作为训练数据，30 张作为测试数据。以顶部图像为例，其数据集规模见表1，零件侧面图像数据集的组成，与表1 一致。

表1 主轴承盖零件顶部图像数据集 Table 1 Top image dataset of main bearing cap parts

为了缓解零件细粒度分类存在的过拟合问题，对原始图像数据集进行增强处理[16]。数据增强处理包括：随机截取、旋转变换和平移变换，其操作以原始图像中心大小1200×1200 区域为基准，随机截取5 张包含该区域且尺寸为1800×1800 的图像，对其中的任意2 张图像执行镜像操作，将得到的5 张图像进行随机的90°，180°或270°旋转，保留旋转前后共计10 张图像，综上，每张原始图像，经过数据增强处理，扩展为10 张训练图像。

更大的训练数据量，利于网络参数的优化调整，增加训练数据的复杂度，可以避免模型学习不相关的特征。同时，在训练集中增加光照不均匀的图像样本数据，作为训练集的难例(Hard Example)样本，增强MFF-CNN 对于光照不均因素的鲁棒性。相关的图像样本数据示例如图4 所示。实验数据集图像的拼接操作和数据增强操作，是基于3.4.0 版本的OpenCV 库，在CNN模型训练流程之外完成。

图4 图像样本增强处理示例((a)原图；(b)截取；(c)旋转；(d)镜像；(e)不均匀光照) Fig.4 Image sample enhancement processing example ((a) Original image;(b) Crop;(c) Rotation;(d) Mirror;(e) Uneven light)

在MFF-CNN方法中，需要对图像进行拼接处理，用其侧面和顶部2 张图像，合成待识别零件的初始图像数据，如图5 所示，该拼接图像作为MFF-CNN 的输入，以此解决零件特征分布于不同空间位置的问题。

图5 使用图像拼接方法描述主轴承盖零件 Fig.5 Use image stitching to describe main bearing cap parts

3 发动机主轴承盖识别神经网络

3.1 MFF-CNN模型的网络结构

MFF-CNN 的基础结构是深层CNN，与文献[5]提出的特征提取方法相比，CNN 可以从图像中自动学习特征表达，具备强大的特征提取能力。

考虑发动机主轴承盖零件分类特征的空间分布，设计MFF-CNN，如图6 所示，该网络使用2个子网络分别提取特征：SideNet 网络提取主轴承盖侧面特征，TopNet 网络提取主轴承盖顶部特征。融合上述2 个子网络学习到的特征，作为最终的主轴承盖分类依据。

图6 多分支特征融合卷积神经网络MFF-CNN 结构图 Fig.6 Structure diagram of multi-branch feature fusion convolutional neural network

MFF-CNN 基于密集连接型卷积神经网络DenseNet[17]设计，其网络模型的具体参数，见表2，网络整体由卷积层(convolution)、最大池化层(max pooling)和密集连接型CNN模块Dense Block 组成，输入的图像尺寸为512×256，最终的聚合特征尺寸为1×1×120。密集连接单元Dense Block，由卷积核尺寸为1×1 的卷积层和3×3 的卷积层交替连接组成，每个卷积层后均添加Dropout 操作。在同一个模块中，所有卷积层输出的特征图具有相同大小，并按照通道相连，每个卷积层都将之前所有层的特征信息作为附加输入，实现完全的特征共享。1×1卷积的主要作用是为了控制网络宽度，其卷积核的数量固定为4k，避免了由于特征共享导致的特征图过量累加。同时，3×3 卷积的步长stride=1，填充padding=1，使得输出特征图尺寸与1×1 卷积层保持一致。2 个Dense Block 之间，使用1×1 卷积层和最大池化层的组合进行连接，称为过渡层。在MFF-CNN 中，1×1 卷积将前一个Dense Block模块的特征图数量缩小50%，有效缓解深层网络的过拟合和梯度消失等问题。表2 中未明确标出的有：在每个卷积层运算之后，依次执行批量归一化操作，并使用修正线性单元(rectified linear unit，ReLU)对网络参数添加非线性映射，即构成Conv-BN-ReLU的基本运算组合。网络层参数中，参数k表示基本增长率(growth rate)，是影响各层特征图数量的全局常量。

表2 多分支特征融合卷积神经网络的结构参数表 Table 2 Structure parameter table of multi-branch feature fusion convolutional neural network

在基于神经网络的图像识别方法中，为了提取更全面的图像特征，深度学习趋于设计更深、更宽的网络结构，随之而来的是梯度消失、模型退化问题愈加明显。针对这些问题，学术界已经提出多种解决方案，如深度残差网络ResNet[18]、随机深度网络(stochastic depth)[19]等。尽管这些算法具有不同的连接方式，网络深度也存在差异，但核心思想都在于加强网络层级间的特征重用，即使用旁路连接方式，将深层与浅层网络相连接，这是构建深层神经网络的有效方式，如图7 所示。

图7 ResNet 网络与DenseNet 网络中的核心连接机制示意图((a) ResNet 中的Residual Block 结构示意图；(b) DenseNet 中的Dense Block 结构示意图) Fig.7 Schematic diagram of the core connection mechanism between ResNet and DenseNet ((a) Structural diagram of Residual Block in ResNet;(b) Structural diagram of Dense Block in DenseNet)

3.2 MFF-CNN 分支网络的实现

SideNet 是针对主轴承盖侧面图像设计的浅层CNN，使用浅层网络处理侧面较简单的特征，减小网络整体参数量，提升小样本数据下的模型准确率。SideNet 共有18 层，包含2 个Dense Block 单元。在全局平均池化层前，设置了2 个卷积层和一个最大池化层，分别为1×1、3×3 卷积和3×3 最大池化，作用是：1×1 卷积用于减少第二个Dense Block 单元输出的特征图数量，3×3 卷积和3×3 最大池化依次进行2 次下采样，将特征图尺寸由32×32 降至8×8，最后进行全局平均池化，得到1×1×60 的主轴承盖侧面图像特征。

TopNet 是针对主轴承盖顶部图像设计的深层CNN，深层网络具备更强的学习机制，可以有效提取零件顶部的复杂形状特征，并提高模型处理顶部光照不均匀问题的能力。TopNet 共有64 层神经网络，包含4 个Dense Block 单元和3 个过渡层，经全局平均池化后，得到的零件顶部图像特征，与SideNet 具有相同尺寸。4 个Dense Block 单元的内部网络层数呈递增状态，由初始的4 层增至最终的32 层，确保主轴承盖顶部的分类特征，可以被完整地表达，同时增强了识别系统对光照等因素的鲁棒性。

按照通道融合子网络SideNet 和TopNet 提取的特征，得到尺寸为1×1×564 的主轴承盖整体分类依据，MFF-CNN模型同时综合零件侧面和顶部的图像特征，进行零件识别分类。

3.3 网络训练优化方法

MFF-CNN模型结构中使用了多种神经网络训练优化方法，包括：

(1) Dropout。在每个训练批次中，随机忽略一定比例的特征检测器，避免模型过度依赖某些局部特征，有效降低过拟合现象，增强MFF-CNN模型的泛化性能；

(2) 批量归一化。通过批量数据归一化方式，使得单个批次的训练中，每一层神经网络的输入数据保持相同分布，符合独立同分布假设[14]。批量归一化将图像白化的思想延伸至神经网络的中间层，避免网络内部输入分布出现较大差异，有效缓解了反向传播中的梯度消失问题，加速了网络模型的收敛。MFF-CNN模型的所有卷积层都配合使用了批量归一化操作；

(3) 全局平均池化。使用平均池化的方式实现了降维，将最后一层卷积特征图，直接转化为最终类别参数，替换了经典CNN 结构中的全连接层，等同于对整个网络结构进行了正则化。实际应用中，使用全局平均池化方法，使得全连接模块降低了6.25%的参数量，进一步增强了模型的抗过拟合性能。

4 实验分析

4.1 MFF-CNN 主轴承盖识别算法的实现

神经网络模型运行实验平台的硬件组成如下：操作系统为Windows 10；CPU 为Intel Core i7-8700k；显卡为Nvidia GTX 1050Ti，4 GB 显存。实验中，所有CNN模型均基于Python 语言编写，在Google开源框架Tensorflow 中实现。其他软件支持包括：Python 3 集成开发环境PyCharm；Nvidia GPU 运算平台CUDA 8.0，神经网络可视化工具TensorBoard等。MFF-CNN 识别算法的伪代码见算法1。

算法1.MFF-CNN 主轴承盖零件识别算法。

输入：训练集图像数据。

输出：网络模型参数。

4.2 MFF-CNN模型实验结果与分析

为了验证MFF-CNN模型对主轴承盖零件的识别性能，引入2 个经典网络模型ResNet 和DenseNet作为对照组。实验中，ResNet 使用深度为50 层和101 层2 种网络结构，DenseNet 使用深度为121 层的网络结构。实验中的所有网络模型，均采用相同的训练优化方法和超参数设置：训练批量batch_size=32，Dropout 正则化参数λ=0.2，训练迭代数epoch=300，DenseNet 网络的基本增长率k=24；学习率采用阶段性衰减策略，初始学习率η=0.001，衰减系数为0.5，每30 次迭代更新一次学习率，训练优化方法使用小批量Adam 梯度优化算法，基于训练批量更新网络权重参数，设定动量参数momentum=0.9。详细的超参数见表3。

表3 神经网络超参数的设置 Table 3 Neural network hyperparameter settings

ResNet 和DenseNet 以及MFF-CNN 的识别结果见表4。其中，模型计算量通过浮点运算数(floating point operations,FLOPs)表示，是网络模型“时间复杂度”的衡量标准，具体表现为网络训练和预测的时间消耗，计算量越大的网络，训练和预测的时间消耗越大，模型优化难度随之增大，预测实时性随之降低。模型参数量是指网络的整个训练过程，需要学习的未知参数总数，是网络模型“空间复杂度”的衡量标准，具体表现为神经网络模型的过拟合抗性，参数量越高的网络模型，越容易导致过拟合，从而导致模型的最终识别率降低。

表4 各个卷积神经网络方法的识别结果 Table 4 The recognition results of each convolutional neural network method

从表4 的实验结果中可以看出：

(1) 101 层的ResNet 网络较50 层网络，识别准确率由82.0%提升至84.0%，这是由于深层神经网络具有更强的特征表达能力；

(2) 与ResNet-101 近似深度的DenseNet-121 网络，准确率为88.4%，是因为密集连接型CNN 结构参数量少，具有更强的过拟合抗性；

(3) MFF-CNN模型的识别准确率为91.6%，是对比实验中的最优结果，表明多分支结构设计，能够针对性地提取主轴承盖不同方位的特征，特征提取效率更高，同时MFF-CNN 中密集连接的网络结构，可以实现高效的特征重用，显著降低模型参数量，由18 层和64 层组成的多分支网络，其整体参数量甚至仅为 ResNet-50 网络的 6.25%，使得MFF-CNN 在少样本情况下，可以保持较高的过拟合抗性。

模型准确率曲线和损失函数曲线如图8 所示，是神经网络训练过程动态分析的重要依据。图8(a)是4 种卷积网络的识别准确率曲线，从图中可以看出：针对主轴承盖图像样本，残差网络的最终识别准确率，低于密集连接型网络结构。在整体训练过程中，MFF-CNN 网络的识别准确率曲线分布于最上层，准确率最高，其次是DenseNet-121，最下层是ResNet-101 和ResNet-50 网络，这表明在相同迭代周期内，密集连接型网络较残差网络的识别准确率更高，训练速率更快，验证了本文识别算法的设计思路。图8(b)是模型训练的损失函数曲线，从中可以看出，MFF-CNN 网络的损失函数曲线分布于最下层，数值下降速率更快，且最终收敛于更小的损失值，即表明该网络在训练过程中的误差更小，特征描述更精确，其原因在于MFF-CNN 采用多分支结构，增强了主轴承盖零件的特征表达。应当说明的是，尽管训练过程振荡起伏不断，但整体训练趋势稳定，随着训练过程的迭代，网络通过BN 等正则化方法，逐渐修正错误权重参数，模型最终趋于稳定。

图8 ResNet，DenseNet 以及MFF-CNN 识别准确率曲线和损失函数曲线((a)模型测试集识别准确率曲线；(b)模型测试集损失函数曲线) Fig.8 ResNet,DenseNet and MFF-CNN recognition accuracy curve and loss function curve ((a) Model test set recognition accuracy curve;(b) Model test set loss function curve)

4.3 MFF-CNN 与特征提取方法的对比分析

文献[5]提出基于特征提取的SIFT-SVM主轴承盖识别算法，在正常光照条件下，具有良好的零件识别性能，但对处于不均匀光照环境中的零件，其识别稳定性较差。本文提出基于深度学习的MFF-CNN 识别算法，使用深层CNN，代替SIFT特征提取方法，同时结合特征融合思想，设计分支网络，分别获取零件2 个视角的特征表达，针对文献[5]方法的不足做出改进。设置对比实验，分析MFF-CNN方法在不均匀光照条件下的具体表现。

SIFT-SVM 的输入数据是零件顶部图像，而MFF-CNN 算法的输入数据，是零件顶部和侧面2 个角度的拼接图像，因此，为了可以在相同数据集上进行对比分析实验，将MFF-CNN 分割为2种网络，一种是原始型，使用拼接图像作为输入；另一种仅保留其TopNet 子网络，记为MFF-CNN (TopNet)，使用零件顶部图像作为输入。基础数据集采用正常光照图像与不均匀光照图像的组合。实验结果见表5。

表5 2种识别算法在不均匀光照条件下的实验结果 Table 5 The recognition results of each convolutional neural network method

由表5 分析可知：

(1) 不均匀光照条件下，对比分析SIFT-SVM和MFF-CNN(TopNet)方法的实验结果，基于深度学习的识别方法在稳定性方面显著提升，将不均匀光照样本的准确率由38.7%提升至86.7%。而基于特征提取的SIFT-SVM方法，几乎无法有效识别不均匀光照的零件，制约了基于特征提取识别方法的应用场景；

(2) 综合比较所有组实验结果，MFF-CNN方法既保持了识别网络的光照稳定性，又通过联合零件侧面特征的方式，提升了模型识别准确率。在包含不均匀光照图像数据集上，识别准确率为91.6%，对不均匀光照样本具有90%的识别准确率，识别准确率相对较高，同时又兼顾稳定性的识别方法。

实验结果表明，MFF-CNN 算法有效地修正了文献[5]特征提取方法稳定性差的缺点，但由于研究收集的零件图像数量有限，一定程度上限制了MFF-CNN 网络模型的训练与优化，是算法进一步改进的方向。

5 结论

针对汽车发动机主轴承盖零件自动分类问题进行研究，提出了MFF-CNN，增强识别算法对不均匀光照影响因素的稳定性。MFF-CNN 使用2 个子网络，分别提取零件侧面和顶部特征，有效整合零件多方位的形状特征，增强特征提取效率。模型整体基于密集连接型卷积神经网络结构设计，结构紧凑，特征重用率高，网络参数量少。实验结果表明，在同一实验数据集上，MFF-CNN的识别准确率为91.6%，优于经典CNN，并针对SIFT-SVM 识别方法光照稳定性较差的问题，做出有效改善。在仅有较少样本量，且包含不均匀光照等复杂样本条件下，研究从主轴承盖零件实际特征出发，综合考虑了零件的图像表达和特征提取2 个方面，对其他种类的机械零件细粒度分类问题具有参考意义。