基于残差网络的烤烟烟叶分级

2023-01-22陈思昂赵海瑞申屠洪钎邓羽翔

南方农机 2023年1期

陈思昂，赵海瑞，申屠洪钎，邓羽翔，杨杰，周东，高旭，袁凯，刘冰

（1.四川中烟工业有限责任公司技术中心，四川成都 610000；2.上海创和亿电子科技发展有限公司，上海 200082）

0 引言

近年来，重点卷烟品牌不断发展壮大，产销量不断增加，高规烟占比不断提高，企业对于原料的质量把控愈发严格，使得烟叶原料质量保障战略变得尤为重要，而烟叶原料质量保障离不开烟叶分选的准确性。目前，烟叶分选主要依赖于人工，但每个人的评选标准存在偏差，导致烟叶质量标准不一，且人工分选效率低下，该方式已无法满足现阶段烟叶分选标准、规范、高效的客观要求。随着深度学习卷积神经网络的飞速发展，其已广泛应用于农作物病虫害监测、农作物分类等农业生产活动上，并取得了一定成果[1]。在烟叶分级领域，传统的分级方法主要有机器学习和模糊数学，姚学练等[2]基于主成分分析、遗传算法和支持向量机提出了PCA-GA-SVM的烟叶分级方法，烟叶分级的准确率相较于单一的SVM、GASVM模型有一定提升；戴建民等[3]则基于多特征模糊识别进行了烟叶分级。在烟叶分级领域使用相对广泛的是卷积神经网络，因其具有更强的非线性能力，可以表征图像更深层次的特征。李胜[4]采用传统的图像特征提取技术获取到烟叶外观特征，再运用深度卷积神经网络对其进行分类。王士鑫等[5]结合inceptionV3卷积神经网络与极值点跳跃算法对烟叶进行分级，一定程度上解决了人工烟叶分级造成的合格率低、分级标准不一致的问题。以上研究在烟叶分级中取得了一定成效，但仍旧存在不足。因此，亟需研究一种能够提高分级准确率的烟叶自动化分级方法。

本研究采用深度学习方法，设计了一种更适合烟叶分级的细粒度卷积神经网络模型，并且采取了合适的数据增强方式和训练方式增强了网络的识别能力，再通过设计对比实验，将原始模型与改进后模型进行对比，验证了本研究提出的算法在烟叶分级任务上的优势。

1 数据与设备

1.1 数据样品

本研究采集了四川省会东县2021年的烤烟烟叶，由烟叶分级专家按照烤烟国家标准GB 2635—1992进行等级分选形成烤烟烟叶数据集，该数据集包含上部橘黄一级烟（B1F）、上部橘黄二级烟（B2F）、上部橘黄三级烟（B3F）、中部橘黄二级烟（C2F）、中部橘黄三级烟（C3F）、中部橘黄四级烟（C4F）、下部橘黄二级烟（X2F）共7个等级5 033片烟叶。每个等级的烟叶图像数量分别为724、689、846、745、634、672、723，烟叶图像分辨率为4 352×1 960。

1.2 图像采集设备

本实验使用烟叶综合测试台（厂家：上海创和亿电子科技发展有限公司；型号：GTM-600Pro）采集图像，该设备主要由一个避光箱体及位于箱体内部上方的光源和相机组成，能够提供一个稳定的拍摄环境。该综合测试台的图像采集设备信息如表1所示。

表1 图像采集设备信息表

1.3 实验环境

为保证本实验的准确性，除综合测试台外，还需提供一定标准的实验配置环境，如表2所示。

表2 实验配置环境表

2 研究方法

2.1 CA注意力机制模块

本研究采用了属于通道-空间类型的注意力机制模块CA（Coordinate Attention）[6]，包括坐标信息嵌入和坐标信息生成两个步骤，通过上述步骤给予特征图的通道和空间注意力权重，以此将网络关注点聚焦于图像的重要特征，减少冗余信息，提高网络的特征提取能力。CA模块的结构如图1所示。

图1 CA模块结构示意图

坐标信息嵌入阶段通过全局池化方法实现，分别沿水平和垂直方向进行全局池化，这种转换方式使得注意力机制模块能够捕捉到沿着不同空间方向上的长期依赖关系，并保存空间方向上的精确位置坐标，有助于网络更准确地定位感兴趣区域。给定输入大小为C×H×W的特征图xc(i,j)，在水平和垂直方向分别使用大小为（H，1）和（1，W）的池化核进行编码得到输出，编码公式分别如式（1）和式（2）所示。

通过坐标信息嵌入变换后进行坐标信息生成操作，首先将输出的两个变换结果使用concatenate操作进行级联，再进行F1变换（使用一个1×1卷积）实现对数据的降维以减少计算开销，然后对降维后的数据使用批归一化操作BN和激活函数h-swish进行非线性映射，即变换δ，生成的空间信息在水平和竖直方向的中间特征图f∈RC/r×(H+W)，此处的r是数据降维的倍率，本实验取r=32。变换公式如式（3）所示。将中间特征图f切分为两个单独的张量fh∈RC/r×H和fw∈RC/r×W，再利用两个1×1卷积Fh和Fw将张量fh和fw的通道维度变换到与输入特征图xc(i,j)相同的维度，然后将变换后的张量通过Sigmoid函数进行非线性激活得到gh和gw，变换公式如式（4）和式（5）所示。最后将gh和gw作为注意力权重与输入xc(i,j)进行Scale操作结合，即相乘，得到CA模块完整表达式如式（6）所示。

将CA模块嵌入到网络ResNext50的残差模块中，输入图像Xi分别经过残差模块和CA模块后，通过Scale操作将CA模块得到的权重作用于残差模块（Residual）的输出上，最后与残差模块的短连接（shortcut）进行相加操作，输出为Xi+1，残差结构图如图2所示。

图2 嵌入CA模块的残差结构图

2.2 空间空洞金字塔

不同等级烟叶图像之间的差异不仅由全局的颜色、形状等信息决定，还需要关注烟叶图像的纹理信息，而纹理信息在不同尺度具有不同的表现形式[7-8]。因此，需要引入空间空洞金字塔解决这一问题。空间空洞金字塔的主要组成模块为空洞卷积，其相较于正常卷积具有扩大网络感受野的作用，且多个不同扩张率的空洞卷积并联在一起可以捕获上一层特征图的多尺度信息，将其应用于模型中可以更好地将低层特征图中蕴含的多尺度信息向高层传递[9]。获取空洞卷积的感受野，首先要计算与空洞卷积等效的标准卷积的核大小，如式（7）所示，而后计算空洞卷积的感受野大小，如式（8）和式（9）所示。

式中，k为空洞卷积核大小，k'表示等效标准卷积核大小，d表示空洞率，RFi+1表示当前层的感受野，RFi表示上一层的感受野，Si表示当前层之前所有层步长的连乘。

空间空洞金字塔被称为F E M（F e a t u r e Enhancement Module）[10]，由多分支空洞卷积层和分支池化层构成，模块结构如图3所示。

图3 FEM结构示意图

多分支空洞卷积层由具有不同扩张率的空洞卷积、批归一化层和ReLU激活函数构成，在每个分支卷积层后面连接一个分支池化层，用来融合不同分支卷积层的输出。分支池化层的计算公式如式（10）所示。

式中，yp表示分支池化层的输出，B表示分支卷积层的分支数量，当前网络将其设置为3，不同层的空洞率分别设置为3、5、7。

2.3 整体网络设计

本研究基于深度学习卷积神经网络，设计了一种由ResNext50改进的用于烟叶等级判定的方法（BCFEM-CA-ResNext50），该方法的整体网络架构如图4所示。改进主要包括向传统残差模型ResNext50的基础残差块中添加CA注意力机制模块[11]，并在模型的4倍降采样处引入FEM模块以增强后续特征图的多尺度信息，最后采用双分支融合结构（BC）将高层特征图和低层特征图进行融合，来增强用于分类的特征信息。

图4 整体网络架构图

如图4所示，将烟叶图像输入网络前等比例缩放至544×240×3大小，逐级采用包含CA注意力机制的残差模块进行特征提取，即在经过Conv1和Conv2残差模块后，原图像进行了4倍降采样，此时的特征图包含大量的纹理信息，因此紧跟一个FEM模块将纹理信息进行增强便于后续的特征提取。后续的特征提取模块Conv3、Conv4、Conv5提取的特征图依次具有更高的语义信息，但是同时也会丢失原始图像中较多的细节信息，不适用于进行直接分类，所以此处将FEM模块增强后的特征图与经过Conv5后的特征图分别进行全局池化，以实现特征的降维和非线性整合，输出两个全连接层Fc1（1×1×256）和Fc2（1×1×2 048）并进行concatenate操作拼接为一个全连接层Fc3（1×1×2 304），再经过Fc4，使用softmax函数作为当前模型的分类器对Fc4（1×1×2 048）进行分类。上述不同网络层特征图大小如表3所示。

表3 不同网络层的输出特征图大小

3 实验

3.1 数据预处理

在采集图像时，由于拍摄环境的影响给图片带来了背景本身的颜色不均匀或背景中存在许多杂质等背景噪声，烟叶原图如图5（a）所示，通过图像二值化操作将其可视化，如图5（b）所示，而噪声会影响图像的细节信息，所以必须采取相应的背景处理手段来保证图像的品质。根据如式（11）所示的直方图双峰法[12]，对图像进行阈值分割，生成去背景的二值化图像，如图5（c）所示，将其作为掩膜与原图像对应位置像素值相乘达到去除原图背景的目的，如图5（d）所示，消除背景对模型分类的影响。

图5 烟叶预处理过程

式中，R为图像红色分量，B为图像蓝色分量，k为图像分割的阈值，此处设置k=0.65。

3.2 数据扩增

本实验使用的数据集图像数量较少，容易导致模型训练过程产生过拟合的现象，所以采用数据扩增的方式增加数据量。考虑到决定烟叶等级的主要因素为颜色，故作颜色空间的变换会影响模型对数据的拟合效果。因此，本实验选择作水平和垂直翻转、旋转、平移的几何变换组合，生成的图像如图6所示。

图6 数据扩增生成的图像

3.3 训练过程

本研究使用分类任务中的常用评价指标：准确率（Accuracy）、召回率（Recall）和精确率（Precision）作为烟叶分类数据集的评价指标。三个指标的数值范围是在0和1之间，数值越大，模型分类效果越好。

模型训练之前，首先将数据集按照6∶2∶2的比例划分为训练集、验证集、测试集，对训练集和验证集的图像进行数据扩增，模型主要学习训练集中数据的先验知识，配合验证集对模型性能实时监测并进行参数调优。已经训练好的模型在不做任何数据扩增的测试集上进行测试以评估模型的泛化能力。

本研究考虑到训练数据整体数量相对较少，所以直接采用迁移学习的方法加载在ImageNet分类数据集上，将预训练好的ResNext50预训练权重进行模型参数的初始化，自定义部分的网络结构采用Kaiming初始化方法。训练时采用模型微调的训练手段，设置较小的初始学习率为1e-3，优化器选择随机梯度下降算法和线性衰减策略进行梯度更新，线性衰减策略的公式如式（12）所示。L2正则化参数设置为1e-5，全连接层Fc3和Fc4使用神经元随机失活，设置随机失活率为0.5，设置批处理大小为32，迭代轮次为200个Epoch，完成训练过程。

式中，lri+1为当前轮次学习率，lri为上一轮次的学习率，t为迭代总轮次，c为当前迭代轮次。

3.4 结果与分析

对于本研究提出的几种基于网络ResNext50进行的改进方法，为验证改进的有效性，在测试集进行测试，实验结果如表4所示。

从表4中的测试结果来看，基础深度学习网络ResNext50添加注意力机制（CA）模块后，模型预测的准确率提高了2.3%，由于烟叶不同等级之间差别细微，CA模块降低了网络对冗余信息通道和图像背景的关注，让网络进一步提高了关注细节变化的能力，由此达到了模型准确率提升的效果。

烤烟烟叶的纹理特征具有多尺度的特点，而分支空洞卷积层在不进行降采样的作用下，既扩大了模型的感受野又获取了多尺度信息，同时加强了网络的表征能力。因此，在网络中进一步加入空间空洞金字塔模块，从表4中数据得知，模型预测准确率提升了2.5%，较基准模型提升了4.8%，该结果表明空间空洞金字塔模块可以提高模型对烤烟烟叶的识别能力。在网络进一步引入双分支结构后，模型的预测准确率提高了4.6%，较基准模型提升了9.4%，结果证明，将网络包含更多细节信息的低层特征图与具有高级语义信息的高层特征图同时用于分类，能进一步加强模型对图像的非线性表达能力，提升模型对数据的拟合效果。