基于果穗图像的玉米品种分类识别

2023-08-01赵威马睿王佳郭宏杰许金普

中国农业科技导报 2023年6期

赵威，马睿，王佳，郭宏杰，许金普

（青岛农业大学动漫与传媒学院，山东青岛 266109）

玉米不仅是我国重要的粮食和经济作物，还是畜牧和水产养殖的饲料来源，同时也是重要的轻工业原料之一。近年来，假冒伪劣种子在市场的流通不但给农民造成经济损失，而且给育种企业造成了不良影响。为保护玉米种质资源的知识产权、维护种子市场秩序，急需开发玉米品种快速鉴别方法[1]。传统的玉米品种检测方法主要是人工鉴定[2]、遗传学分析[3]和光谱扫描[4]，这些方法存在成本高、耗时长、专业性强等问题。玉米果穗相较于籽粒具有更为丰富的表型，且不同品种间存在不同程度的特征差异。利用机器视觉和深度学习技术对果穗进行识别，不但可以快速、有效地鉴别出假冒伪劣品种，还可以提高玉米果穗筛选的准确性，节省劳动力，因此，相关研究逐渐成为近年来的研究热点。

传统的机器学习利用已有的数据或以往的经验，需要在人工干预下才能做出决策和预测[5]；而深度学习（deep learning，DL）是通过深层卷积网络提取特征、无需通过人工设置特征提取的方法[6]，具有高效、无损、客观等优点。马睿等[7]提出了基于卷积神经网络的玉米品种识别算法，对6种玉米平均识别率达到92%以上。冯晓等[8]、刘林[9]均采用迁移学习构建玉米籽粒图像品种识别模型，使用小样本玉米籽粒数据集进行训练，均取得了较高的识别准确率。Tu等[10]使用VGG16网络进行微调后的迁移学习，对玉米籽粒图像进行识别和分类，最优准确率达99%以上。由此证明，迁移学习对小样本数据具有较高的识别准确率。胡艳侠[11]提出了采用大小、形状、颜色和纹理四大特征组合的方法检测识别玉米果穗品质。但这些传统的机器视觉技术对玉米果穗品种识别需人工提取特征。马钦等[12]基于双路卷积神经网络提供了一种玉米制种果穗筛分方法及装置，可利用训练好的双路卷积神经网络获取玉米果穗图像所对应的玉米果穗种类。上述研究证明了深度学习技术运用于玉米果穗分类识别的可行性。

目前，玉米品种分类识别主要基于玉米籽粒，而基于玉米果穗的品种分类识别研究相对较少。玉米果穗相较于玉米籽粒具有更加丰富的表型特征，因此，本文基于迁移学习技术，在NASNetmobile[13]网络模型的基础上，通过设计全新的全连接层模块构建玉米果穗品种分类识别模型，并优化模型的算法和学习率，以提高网络模型训练阶段的性能；同时利用数据增强和迁移学习技术解决样本较少所带来的问题，以期为玉米果穗的品种分类识别提供参考，同时为农业种质资源的保护和玉米产业健康发展提供保障。

1 材料与方法

1.1 数据来源

玉米果穗图像采集自山东省潍坊市密州种业有限公司的玉米留种果穗，共5个适合北方推广的玉米组合，这5个组合的果穗凭人工目测难以区分。每个组合采集果穗100个，每个果穗沿轴线旋转180°后拍照2次，共计图片1 000张。所有样本均为健康、无损的玉米果穗，能较好地体现各玉米品种的果穗特征。

数据采集装置如图1所示。在实验室自然光照下采集玉米果穗图像，以黑色绒布为背景，固定位置摆放玉米果穗，采用佳能EOS80D单反相机（1 800万像素）进行拍摄。

图1 玉米果穗图像采集装置Fig.1 Image acquisition device for corn ear

1.2 数据增强与数据集划分

通过旋转、水平平移、垂直平移、错切、放缩、水平翻转的方式对训练集进行扩增，从而避免了样本集过小带来的泛化能力差的问题，提高准确性。对扩增后的图像依据玉米品种建立5个玉米果穗图像数据集，将图像按照7∶2∶1的比例划分为训练集、验证集和测试集，具体情况详见表1。

表1 玉米果穗数据集Table 1 Corn ear dataset

1.3 迁移学习

迁移学习通常使用ImageNet图像数据集作为预训练数据集，训练好的权重和参数可直接迁移用于新的分类识别任务[14-15]。不同的网络模型具有不同的特点[16]。选取NASNet-mobile、Xception[17]、ResNet50V2[18]、MobileNetV2[19]、DenseNet121[20]、VGG16[21]共6个网络模型进行对比，其中NASNetmobile模型的基线测试准确率最高（表2），因此选取NASNet-mobile网络用于后续分析。

表2 网络模型基线测试准确率Table 2 Baseline test accuracy of network models

将模型的全连接层模块进行设计，保持卷积层不变，迁移已训练好的权重和参数，从而组合成新的网络模型，采用玉米果穗图像训练新模型，具体流程如图2所示。

图2 基于CNN和参数迁移相结合的玉米果穗图像识别流程Fig.2 Corn ear image recognition process based on CNN and parameter migration

1.4 网络结构

NASNet网络的构建是新卷积单元之间的堆叠，其中卷积单元包括普通卷积单元（normal cell）和下采样卷积单元（reduction cell）[13]。针对本文的小样本数据集，以NASNet-mobile网络模型为基础进行试验。网络结构（图3）主要包括普通卷积单元、下采样单元、全连接层模块。普通卷积单元设置为重复4次，通过对2种单元进行叠合完成网络架构。NASNet-mobile原始全连接层为特征映射的Softmax分类层，因此在迁移学习的基础上修改全连接层（图3中全连接层模块），通过全连接层层数与全连接层维度的不同组合，探讨其对模型性能的影响。

图3 改进全连接层的NASNet-mobile网络结构Fig.3 Improving NASNet-mobile network structure of full connection layer

普通卷积单元的输出特征图和输入特征图尺寸相同；下采样卷积单元的输出特征图对输入特征图进行了1次降采样，在Reduction Cell中，对使用输入特征作为输入的操作（卷积或者池化）默认步长为2。修改后的全连接层模块包括1个Flatten层和2个全连接层。其中Flatten层又称平坦层，可把多维的输入一维化；全连接层1与全连接层2均是维度为256的全连接层，每个全连接层后添加激活函数leaky_relu，该函数是在Relu激活函数的负半区间引入一个泄露（leaky）值，可使负轴的信息不会全部丢失。

1.5 试验环境及模型参数配置

采用Intel Core i7 12 700 Hz处理器，内存16 Gb，显卡为NVIDIA GeForce RTX 3080，显存8 Gb，深度学习框架为TensorFlow 2.7.1，编程语言为Python 3.7.0。试验中全连接层激活函数选择leaky_relu，失函数为categorical_crossentropy，学习率为0.000 1，迭代次数为120。选取Adagrad（Adaptive Gradient）、RMSporp（Root Mean Square prop）和Adam（Adaptive moment estimation）3种常见的算法进行优化试验。

1.6 评价指标

为综合评估模型性能，引入准确率（accuracy）、精准率（precision）、召回率（recall）、调和平均值（F1-score）等指标对不同全连接层下模型的分类性能进行量化。accuracy为所有被正确识别的样本数占总样本数的比例，它是一个常见且直观的评价指标，但在样本数量不平衡时，其值更容易偏向数量较多的样本。因此，本试验在构建数据集时，控制各数据集样本量保持一致，避免出现上述问题。precision是衡量模型正确预测能力的指标，它代表了被正确预测的样本数量占被预测成该类别总样本数量的比重。recall又被称为检出率，它表示被正确预测的样本数量占该类别总样本数的比例。F1-score是结合precision和recall的综合指标，其取值范围是0～1，1代表模型的最优输出，0代表模型的最差输出。各指标计算公式如下。

式中，TP表示实际为正且被预测为正的样本数量；FP表示实际为负但被预测为正的样本数量；FN表示实际为正但被预测为负的样本数量；TN为表示实际为负且被预测为负的样本数量。

2 结果与分析

2.1 图像预处理结果分析

图4为玉米果穗图像预处理过程。对玉米果穗原始图像（图4A）进行灰度化处理（图4B）；然后进行阈值分割、二值化（图4C）及双边滤波填充去噪、腐蚀膨胀修正边缘等处理，去除图像中的杂质；最后利用目标区域与背景的灰度差异提取目标果穗图像（图4D）。经过处理后的图像有效解决了颗粒、碎屑等噪声的干扰，使模型能够充分地提取玉米果穗图像信息，提高了有效信息的检测性，便于模型对特征的提取与学习。

图4 玉米果穗图像预处理Fig.4 Image preprocessing of corn ears

2.2 优化算法结果与分析

分析Adagrad、RMSporp和Adam优化算法对模型训练阶段的影响，结果如图5所示。与RMSprop算法相比，使用Adam和Adagard算法显著提升了模型的训练准确率，且降低损失值；与Adagrad算法相比，Adam算法在模型训练阶段准确率和损失值的收敛速度更快，且振荡幅度更小。故采用Adam算法作为玉米果穗品种分类识别研究的优化算法，优化模型的训练效果。

图5 不同优化算法下模型的训练曲线Fig.5 Training curves of models under different optimization algorithms

2.3 全连接层对模型性能的影响分析

评估不同全连接层模块下模型的性能，结果如表3所示。Bacth_size为32、全连接层层数为2层且维度为256时，准确率、精确率、召回率、调和平均值较其他参数分别提高3%～12%、2.79%～8.2%、2.9%～11.57%、3%～12%。由此表明，Bacth_size=32，全连接层层数为2层且维度为256时，得到识别玉米果穗的最优模型——NASNet-mobile-maize。

表3 不同全连接层模块下模型性能评估Table 3 Model performance evaluation under different full connection layer modules

将调整了优化算法和学习率的NASNet-mobile（NASNet-mobil-adjust）与NASNet-mobile-maize以及未调整的NASNet-mobile做对比，结果如图6所示。NASNet-mobile-maize的训练和验证准确率明显高于NASNet-mobile和NASNet-mobil-adjust，且训练与验证曲线更为平滑，振荡幅度更小，表明其训练效果更好；且NASNet-mobile-maize损失值的下降速度更快、更平滑，最终损失值也最低，说明其性能更强。

图6 NASNet-mobile-maize训练与验证结果Fig.6 Results of NASNet-mobile-maize training and validation

2.4 玉米品种分类识别结果分析

NASNet-mobile-maize在不同品种玉米果穗识别任务中测试结果的评价指标如表4所示。‘锦玉118’在测试时的精确率较低，说明容易与其他样本混淆。‘荟玉18’在测试时的召回率较低，说明其样本自身的特征不够明显；‘铁研630’的所有指标均为1.000 0，证明其具有明显的品种特征，更易识别。

表4 NASNet-mobile-maize模型下不同品种玉米果穗测试结果的评价指标Table 4 Evaluation indexes of ear test results of different varieties of maize under NASNet-mobile-maize model

图7为NASNet-mobile-maize模型测试结果的混淆矩阵。该矩阵的每一行之和代表了该类样本参与了模型测试的真实数量；每一列之和代表了被预测为该类样本的样本数量。其中，将某一类样本预测为另一类别则被认为是错误识别；预测的样本数量小于真实数量则被认为产生了漏识别[22]。由图7可知，‘锦玉118’产生了较多的错误识别，其中‘荟玉18’和‘科诺58’各有2个样本被识别为‘锦玉118’，说明这2个品种易与‘锦玉118’混淆。‘科诺58’有2个样本漏识别，‘荟玉18’有1个样本漏识别。5个品种的具体特征如图8所示，其中黄色区域为模型关注的重点区域，第1层卷积主要关注了果穗的轮廓特征，但效果并不明显，而最后1层卷积则精准关注了果穗两端的特征。

图7 NASNet-mobile-maize测试结果的混淆矩阵Fig.7 Confusion matrix of NASNet-mobile-maize test results

图8 5个玉米品种的特征Fig.8 Characteristics of 5 corn varieties

ROC（receiver operating characteristic curve）曲线又称感受性曲线，最靠近曲线图左上方的点为敏感性和特异性的临界点，曲线越接近左上角，该类数据的测试结果越好。分析NASNet-mobilemaize测试结果的ROC曲线，结果（图9）表明，大部分类别的ROC曲线整体与临界点接近，只有少部分样本（如‘荟玉18’和‘科诺58’）假阳性率较高，分类效果稍差，‘铁研630’的ROC曲线与临界点重合，分类效果最佳。

图9 NASNet-mobile-maize测试结果的ROC曲线Fig.9 ROC curve of NASNet-mobile-maize test result

3 讨论

传统的玉米品种分类识别技术存在高时耗、高成本、专业性强、损伤率高等问题。为解决上述问题，本研究提出了一种基于NASNet-mobile网络的玉米品种分类识别模型，与徐岩等[23]采用玉米籽粒进行识别不同，本研究聚焦于表型特征更为丰富的玉米果穗，在此基础上采用迁移学习有效解决了数据量小的问题，既节省了模型的训练时间，又增强了模型的泛化能力与鲁棒性。

AdaGrad能够对每个不同的参数调整不同的学习率，但随时间的增加，最终导致学习率收缩到太小无法进行有效更新；RMSProp能够克服AdaGrad梯度急剧减小的问题，但容易导致训练初期产生大幅度振荡；Adam算法同时获得了AdaGrad和RMSProp算法的优点。本研究对不同的优化算法经过试验分析，表明Adam在玉米果穗识别任务中不仅提升了训练的速度，而且有效解决了训练振荡幅度大的问题。

全连接层模型可以整合特征以及用于之后的分类，随着全连接层层数或维度的增加，模型的非线性表达能力会得到一定提升[24]。本研究对全连接层进行了全新设计，实现了95%的测试准确率，由此证明，增加一定数量的全连接层层数及其维度，可提升在玉米果穗识别分类中NASNetmobile模型的性能，最终建立基于玉米果穗图像的品种分类识别模型——NASNet-mobile-maize。

本研究采用NASNet-mobile网络进行基于玉米果穗图像的品种分类识别，具有高度可行性，为实现智慧育种和种质资源保护研究提供了模型和算法参考。但文中对模型参数与全连接层调整仍存在一定局限性，因此，可进一步采集不同种植区域及不同栽培条件下的样本集种类和数量，深入研究该模型在智能手机端的应用。