APP下载

基于深度残差网络的玉米病害识别

2021-03-25刘翱宇吴云志朱小宁范国华乐毅张友华

江苏农业学报 2021年1期
关键词:迁移学习

刘翱宇 吴云志 朱小宁 范国华 乐毅 张友华

摘要: 针对人工诊断玉米病害成本高、效率低、时延长等问题,提出一种基于深度残差网络的玉米病害识别网络TFL-ResNet。TFL-ResNet网络基于ResNet50网络,首先引入Focal Loss损失函数使模型专注于难分类的病害样本,其次将ResNet50网络在PlantVillage数据集训练好的参数迁移到改进网络上以完成构建。采用的玉米病害数据集涉及健康植株、大斑病、灰斑病、锈病4种标签,并使用旋转、翻转、平移等操作对数据集进行数据增强与扩充。对数据集进行训练和测试,与VGG16等对照模型相比,TFL-ResNet网络收敛速度更快、分类效果更好,平均识别准确率高达98.96%。通过观察精准率、召回率、混淆矩阵等评价指标得出TFL-ResNet网络具有较好的鲁棒性和泛化能力,可用于玉米病害智能诊断。

关键词: 病害图像识别;深度残差网络;迁移学习

中图分类号: TP391 文献标识码: A 文章编号: 1000-4440(2021)01-0067-08

Corn disease recognition based on deep residual network

LIU Ao-yu1, WU Yun-zhi1,2, ZHU Xiao-ning3, FAN Guo-hua1,2,YUE Yi1,2, ZHANG You-hua1,2

(1.School of Information and Computer Science, Anhui Agricultural University, Hefei 230036, China;2.Anhui Provincial Engineering Laboratory for Beidou Precision Agriculture Information, Hefei 230036, China;3.School of Tea and Food Technology, Anhui Agricultural University, Hefei 230036, China)

Abstract:Aiming at the problems of high cost, low efficiency, time extension and so on for manual diagnosis of corn diseases, a corn disease identification network TFL-ResNet based on deep residual network was proposed. The TFL-ResNet was based on the ResNet50. Firstly, the focal loss function was introduced to make the model focus on disease samples which were difficult to classify. Secondly, the parameters of ResNet50 trained in PlantVillage data set were migrated to the improved network to complete the construction. The corn disease data set used in this study involved four labels: healthy plants, leaf blight, gray leaf spot and rust. Rotation, flip, translation and other operations were used to enhance and expand the data set. Compared with VGG16 and other control models, TFL-ResNet had faster convergence speed and better classification effect. The average recognition accuracy of TFL-ResNet was 98.96%. By observing the model evaluation indicators such as precision rate, recall rate, confusion matrix, TFL-ResNet has good robustness and generalization ability, which can be used for intelligent diagnosis of corn diseases.

Key words: disease image recognition;deep residual network;transfer learning

玉米是中国乃至世界的主要粮食作物,中国玉米种植面积仅次于水稻,玉米被广泛应用在食用、畜牧业饲料、轻工、医药工业等重要领域[1]。玉米病害是玉米减产的主要原因之一,常见的玉米病害有大斑病、锈病、灰斑病等,精准快速地识别玉米病害可以有效减少因玉米病害带来的减产。传统人工识别玉米病害,不仅费時费力而且时效性低,快速、精准地识别玉米病害具有重大意义。

随着深度学习与计算机硬件的不断发展,越来越多的学者将图像识别技术应用于农业病害识别,并取得显著的效果。许景辉等提出基于迁移学习的VGG16网络用于小数据样本的玉米病害识别[2]。龙满生等将AlexNet网络运用于油茶病害识别[3]。周云成等提出基于卷积神经网络(Convolutional neural networks,CNN)与自监督学习方法用于番茄植株图像深度估计[4]。孙俊等利用空洞卷积结合全局池化的卷积神经网络识别作物幼苗与杂草[5]。在玉米病害图像识别领域,已有的研究有VGG16网络、Triplet-loss双卷积神经网络结构[6]、Grabcut算法[7]、局部判别映射算法[8]等。上述模型都存在随着层数的增加网络的收敛速度减慢、图像分类准确率下降的问题。

残差网络(Residual network,ResNet)[9]可以有效改善随着卷积层数的增加训练效果降低的问题,并使收敛速度加快、分类准确率提高。目前ResNet网络已经可以代替VGG网络成为一般计算机视觉领域问题中的基础特征提取网络[10]。迁移学习可以将已经训练好的网络应用于类似领域,从而获得更好的特征提取能力,提高模型的性能。本研究采用改进的残差网络对玉米的健康植株以及灰斑病、大斑病、锈病病害图像进行识别,通过引入Focal Loss损失函数[11]作为评估函数对ResNet网络进行改进,最后将PlantVillage数据集[12]参数迁移至改进的模型上完成玉米病害图像识别模型的构建。

1 试验数据

1.1 玉米病害数据集

选取的数据集来自2018 AI Challenger农作物病害检测比赛[13]中的玉米病害部分。玉米病害图像数据集包含健康玉米、玉米普通锈病、玉米大斑病、玉米灰斑病病害样本标签,经数据增强并扩充后共计9 145张RGB病害图像样本。其中健康玉米图像2 324张,玉米普通锈病图像2 384张,玉米大斑病图像2 385张,玉米灰斑病图像2 052张。图像的样例如图1所示。

1.2 数据预处理与增强

首先对玉米病害图像去噪,将重复、无用数据剔除。去噪后的玉米病害图像根据样本标签分别按照6∶2∶2的比例划分训练集、验证集、测试集。对玉米病害图像样本进行标签标记,标签数组采用2D的one-hot编码标签。其次进行病害图像数据增强与扩充,将病害图像进行随机旋转变换或者反转变换(随机旋转30°,水平方向和垂直方向随机平移20%),随机错切变换强度为0.2,图像随机缩放的幅度设置为0.2,对图像进行随机水平翻转。最后将所有病害图像调整为224×224像素,然后对作为输入层的图像进行批量归一化(Batch normalization,BN)处理。批量归一化处理不仅可以增加网络的收敛速度、泛化能力,还可以有效缓解梯度消失问题[14]。

2 玉米病害图像识别模型

2.1 深度残差网络

深度残差网络(Deep residual network)是由何凯明团队提出的一种深度卷积神经网络模型[9]。深度残差网络的提出是为了解决随着卷积层数的加深而训练准确率降低的问题,这个问题称为退化。深度残差网络引入深度残差学习框架来解决退化问题,对于深层次的模型,通过恒等映射(Identity mapping)来构建增加的层,并不是每个堆叠的层直接拟合所需的底层映射(Desired underlying mapping),而是让这些层拟合一个残差映射(Residual mapping)。

假设所需的底层映射为H(x),在此让堆叠的非线性层来拟合另一个残差映射F(x)=H(x)-x,原来的映射就可以表示为F(x)-x。F(x)-x可以通过添加快捷连接(Shortcut connections)实现,快捷连接可以执行恒等映射,并将其输出添加到堆叠层的输出,残差学习示意图如图2所示。

试验证明引入的快捷连接并没有增加额外的参数,也不会影响原始网络的复杂度。深度残差学习可以加快网络的收敛,相对于VGG16网络还可以显著增加深度来提高训练准确率。总的来说,残差学习是在传统的线性卷积网络结构基础上增加了一条快捷连接,从而增强了特征传递。在训练过程中,底层的误差可以通过快捷连接向下一层传递,网络的收敛速度将加快,以进行深层训练达到高分类准确率。

2.2 迁移学习

迁移学习(Transfer learning)[15]是一种机器学习方法,是指将一个训练好的模型运用在一个新的任务中。由于大部分深度学习任务具有相关性,使用相似任务训练好的网络参数(即参数迁移)可以缩短训练时间,加快收敛速度,可以有效降低过拟合问题。只需将预训练的网络参数迁移到当前训练网络上,新的训练网络对当前任务数据集进行特征提取,最后将提取的特征通过全连接层进行处理预测就可以完成模型训练[16]。

2.3 Focal loss损失函数

Focal loss(焦点损失)损失函数是为了解决分类问题中类别不平衡、分类难度有差异的损失函数。本研究的对象是玉米病害图像,训练的模型也需要有辨别玉米是否健康的能力。因此训练的数据集也含有健康的玉米图像样本,而健康的样本相对于病害样本更容易分类。引入Focal loss损失函数后网络在训练时可以减少易分样本的权重,从而使模型在训练过程中更专注难分类的样本[17]。

Focal loss损失函数是在交叉熵损失函数[18]的基础上进行修改得到的,在深度残差网络中经过softmax函数回归后交叉熵损失函数的表达式如下:

其中i与j表示类别号,x是特征值。修改得到Focal loss损失函数表达式如下:

其中pt为样本属于某个类别的概率,γ为聚焦参数,γ≥0。(1-pt)γ为调制系数,用来减少易分类样本的权重,使玉米病害图像识别模型在训练中可以关注难分类的病害样本。

2.4病害圖像识别模型构建

基于迁移学习和Focal loss损失函数对ResNet50网络结构进行改进后,得到玉米病害图像识别模型TFL-ResNet。首先使用ResNet50网络对PlantVillage数据集进行预训练,保存好预训练的参数,并将参数迁移到TFL-ResNet网络上。PlantVillage数据集由54 303个健康和不健康的叶片图像组成,按种类和病害分为38类。PlantVillage数据集包含的植物种类有苹果、蓝莓、樱桃、玉米、葡萄、柑橘、桃、辣椒、马铃薯、大豆、树莓、 南瓜、草莓、番茄。PlantVillage数据集样例图像如图3所示。引入Focal loss损失函数对TFL-ResNet网络进行损失评估,最终实现的网络结构如图3所示。

如图3所示,输入到TFL-ResNet网络的玉米病害图像首先经过一个7×7的卷积层,然后进行批量归一化、激活,其次经过3×3最大池化层、4个残差学习块、一个平均池化层,然后经Flatten层将多维输出一维化,一维化输出的非线性组合特征经全连接层进行学习,最终经Softmax分类器进行分类并输出预测结果。

TFL-ResNet网络的核心是基于ResNet50网络的残差学习块,这些残差块可以定义为:

其中x和y为当前层的输入和输出向量,函数F(x,Wi)为要学习的残差映射。当x和F的维度不相等时,残差块又可以定义为:

Ws为快捷连接执行的线性投影,Ws仅在匹配维度时使用。TFL-ResNet网络中Conv2层含有3个残差块,Conv3层含有4个残差块,Conv4层含有6个残差块, Conv5层含有4个残差块。TFL-ResNet网络中残差块结构如图4所示(图4中残差块为首次进行张量维度转换的残差块,所以每条快捷连接上都存在维度转换的卷积层)。

3 模型训练与结果分析

3.1 试验环境

试验硬件环境:CPU为Intel(R) Core(TM)i7-8700 CPU @3.20GHz; GPU为NVIDIA GeForce GTX 1080Ti; 操作系统为Windows 10 64bit。软件环境:Python 3.6.2;深度学习框架为Tensorflow 2.0、Keras 2.3.1。

3.2 模型训练

采用TFL-ResNet网络对9 145张RGB图像样本进行试验,用ResNet50网络、VGG16网络、MobileNetV2网络[19]、InceptionV3网络[20]、Xception网络[21]作为对照。采用随机梯度下降(Stochastic gradient descent, SGD)对梯度进行更新,SGD优化器初始学习率设为0.001。由于随机梯度下降方法的每次迭代会出现相对较大的噪音,容易陷入局部最优解,所以引用动量概念(Momentum)对SGD优化器进行优化。Momentum在更新方向的同时会保留之前的方向,可以增加模型的稳定性,具有摆脱局部最优的能力,将Momentum的参数设置为0.9。使用 Nesterov 动量,参数更新后学习率衰减值(Decay)设为0.001。每次处理的批量大小(Batch size)设为64。使用ModelCheckpoint方法,在训练过程中保存性能最好的模型。对照试验训练网络采用交叉熵损失函数(Cross entropy error function)作为损失函数。最后将Epoch设为20开始训练。

随机选取玉米病害图像,观察TFL-ResNet网络Conv1层特征提取过程,卷积核可视化如图5所示。

根据样本标签分别选取图像,经TFL-ResNet网络分类预测后,输出每个残差学习块的注意力热力图(图6)。由图6可观察到TFL-ResNet网络提取每类样本病害的关键特征,热度图颜色越深(即越接近红色),表示该部位对最终分类决策的影响越大,可以看出,每经过一个残差学习块,网络的注意力都會更加专注于病害特征。

3.3 结果分析

参数设置完毕后,分别使用TFL-ResNet、ResNet50、VGG16、InceptionV3、MobileNetV2、Xception网络对玉米病害图像数据集训练20个轮次,得到如图7所示的结果。根据训练集、验证集的准确率曲线,可以看出玉米病害图像识别效果从高到低顺序为:TFL-ResNet、ResNet50、InceptionV3、VGG16、Xception、MobileNetV2,各个模型在第10个轮次时已经接近完全收敛。从图7中也可以看出,训练集损失最稳定的模型是TFL-ResNet网络,最不稳定的模型是Xception网络;验证集损失各个模型都有波动,经过20个轮次的训练后都已达到很低的数值,但是可以看到MobileNetV2网络验证集损失变化最不稳定、抖动最大。最后将训练好的模型经测试集测试,得出每个模型的平均识别率,其中TFL-ResNet网络为98.96%,ResNet50网络为98.41%,InceptionV3 网络为98.14%,Xception 网络为97.70%, VGG16网络为97.04%,MobileNetV2网络为96.99%。本研究提出的TFL-ResNet网络相对于参照模型,平均识别率更高,模型收敛更快,具有更好的鲁棒性和泛化能力。

使用精准率(Precision)、召回率(Recall)、精确率与召回率的调和均值(F1-分值)作为模型的评价指标分别对试验网络性能进行评价。首先设正样本被正确识别为正样本的数量为TP,负样本被正确识别为负样本的数量为TN,负样本被错误识别为正样本的数量为FP,正样本被错误识别为负样本的数量为FN,则精准率、召回率、调和均值分别表示为:TPTP+FP、TPTP+FN、2TP2TP+FP+FN。对玉米病害图像测试集进行预测后,各个模型对4种样本标签(玉米灰斑病、玉米普通锈病、玉米大斑病、健康玉米植株)的精准率、召回率、精确率与召回率的调和均值评价指标如表1所示。精准率表示模型对样本标签识别的准确率,TFL-ResNet网络对4种样本标签的识别准确率分别为97%、100%、98%、100%,是所有模型中效果最显著的。精准率、召回率、精确率与召回率的调和均值越高表示该模型的效果越好,TFL-ResNet网络相对于其他模型有更好的识别效果、泛化能力。

混淆矩阵(Confusion matrix)也是分类模型评判指标之一[22]。可视化测试集在各个模型上的混淆矩阵如图8所示。混淆矩阵的列标签表示预测的类别,其对应的行数值总和为该类别的样本总数。混淆矩阵的行标签表示预测图像的真实类别。行列交叉处的数值表示该类别被预测为对应列标签的数量,对角线处的数值表示正确预测的标签数量,对角线的颜色越深表示模型的效果越好。从图8中各模型的混淆矩阵可以看出各模型对于某种玉米标签的识别能力。这些模型对于玉米大斑病、玉米灰斑病的误识率较高,其中VGG16网络对灰斑病的误识率最高,Xception网络对于大斑病的误识率最低。相对于其他模型,TFL-ResNet网络混淆矩阵表现出的性能最好,且平均识别率最高,可以为玉米病害图像识别提供参考。

4 结语

相对于人工诊断玉米病害,计算机视觉方法识别玉米病害具有成本低、准确率高、时延短的优点。本研究通过引入迁移学习、Focal loss损失函数,提出一种基于深度残差网络的优化网络——TFL-ResNet网络。利用TFL-ResNet网络对玉米病害数据集进行训练,并与ResNet50、VGG16、InceptionV3、MobileNetV2、Xception网络进行对比,得出如下结论:相对于对照网络,TFL-ResNet网络收敛速度更快、泛化能力更高;TFL-ResNet网络可以进行深层训练,可以减缓随着层数的加深而性能降低的退化问题;TFL-ResNet网络的平均识别准确率高达98.96%,误识率低于对照网络。根据模型的评价指标可以看出,TFL-ResNet网络具有更好的鲁棒性,可以用作玉米病害图像识别。

参考文献:

[1] 孟 颖,陈桂芬,卢 建,等. Simulink平台在玉米病害视频图像中的实时诊断[J]. 吉林农业大学学报, 2017, 39(4): 483-487.

[2] 许景辉,邵明烨,王一琛,等. 基于迁移学习的卷积神经网络玉米病害图像识别[J]. 农业机械学报, 2020, 51(2): 230-236,253.

[3] 龙满生,欧阳春娟,刘 欢,等. 基于卷积神经网络与迁移学习的油茶病害图像识别[J]. 农业工程学报, 2018, 34(18): 194-201.

[4] 周云成,许童羽,邓寒冰,等. 基于自监督学习的番茄植株图像深度估计方法[J]. 农业工程学报, 2019, 35(24): 173-182.

[5] 孙 俊,何小飞,谭文军,等. 空洞卷积结合全局池化的卷积神经网络识别作物幼苗与杂草[J]. 农业工程学报, 2018, 34(11): 159-165.

[6] 刘永波,雷 波,曹 艳,等. 基于深度卷积神经网络的玉米病害识别[J]. 中国农学通报, 2018, 34(36): 159-164.

[7] 顾 博,邓蕾蕾,李 巍,等. 基于GrabCut算法的玉米病害图像识别方法研究[J]. 中国农机化学报, 2019, 40(11): 143-149.

[8] 张善文,张传雷. 基于局部判别映射算法的玉米病害识别方法[J]. 农业工程学报, 2014, 30(11): 167-172.

[9] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE. 2016 IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 770-778.

[10]JUNG H, CHOI M K, JUNG J, et al. ResNetbas-ed vehicle classification and localization in traffic surveillance systems[C]//IEEE. 2017 IEEE conference on computer vision and pattern recognition. Honolulu: IEEE, 2017: 61-67.

[11]LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//IEEE. 2017 IEEE conference on computer vision and pattern recognition. Honolulu: IEEE, 2017: 2980-2988.

[12]MOHANTY S P, HUGHES D P, SALATHE M. Using deep learning for image-based plant disease detection[J]. Frontiers in Plant Science, 2016, 7: 1419.

[13]SINGKEK SCI-TECH. Agricultural Disease. 2018 AI Challenger [DB/OL]. (2018-12-19) [2020-3-20]. https://challenger.ai/competition/pdr2018.

[14]朱 威,屈景怡,吳仁彪. 结合批归一化的直通卷积神经网络图像分类算法[J]. 计算机辅助设计与图形学学报, 2017, 29(9): 1650-1657.

[15]PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.

[16]石祥滨,房雪键,张德园,等. 基于深度学习混合模型迁移学习的图像分类[J]. 系统仿真学报, 2016, 28(1): 167-173,182.

[17]任胜男,孙 钰,张海燕,等. 基于one-shot学习的小样本植物病害识别[J]. 江苏农业学报, 2019, 35(5): 1061-1067.

[18]HU K, ZHANG Z, NIU X, et al. Retinal vessel segmentation of color fundus images using multiscale convolutional neural network with an improved cross-entropy loss function[J]. Neurocomputing, 2018, 309: 179-191.

[19]SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//IEEE. 2018 IEEE conference on computer vision and pattern recognition. Salt Lake City: IEEE, 2018: 4510-4520.

[20]SZEGEDY C, VANHOUCKE V, IOFFE S, et al.Rethinking the inception architecture for computervision[C]//IEEE. 2016 IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 2818-2826.

[21]CHOLLET F. Xception: Deep learning with dept-hwise separable convolutions[C]//IEEE. 2017 IEEE Conference on computer vision and pattern recognition. Honolulu: IEEE, 2017: 1251-1258.

[22]刘小峰,舒仁杰,柏 林,等. 一种新的稀疏分类融合方法及其在机车轴承故障诊断中的应用[J]. 中國电机工程学报, 2020, 40(17): 5675-5682.

(责任编辑:张震林)

收稿日期:2020-04-15

基金项目:国家重点研发计划项目(2017YFD0301303);安徽省科技重大专项(18030901029);安徽省高校自然科学研究项目(KJ2019A0211);安徽省大学生创新创业训练计划项目(S202010364210)

作者简介:刘翱宇(1999-),男,安徽亳州人,本科,研究方向为计算机视觉、图像识别。(E-mail)liuaoyu@ahau.edu.cn。吴云志为共同第一作者。

通讯作者:张友华,(E-mail)zhangyh@ahau.edu.cn

猜你喜欢

迁移学习
《宋史·曾公亮传》传主形象论析
基于深度神经网络的人体动作识别研究
威斯顿相互作用法在社会保险学课程教学中的实践
基于卷积神经网络的图像分类技术
迁移学习在专业课程教学中的实践研究
迁移学习研究综述
从认知角度探讨大学英语网络教学模式
奇异值分解与移移学习在电机故障诊断中的应用
一种基于迁移极速学习机的人体行为识别模型
大数据环境下基于迁移学习的人体检测性能提升方法