基于卷积神经网络的水稻氮素营养诊断
2023-10-15钱政杨孙哲张国卿郭紫微张林朋万家兴杨红云
钱政, 杨孙哲, 张国卿, 郭紫微, 张林朋, 万家兴, 杨红云*
(1.江西农业大学软件学院,南昌 330045; 2.江西师范大学计算机信息工程学院,南昌 330022; 3.北京粉笔天下教育科技有限公司石家庄分公司,石家庄 050051; 4.江西农业大学计算机与信息工程学院,南昌 330045)
氮是水稻生命活动所必需的营养元素,水稻缺氮会导致植株叶片面积减小,植物光合作用和产量降低[1-2],而施用过量的氮会在土壤中残留从而造成浪费以及破坏环境[3]。在水稻的种植过程中,错误地施用氮肥或是经验不足,均会使水稻缺乏所需的氮元素,从而导致水稻产量和质量的降低[4]。传统的水稻氮素营养诊断方法,主要以田间采集植株样品、试验室化学分析为主。孙棋[5]通过对旋翼无人机获取的水稻图像进行色彩分析,表明无人机拍摄冠层图像的颜色特征参量G值与水稻叶片的SPAD、叶绿素和氮含量均有很好的相关关系;张国圣等[6]利用无人飞行平台搭载高光谱成像系统获取水稻冠层高光谱数据,分析了试验点水稻分蘖期叶片氮素与冠层高光谱信息之间的关系;Huang 等[7]利用卫星遥感估计从不同的农田收集地面真实数据,研究中国东北地区水稻关键生长阶段氮状况;郭建华等[8]以手持式主动遥感光谱仪Greenseeker 和叶绿素仪SPAD 对玉米不同氮素水平下各个生育期的NDVI(normalized difference vegetable index)值及叶片SPAD 值进行测试,研究了不同氮素下玉米群体和个体营养状况的变化。这些方法在样品的采集、测试及数据处理等方面需要耗费大量的人力、物力和财力,且试验周期较长、操作不便捷、效率低下[9-10],不利于推广应用。因此,需要探索高效且低成本的便捷方法进行水稻氮素营养诊断。计算机视觉技术弥补了以上缺点,能够快速而准确地对水稻营养状况进行有效观测,并及时提出建议。
在水稻营养诊断的计算机视觉方法研究中,周琼等[11]基于BP 神经网络和概率神经网络进行水稻氮素营养诊断,在幼穗分化期的水稻叶片中识别准确率达90%;Xu 等[12]采用深度卷积网络方法,对水稻10 种营养进行识别,测试准确率达97.44%±0.57%;Yuan 等[13]基于可见光图像处理的水稻氮素营养诊断,研究了数码相机拍摄的水稻氮素状态与水稻叶片绿度的关系,结果表明水稻叶片中部比叶尖和叶基更适合水稻氮素营养诊断;Sathyavani 等[14]设计了基于图像采集的分类模型,该模型使用物联网(internet of things, IoT)进行数据采集,并使用卷积神经网络的变体,即DenseNet-BC 进行分类任务,与其他深度学习模型相比,该方法在准确性和F-measure方面均获得了改善;Wang 等[15]基于卷积神经网络并结合强化学习,使用1 500张包含缺氮、缺磷、缺钾的水稻叶片数据集,通过调整模型架构,结果表明DenseNet121的测试准确率达到97%,适用于诊断农作物营养缺乏情况。
SE block 通过训练网络中产生的损失函数来学习特征权重[16],增加了有效特征图的权重,同时减少了无效或效果较小特征图的权重,从而改善模型的性能,但是,SE block 嵌入会导致额外的参数和计算量的增加,这可能增加模型的复杂性和计算成本。而全局平均池化可以降低特征图的空间分辨率,减少模型的参数数量和计算量,提高模型的计算效率。此外,它还可以增加模型的鲁棒性,减少过拟合的风险,并且可以作为一种简单的正则化方法,提高模型的泛化能力;迁移学习是将已学习知识应用于新任务的方法,可以利用已有数据和知识,提高模型的泛化能力,避免从零开始训练新模型所需的大量数据和计算资源[17-18]。
本研究扫描水稻图像,再进行图像处理,将卷积神经网络与SE block 模块相结合,通过在ResNet34 残差块中加入SE block 模块并基于迁移学习方法,研究了水稻幼穗分化期和齐穗期以及水稻不同施氮水平与模型识别效果的关系,建立水稻氮素营养诊断模型,并在试验过程中通过微调学习率等参数,训练网络得到最佳识别效果模型,实现水稻氮素营养诊断的精确识别,为水稻氮素营养诊断识别研究提供了新的思路与方法。
1 材料与方法
1.1 数据采集
水稻试验于2017年在江西省南昌市成新农场进行,土壤基本理化性质为:全氮1.40 g·kg-1、有机质24.4 g·kg-1、有效磷12.70 mg·kg-1、速效钾(P2O5)123.0 mg·kg-1、pH 5.30。以超级杂交稻‘两优培九(Liangyoupei 9, LYP 9)’为试验材料,最佳施氮量为纯氮210~300 kg·hm-2[19]。本试验以高氮,即氮为270 kg·hm-2以上进行栽培管理,并设置0(N1)、210(N2)、300(N3)和390 kg·hm-2(N4)4个施氮水平进行施肥。本试验采用一般区域试验设计,设置多个小区进行随机排列[20],每个小区面积30 m2,小区间用土隔开且用塑料薄膜覆盖住,单灌单排,重复3次。氮肥按基肥∶分蘖期∶穗肥为4∶2∶4 施用;钾肥按分蘖期∶穗肥为7∶3 施用;磷肥一次性做基肥施用。各区间磷、钾肥施用量相等,分别为P2O5225 kg·hm-2、K2O 300 kg·hm-2,移栽前1 d施用基肥,移栽7 d后施用分蘖肥,在叶龄余数1.5 左右时施用穗肥[21]。5 月25 日播种,6 月14 日移栽。人工移栽,栽插规格为13.3 cm×26.6 cm,其他按照常规的高产栽培要求进行。
本研究中所用水稻图像通过MICROTEK 扫描仪(MRS-9600TFU2L,分辨率600 ppi,上海中晶科技有限公司生产)于水稻幼穗分化期(2017 年7 月24 日)、齐穗期(2017 年8 月23 日)分2 次扫描获取,每次扫描获取960 张,共计1 920 张2 515×3 997像素水稻图像,其中每个时期的不同施氮水平分别有240张。
1.2 试验环境及参数设置
水稻营养诊断模型的训练与测试均在Linux Ubuntu 操作系统下完成。试验使用的电脑硬件配置为:CPU 采用Intel(R) Xeon(R) Gold 6330 CPU@2.00GHz,内存为6×8 GB,GPU 采用NVIDIA GeForce RTX 3090,显存为24 GB。软件环境:Cuda 11.3,PyTorch 1.11.0,Python 3.8。
考虑到使试验所用的GPU 显存利用率最大化,将Batch_Size 设置为64,迭代次数均设置为150 轮,采用Adam(adaptive moment estimate)优化算法,损失函数选择交叉熵损失函数,将初始学习率设置为1e-4。
1.3 图像预处理
水稻图像数据经过后期扫描得到,由于部分图像在扫描过程中出现了叶片对折、卷曲的情况,使得扫描效果不佳且图像信息有缺失,考虑模型训练的准确率,将这些数据舍弃,最终试验数据集中幼穗分化期的有921张,齐穗期的有925张,每个类别的数据量如表1所示。由表1可知,原始图像数量较少,这会使模型难以了解真实的数据分布,容易出现过拟合现象[22]。所以本研究采用平移、翻转、旋转、图像模糊、增加噪声以及亮度调亮和调暗6 种增强方式对原始数据集进行扩充[23],把每种图像数量扩充为原来的9 倍,样本图像中幼穗分化期水稻数据由原来的921 张增加到8 289张,齐穗期水稻数据由原来的925 张增加到8 325张。由于水稻图像分辨率不一致,为了方便训练,将水稻图像的分辨率统一调整为512×512,并将80%图像作为训练数据集,余下的20%作为测试数据集。
表1 原始数据集数量Table 1 Original rice data number
之后对图像进行标准化归一化处理,如果图像的特征值较大,梯度也会较大,因此为了加速模型训练的收敛,需要将图像特征值大小调整到相近的范围。在对数据集进行标准化归一化时,遍历了每张图片的红绿蓝(RGB)颜色通道,计算出每个通道的均值和方差,采用PyTorch 中torchvision.transforms.Normalize方法,最终将所有数据转换到标准正态分布的数据集中,其计算公式如下。
式中,output[channel]表示输出图像的某个通道;input[channel]表示输入图像的某个通道;mean[channel]和std[channel]分别表示该通道的均值和标准差。
1.4 模型构建
卷积神经网络是一种人工神经网络,也是首个真正被成功训练的深层神经网络[24],在现实生活中应用十分广泛。由于ResNet34本身具有网络较深、更容易训练、计算复杂度低、易于迁移等特点[25],本试验选用其作为主干网络模型,再对其进行迁移学习,实现水稻氮素营养状况的分类任务。
本试验保留了ResNet34 的主干网络,在每个残差块分支最后引入SE block,其结构如图1 所示。其中,将平均池化层替换为全局平均池化层,然后通过全局平均池化层和全连接层得到水稻氮素的预测类别,改进后的模型标记为ResNet34_SEt。本试验采用了自适应梯度优化算法和交叉熵损失函数,在ResNet34_SEt 模型中,首先应用了1 个核大小为7×7、步长为2 的卷积层,用于降低输入图像的分辨率。之后经过一系列的卷积层、池化层和残差块对输入进行处理,在这个过程中,图像的尺寸逐渐缩小,通道数逐渐增加。最后,通过全局平均池化层将图像特征压缩成1 个向量,然后将全连接层输出值设置为4。
图1 改进的模型网络构架Fig. 1 Improved model network architecture
试验主要流程如下。
①构建水稻营养诊断模型。基于ResNet34模型,将模型的平均池化层替换为全局平均池化层,并将此方案记为方案1。
②基于步骤①,在模型每个残差块后引入SE block,并将全连接层的分类数替换为自身的分类任务数,再进行训练及模型微调,训练出适合水稻营养的模型,记为ResNet34_SE,并将此方案记为方案2。
③基于步骤①,在模型每个残差块后引入SE block,进行迁移学习,并将全连接层的分类数替换为自身的分类任务数,再进行训练及模型微调,训练出适合水稻营养的模型,训练得到模型记为ResNet34_SEt,并将此方案记为方案3。
④模型测试。对水稻数据集中20%的测试集数据进行测试,并将ResNet34、ResNet34_SE、ResNet34_SEt的测试结果进行对比。
1.5 模型评价
准确率(Accuracy)表示正确识别的总数占预测总数的比例,召回率(Recall)表示正确预测该类别的数量占所有真实该类别的数量的比例,二者评价指标的计算公式如下。
式中,TP 为真正例,表示样本实际为正样本,检测为正样本的个数;TN 为正负例,表示样本实际为正样本,检测为负样本的个数;FP 为假正例,表示样本实际为负样本,但检测为正样本的个数;FN 为假负例,表示样本实际为负样本,检测为负样本的个数。
2 结果与分析
2.1 不同改进方案识别指标对比分析
将方案1、方案2、方案3 进行对比,验证了改进的残差块和迁移学习结合的有效性,模型识别准确率提升幅度均在7%以上。所得数据如表2 所示,在模型的最后一层添加全局平均池化层后,模型参与训练的参数量减少了,模型体积因此也有所减小,由于SE block 内包含2 个卷积层,使得参与训练的参数有所增多,最终模型总参数量依然小于原始模型总参数量,减少了约1.6%。
表2 不同方案的试验数据Table 2 Experimental data for different plans
由表2 最终可知,通过迁移学习以及引入SE block,方案3的各项指标优于方案1和方案2。
2.2 不同模型训练曲线和混淆矩阵分析
2.2.1 模型在幼穗分化期的训练曲线和混淆矩阵 混淆矩阵也称误差矩阵,是评判模型结果的指标,属于模型评估的一部分,用n行n列的矩阵形式来表示,可以用来判断分类器的优劣,通过混淆矩阵也可以更直观地看到模型在各个类别上的表现,混淆矩阵横轴表示预测值,纵轴表示真实值,展示了分类任务中模型识别正确与错误情况。对于水稻幼穗分化期,方案1、2、3 的模型训练曲线图以及混淆矩阵如图2所示。
图2 3个方案在幼穗分化期的训练曲线和混淆矩阵Fig. 2 Training curves and confusion matrices of three schemes during the spikelet differentiation stage
从图2C可知,迁移学习能够加速模型的收敛速度,同时ResNet34 在训练过程中产生了一定的过拟合现象,替换成全局平均池化层之后在一定程度上避免了过拟合现象的产生,这在图2B中得到了体现;由图2C 可以看出,基于迁移学习再引入SE block后,模型的准确率均有一定的提升。
从图2F所展示的混淆矩阵可知,模型对N3以及N4 处理施氮水平的水稻识别准确率大于N1和N2 处理;对于4 类施氮水平的识别准确率分别为96.53%、98.52%、98.84%、98.71%。因此,从图2D~F 可以看出,ResNet_SE 的准确率优于ResNet34,ResNet_SEt的准确率优于ResNet_SE。
2.2.2 模型在齐穗期的训练曲线和混淆矩阵 对于水稻齐穗期,方案1、2、3 的模型训练曲线以及混淆矩阵如图3所示。
图3 3个方案在齐穗期的训练曲线和混淆矩阵Fig. 3 Training curves and confusion matrices of three schemes during the full heading stage
从图3A~C 可知,改进后的模型在收敛速度、过拟合现象的处理、模型的准确率均有一定的提升。从图3F 可知,模型对N2 以及N3 施氮水平的水稻识别准确率稍低于N1的和N4的施氮水平;对于4 类施氮水平的识别准确率分别为99.76%、99.05%、99.05%、100.00%。因此,从图3D~F 可以看出,ResNet_SE 的准确率优于ResNet34,ResNet34_SEt的准确率优于ResNet_SE。
综上可知,相比于未改进网络,基于迁移学习,可以迅速在数据集数量不多的情况下,得到较为理想的识别准确率,且模型收敛速度更快,模型的整体性能也更好;替换为全局平均池化层,可以减少模型总参数量,且在训练过程中测试集的损失趋势相对原始模型更加稳定,其次能够改善模型训练过程中产生的过拟合现象,但模型的收敛速度有所降低;SE block 的引入可以提高模型的准确率,但SE block 的引入增加了模型的训练时间,参与训练的参数也有所增加,经过模型评估,ResNet34_SEt在水稻幼穗分化期和齐穗期分别能达到98.13%和99.46%的准确率;基于迁移学习以及在网络残差块中引入SE block 相比直接进行全新学习识别错误的数量大大减小,表明ResNet34_SEt更适用于水稻氮素营养诊断任务。
2.3 不同模型的性能对比
为了进一步验证方案3 的有效性,使用本试验的数据集输入到AlexNet、VGG11、VGG16 传统模型进行分类任务,并将模型的性能与方案3 的ResNet34_SEt进行对比,结果如表3 所示。由表3可知,AlexNe模型相较于ResNet34_SEt,二者训练时间相差不多,但是二者在2 个时期数据集中的表现却相差较大,且模型总参数量也有近12 倍的差距;对于VGG11 以及VGG16 模型,它们所需的计算量相较于ResNet34_SEt 都十分巨大,VGG16在齐穗期的效果要优于VGG11,但是该效果多体现在相较VGG11 层数更多,模型更深,需要更多的训练时间,且模型总参数量都较大;对于ResNet34_SEt自身而言,在训练时间,模型总参数量,测试效果方面综合来说最优。
表3 不同模型的性能对比Table 3 Performance comparison of different models
3 讨论
本文以‘两优培九’为研究对象,对2 个时期、4 个施氮水平的水稻进行幼穗分化期的营养诊断,从试验结果来看,模型能更准确识别水稻幼穗分化期N3 以及N4 施氮水平,从齐穗期的试验数据来看,模型对N1 以及N4 施氮水平的水稻能更准确地识别。罗建军等[26]在本试验数据集上,使用机器学习的方法,通过获取水稻扫描图像提取叶片颜色、几何形态等特征进行水稻氮素营养诊断,与本试验中幼穗分化期的数据有差异,可能是因为深度学习与基于特征的机器学习对样本数据集大小要求不一样所导致的。通过深度学习方法,发现水稻的齐穗期识别准确率稍高于水稻的幼穗分化期,这种差异可能是不同时期的数据集数量以及分布不同所导致的。张林朋等[27]在本试验数据集上,使用深度学习方法构建了改进的VGG16 和迁移学习相结合的网络模型对水稻叶片图像数据进行氮素营养诊断识别,结果表明在水稻幼穗分化期和齐穗期,该模型微调后的识别准确率均能达到95%以上,但是其存在模型体积大、模型参数量多、训练时间较长等问题。在本试验中,对出现图像弯折、卷曲现象的进行了舍弃,但由于对水稻的分割处理粗糙,也可能造成部分水稻的分割处有图像信息缺失,在后续试验中,增大样本数量和对水稻的处理过程更加细致将是重要改进之处,其次应尽量使数据分布均匀,再次提高每一类施氮水平的识别效果。综上,在高光谱技术、机器学习方法、深度学习方法的对比中,深度学习方法将会是水稻氮素诊断的最优选择。
在数据集方面,本试验后期对其进行预处理过程中丢弃了部分图像信息,使得幼穗分化期的数据分布相较于齐穗期来说更加分布不均匀,每类施氮水平的数据量都有所不同,对最终得到的识别准确率造成了一定的影响。Cap 等[28]提出了一种LeafGAN 方法,通过从健康图像转换生成各种各样的疾病图像,作为提高植物疾病诊断性能的数据增强工具,对试验过程中数据集数量过少问题进行了改善,改善了模型的过拟合现象,模型性能也有所提升。在数据集数量上,未来可使用GAN 等方法进行数据扩充,避免数据不足,使模型准确度更高。另外,本试验使用1 个品种对模型的适用程度方面具有一定的局限性,例如外形特征以及其他品种施氮量的颜色特征等,这些都会影响本模型对数据的识别准确率;采用本试验使用的ResNet 网络,需要大量数据以及更长的训练时间,以保证模型的准确率以及稳定性。未来的研究中,需要增加不同水稻品种、获取水稻不同生长时期的营养状况数据,基于本试验的施氮水平,再细化出更多的施氮水平,会更加有利于模型的通用性、适用性。
本试验通过使用卷积神经网络,将网络结构进行改进,建立水稻氮素营养诊断模型,能够获得较高的模型识别准确率,同时该模型能够抑制模型训练过程中过拟合现象的产生,数据表明该模型能够用于水稻氮素营养的分类任务,为利用计算机识别水稻氮素营养的研究方向提供了一种新思路。