TLBO-ELM模型的番茄灰霉病高光谱潜育期诊断
2022-09-05吴华瑞朱华吉
张 燕, 吴华瑞, 朱华吉*
1. 国家农业信息化工程技术研究中心, 北京 100097 2. 北京农业信息技术研究中心, 北京 100097 3. 农业农村部农业信息软硬件产品质量检测重点实验室, 北京 100097
引 言
我国是番茄的主要生产和消费国家, 番茄种植广泛。 在农业实际生产过程中, 番茄灰霉病感染早期无病斑显现, 因此无法被及时发现, 导致灰霉病治理不及时引起的品质下降和产量减少, 严重影响了番茄种植的经济效益[1-2]。 随着高光谱成像无损检测技术的发展能够在更加微观的尺度上对植物内部器官进行精细探测, 适用于在未显现病斑的病害潜育期进行光谱信息提取。 秦立峰等[3]针对温室采集的不同环境光照下的黄瓜早期霜霉病高光谱图像有效病害特征难以提取的问题, 以黄瓜7类感兴趣区域94个样本为研究对象, 提出采用改进的竞争性自适应重加权算法CARS结合连续投影算法SPA提取融合病害差异信息, 通过合并去除重复波段共提取47个特征波段, 建立最小二乘-支持向量机检测模型。 对染病1 d的测试集检测识别率达到95.83%, 对染病2 d到发病12 d均能取得100%的检测识别率, 其中染病样本的召回率达到100%。 康丽等(本刊41卷3期)采集大田自然发病症状较轻的水稻稻瘟病叶片和健康叶片为研究对象, 通过构建对比多种早期分级检测模型, 发现CARS-SVM模型对染病无病斑样本识别准确率最高, CARS-PCA-SVM模型在复杂度、 运算速度上优于CARS-SVM。 牟多铎等[4]将空间信息分别加入极限学习机(ELM)和支持向量机(SVM)对不同低维类别选取适当的高光谱训练样本进行分类比较, 发现在分类时间及精度方面ELM均优于支持向量机SVM。 芦兵等[5]为了实现差异病害的准确预测, 分别建立ELM的特征光谱联合灰度共生矩阵及LBP纹理信息的预测模型CARS-GLCM-ELM和CARS-LBP-ELM, 优化后的模型预测分类正确率达92.73%。 陈芊澍等[6]在裂缝发育带预测中引入了极限学习机算法, 相较于近似支持向量机, 极限学习机在保证分类准确度的同时训练效率更高。 Sevinc等[7]提出TLBO_ELM分类模型对二进制和多类数据进行分类, 表明TLBO-ELM在分类上优于PSO-SVM算法。
因此, 本工作采用基于教学优化算法的极限学习机模型(teaching-learning-based optimization_extreme learning machine, TLBO_ELM)[6-7]进行建模, 针对番茄灰霉病潜育期病斑ROI区域进行特征波长提取, 并且提取不同病害程度的光谱信息, 通过对比不同光谱预处理效果, 选择离散小波变换(discrete wavelet transformation, DWT)[8]预处理方法, 并结合竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)[9-10]进行特征波段提取, 建立番茄灰霉病潜育期检测教师学习-极限学习机(TLBO_ELM)模型, 实现番茄灰霉病潜育期高精度检测及不同病害程度的高精度分类。
主要研究内容包括:
(1) 围绕番茄叶片灰霉病潜育期检测方法, 通过连续跟踪采集建立样本叶片时序高光谱数据, 实现番茄叶片表面未见明显病斑的灰霉病潜育期诊断;
(2) 针对番茄灰霉病潜育期病斑ROI 区域特征波长及不同病害程度的光谱信息提取建立基于离散小波变换结合竞争性自适应重加权算法的特征提取模型;
(3) 针对极限学习机精度和泛化能力不稳定的问题, 采用教学优化算法对极限学习机的输入权值和隐藏层的偏差进行训练和优化, 从而保证了ELM分类模型较高的精度和较好泛化能力。
1 实验部分
1.1 样本材料
实验于2021年3月—4月在石家庄市农林科学研究院农业信息研究中心实验室(114°54′E, 38°12′N)进行。 采用北方大部分地区设施大棚中普遍种植的大果型番茄“天明”(抚顺市北方农业科学研究所育成)为样本, 取生长状态较为一致的番茄幼苗60盆, 移入人工气候箱备用, 每盆种植1株番茄苗, 塑料花盆大小10 cm×9 cm, 每天定时注入50 mL水。
灰霉病菌悬液的制备方法: 将灰霉病菌(购自中国农业科学院蔬菜花卉研究所)在PDA培养基上划线活化, 25 ℃恒温培养7 d后挑取活化的病原菌孢子至150 mL的马铃薯葡萄糖液体培养基中, 25 ℃, 120RPM震荡培养7 d得到菌悬液。
番茄苗于光照培养箱中生长出第七片叶片时进行接种, 接种部位选取第3~5片叶最尖端小叶, 设置三种接种方式: 全叶涂抹, 叶片局部点涂, 叶片局部针刺点涂。 接种后的植株放置在光照培养箱中培养, 培养条件为: 湿度85%~90%, 温度25 ℃/22 ℃, 光照9600LX/0, 12 h/12 h, 1 d后进行高光谱图像采集。
1.2 仪器设备
选用宁波江南仪器有限公司RXZ-600B型号人工气候室, 容积600 L, 控温范围0~50 ℃, 控温精度0.1 ℃左右, 控湿范围50~95%RH, 控湿精度1%RH左右, 光照强度0~400(30 000), 6级可调, 隔板数量4块, 工作时间可定时控制或连续运行, 外形尺寸1 313×740×1 500。 共购置人工气候箱3台, 每台可育苗24株。
高光谱采集设备选用四川双利合谱科技有限公司的短波红外便携式成像光谱系统GaiaField Pro-N17E lite高光谱成像仪, 相机集成高性能数据采集和分享处理系统, 无需外接计算机, 支持Android智能手机、 Ipad、 Iphone无线遥控(Wifi模型), 选配支持远距无线图像传输于遥控操作(串口)。 扫描方式为内置推扫, 光谱范围960~1 640 nm, 光谱分辨率5 nm, 共320个光谱通道, 扫描速度为4 s·cube-1, 重量为7.5 kg, 内置电池可工作2 h以上。
补光灯设备: (1) 50 W卤素灯: 输入电压12 V, 功率50 W, 输出光谱为350~2 500 nm宽光谱, 光源经过匀化处理; (2) 调节支架: 固定卤素灯并可调节卤素灯角度, 高稳定性, 高耐热支架; (3) 稳压稳流电源: 高稳电源, 输出电压12 V, 为四台50 W卤素灯供电, 保证卤素灯输出稳定光谱。
1.3 高光谱图像采集
数据采集软件为四川双利合谱科技有限公司的SpecView, 为保证采集光谱信息的准确性, 采用补光灯设备, 四个补光灯调整好位置后, 固定不变。 每次采集前进行曝光、 调焦、 白板采集。 根据采集的番茄叶片调整方位, 需要采集的番茄叶需位于全局预览界面中的右上框中。 距离镜头36~46 cm之间, 42 cm为最佳位置, 进行采集, 如图1。 高光谱数据采集从接种后第一天即接种24 h后开始进行连续跟踪采集, 每株跟踪采集三个叶片, 共连续采集8 d。
图1 样本数据采集
1.4 特征波段提取算法
高光谱分辨率在纳米数量级, 具有数据量大, 相关性较高的特点, 可分性较好的、 相关性较低的特征波段的提取, 是提高分类识别模型精度的重要手段。 采用竞争自适应重加权(competitive adaptive reweighted sampling, CARS)[9-10]算法对预处理后的番茄灰霉病潜育期高光谱建模数据进行特征波段提取。
1.5 基于TLBO-ELM早期诊断模型
极限学习机(extreme learning machine, ELM)[4-5]是2004年由新加坡南洋理工大学的黄广斌教授提出的, 是一种运算速度快、 泛化能力好的单隐层前馈神经网络, 因其具有独特的优势, 被广泛运用于解决各类非线性问题。
但极限学习机ELM模型主要参数输入权值ω和隐含层阈值b的设置是随机的, 导致模型精度和泛化能力不稳定, 为了解决上述问题, 基于教学优化的极限学习机分类模型TLBO_ELM (teaching-learning-based optimization_extreme learning machine)[6-7]被提出。
教学优化算法[6]通过模拟教师的“教学”和学生之间的相互“学习”来提高学生的水平, 是一种新的群智能优化算法, 适合求解参数较多的优化问题。 在教与学算法中, 将学习知识范围对应于搜索空间, 搜索空间中所有点的集合称为班级, 某一点(j=1, 2, …,NP)对应着一个学生,NP为学生数,D为学生学习科目数(对应于优化问题中变量的维数)。 班级中成绩最好的学生记作老师, 用Xteacher表示。
将ELM的输入权值和隐含层阈值编码成教与学算法个体, 初始化班级, 以EML算法识别率达到最大或稳定为目标进行寻优获得最优个体, 解码得到最优的权值和最优阈值b。
TLBO_ELM通过教学优化算法对极限学习机的ω和b进行训练和优化, 从而得到最优的权值ω和最优阈值b, 从而保证了ELM分类模型较高的精度和较好泛化能力。 为了验证构建模型的能力, 常用测试集的准确率Accuracy、 精确率Precision、 召回率Recall和调和评价值F1作为模型评价标准。
番茄灰霉病诊断及分类流程如图2所示。
图2 番茄灰霉病诊断及分类流程图
2 结果与讨论
2.1 发病样本选择
高光谱数据处理采用四川双利合谱科技有限公司的SpecSight、 ENVI5.3(Research Systme Inc., Boulder, Colo., USA)和Matlab2019b(The MathWorks Inc., Natick, USA)软件开发平台。
如图3为从接种第1天(24 h后)到第8天病斑从无到有的变化过程图像, 图显均为波段红通道640.7 nm, 绿通道549.9 nm和蓝通道469.7 nm。
图3 接种发病样本#1高光谱图像从1~8 d变化过程图
2.2 感兴趣区域选择
番茄叶片感染灰霉病潜育期, 没有肉眼可见病斑导致专家无法直接确认叶片样本是否感染及感染位置, 但是叶片内部已发生生理反应, 叶细胞组织也已开始遭到破坏。 为实现番茄叶片灰霉病潜育期的检测, 采取跟踪采集所有接种后的样本叶片时序高光谱图像数据, 来确定接种样本叶片是否被感染及感染位置, 选取发病叶片样本为本文实验样本, 根据样本叶片发病病斑位置确定叶片样本潜预期发病位置。 根据图1接种后发病样本#1的病斑变化过程, 按病斑面积将所有选取的ROI划分为5个等级: 无感染ROI为0级、 染病无病斑ROI为1级(潜预期)、 病斑面积<10%ROI为2级(小病斑)、 病斑面积<25% ROI为3级(大病斑)、 病斑面积>25% ROI为4级(严重)。 利用ENVI5.3软件提取接种后发病样本1~8 d的感染区域ROI, ROI大小为10×10, 病斑较大时, 选取病斑中间位置。 从第1天到第8天采集27(19个感染ROI+8个无感染ROI)个样本的高光谱数据。 利用ENVI5.3软件计算每个感兴趣区域ROI矩形框内所有相似点的光谱反射率平均值作为实验高光谱数据, 共采集213个ROI平均光谱数据, 无感染ROI为0级(55个)、 潜预期ROI为1级(43个)、 小病斑ROI为2级(43个)、 大病斑ROI为3级(39个), 病斑后期ROI为4级(33个)。
图4为213个样本不同发病等级番茄叶片高光谱平均反射率曲线, 光谱曲线在500~583 nm接近绿通道波长550 nm附近出现一个波峰, 潜育期ROI谱线和健康ROI谱线在557 nm之前几乎重合, 之后潜育期ROI谱线出现红移现象, 说明叶片组织开始受到破坏。
图4 不同时期番茄叶片高光谱平均反射率曲线
2.3 光谱数据预处理方法选择
为了消除或减弱外界环境及各种因素对光谱的影响, 采用有效的光谱预处理方法尽可能去除光谱噪声并对光谱进行平滑及相关预处理, 不仅可以提高诊断模型的准确率和预测能力, 还能提高模型的泛化能力及鲁棒性。 目前主流的光谱数据预处理方法包括: 数据规范化处理(NOR)[11]、 Savitzky-Golay卷积平滑(SG)[12]、 标准正态变换(SNV)[13]、 离散小波变换(DWT)[8]、 多元散射校正(MSC)[14]等, 比较上述各个处理, 如图5, 发现对高光谱数据进行小波变换滤波处理后, 在681~840 nm波段间番茄灰霉病五个等级被清晰的区分开来, 其中大病斑4级和严重后期5级部分混在一起, 说明病害发展到大病斑后光谱相似度较大。 所以对每一个类分别进行小波滤波变换DWT滤波。
图5 不同光谱预处理后光谱对比
2.4 DWT-CARS特征波段提取
采用经过离散小波变换DWT处理后610~840 nm波段间样本数据, 基于CARS算法对训练集进行特征波段提取, 设置蒙特卡洛采样次数为50, 为解决CARS算法的随机性问题, 利用CARS进行3次特征提取, 3次CARS提取的特征波段过程位置如图4所示, 包括样本变量个数(number of sampled variables, NSV)、 交叉验证均方根误差(RMSECV)和回归系数(regression coefficient,rc)随蒙特卡洛采样次数的变化趋势。 在RMSECV最小点取最优变量个数(图6中的星号竖线), 3次提取过程最小RMSECV分别为: 0.295 9, 0.294 5和0.297 4, 见表1, 将回归系数绝对值大的波段保留, 即为提取的特征波段。 提取的特征波段如图7所示, 提取的特征数量分别为5, 5和7, 见表1。 由图7和表1可知, 3次选取的特征波段位置相近, 满足稳定性要求。 将3次特征波段合并并去除重复项, 共得到9个特征波段: 694, 696, 765, 767, 769, 772, 778, 838和840 nm。
图6 DWT-CARS算法3次提取的特征波段
图7 DWT-CARS算法3次提取的特征波段
表1 DWT-CARS算法3次提取的特征波段
2.5 TLBO-ELM诊断模型建模与分类
在5个类213个样本中, 每个类选择14个样本, 5个类共70个样本建立测试集, 剩余样本建立训练集, 采用小波滤波变换DWT对样本数据中每一类分别滤波。 DWT滤波后, 分别选取全波段FC、 610~840 nm波段、 DWT-CARS提取的特征波长(694, 696, 765, 767, 769, 772, 778, 838和840 nm)建立3个对比分类模型DWT-FC-TLBO-ELM, DWT-TLBO-ELM和DWT-CARS-TLBO-ELM进行对比。 用教学优化算法选择模型的最优权值ω和最优阈值b, 由于3个模型采用的波段不同, 因此TLBO选择的参数不同, 如表2所示, 表2中给出了3个不同模型的最优权值ω和隐藏层最优阈值b及对应的测试集准确率、 精确率、 召回率和F1值。 由表2可知, DWT-FC-TLBO-ELM与DWT-TLBO-ELM模型在病害等级识别能力几乎相同, 只有精确率略有不同。 而基于DWT-CARS提取的9个特征波段的识别率、 精确率、 召回率和F1值都达到最高100%。 比前两个分类模型高4.29个百分点。
表2 不同模型参数选择及相应测试集准确率、 精确率、 召回率和F1值
图8为三个模型的混淆矩阵, 由图8可知, DWT-FC-TLBO-ELM中, 大病斑类和严重类混淆, 其中三个严重类测试样本被识别为大病斑, 这是由于大病斑类和严重类部分样本较为接近; DWT-TLBO-ELM模型健康类和潜育期类存在混淆, 其中有3个潜育期类样本被误识别为健康类, 也是由于两个类部分样本较为类似; DWT-CARS-TLBO-ELM模型没有出现误识别, 表现优越。 且DWT-CARS-TLBO-ELM模型潜预期召回率为100%, 表明提出模型不仅能较好的区分健康类和潜预期类, 也能较好的区分5个不同的病害级别。
图8 三个模型测试集混淆矩阵
利用高光谱成像技术对设施番茄灰霉病进行早期检测, 提出基于DWT-CARS特征提取方法, 先对每一类训练数据进行小波变换, 通过CARS算法执行3次提取特征波长, 对3次提取的特征波长进行合并去除重复项, 最终提出9个特征波段: 694, 696, 765, 767, 769, 772, 778, 838和840 nm, 通过教学优化算法和极限学习机建立DWT-CARS-TLBO-ELM番茄灰霉病识别模型对5类染病阶段的病害叶片ROI区域进行检测, 实验结果表明, 提出的番茄灰霉病特征波段提取方法有效, 对5个阶段的检测率、 精准率、 召回率、 F1值均达到100%。
3 结 论
根据病斑大小选取进行数据建模利用高光谱成像系统获取5类感兴趣区域在近红外高光谱波段388~1 006 nm进行数据建模, 采用小波滤波变换DWT对样本数据中每一类分别滤波。 DWT滤波后, 分别选取全波段FC、 610~840 nm波段、 CARS-PLS提取的9个特征波段建立3个分类模型DWT-FC-TLBO-ELM, DWT-TLBO-ELM和DWT-CARS-TLBO-ELM进行对比, 分别对3个模型采用教学优化算法(TLBO)进行最优参数选取, 其中DWT-CARS-TLBO-ELM检测精确度最高达100%, 潜育期召回率100%, 表明提出模型可以实现番茄灰霉病潜育期无病斑叶片早期识别诊断, 为番茄灰霉病早期防治、 精准施药提供理论依据。
下一步工作展望: 进一步扩大样本量, 采集不同生长阶段和不同品种番茄以及不同番茄病害的样本数据, 验证并改进番茄病害识别算法。