一种基于LSTM的草莓白粉病预测方法
2022-12-10腰彩红孙海波王建春
李 扬, 腰彩红, 兰 璞, 田 涛, 孙海波, 王建春
(天津市农业科学院,天津 300112)
草莓是天津市冬春季节设施农业高价值作物之一,普遍采用设施栽培,易出现湿度大、光照不足和通风不良等问题,为草莓病害的发生提供了有利条件。白粉病是由专性寄生菌引发的,是近年来危害草莓产量及品质的主要病害之一,发生频率高,损失严重。只要条件合适,病原菌20 h即可侵入叶片表皮,4 d后可形成白色菌丝,7 d后成熟可形成新的分生孢子,进而在几天内迅速感染整个温室。统计表明草莓感染白粉病后一般减产20%~50%,严重影响草莓的产量和品质[1]。因此对草莓白粉病的发生进行预测,并尽早采取措施予以治疗,将有效减少白粉病对作物的影响,降低农民损失。
目前白粉病预测技术使用的方法主要包括基于孢子捕捉技术预测和基于环境气候预测2种[2]。基于孢子捕捉技术的预测是通过在载体上涂抹黏性物质来黏附空气中的孢子,并定期带回实验室通过显微镜对孢子数量进行检测,再结合环境、作物抗病性等因素进行病害的预警。李磊福等以累积湿度和孢子量为变量构建了温室甜瓜白粉病流行预测模型,对温室瓜菜白粉病发病进行了预测,取得了较好的效果[3]。高士刚等使用了一体化智能孢子捕捉仪证实黄瓜霜霉病和黄瓜白粉病病情指数与连续7 d孢子捕捉总量具有强正相关性[4]。Cao等通过对空气中小麦白粉病菌分生孢子动态监测,建立了基于气象因子和孢子浓度的小麦白粉病预测模型[5]。Carisse等利用孢子量、作物抗病性和气象信息对草莓白粉病的发生风险进行预测,构建了基于采样当天的孢子量、平均相对湿度、适宜温度下的平均小时数等参数的决策树模型,并验证了模型的有效性[6]。这些研究都证实了使用孢子量进行白粉病预测的效果。近年来孢子捕捉技术的发展,特别是图像处理技术的发展促进了使用孢子捕捉技术进行作物病害监测预警的研究和技术的迭代更新,进一步提高了病害监测预警的质量和水平,但由于孢子捕捉仪的专业性强,实际生产中还是存在难以推广的问题。因此,现阶段基于环境气候预测仍是作物病害预测使用的主要方法,即通过历史气象数据模拟病害传播路径,并结合病害发生时序等实际情况构建预测模型,对病害进行预警。尚志云等利用1990—2010年河北省冬小麦白粉病和国家气候中心大气环流特征量指数资料,建立了冬小麦白粉病预测模型,年前和春季病害发生程度预测模型的准确率分别为81.0%和90.5%[7]。吴燕君等通过监测2007—2019年设施黄瓜白粉病的田间流行动态,建立了基于逐步回归分析法的春黄瓜、秋黄瓜白粉病发生预测模型,经拟合率检验,各模型均达75分以上的准确度[8]。魏少伟等使用2020年9—11月在北京4个温室的空气温度、相对湿度、光照强度构建了贝叶斯网络模型,对日光温室黄瓜白粉病进行了预测,准确度达到了87%以上,具有良好的普适性[9]。
目前基于环境气候的白粉病预测大多采用回归分析等方法,这些方法需要大量历史年份数据,且不考虑各个变量之间的内在联系,导致模型适应性不强。近年来,人工神经网络算法由于其强大的非线性逼近能力和自适应能力,逐渐被引入到病害预测、环境预测等领域[10],在水稻[11]、黄瓜[12]、脐橙[13]等作物和水产领域[14]已经取得了较好的效果。但鲜有针对设施草莓白粉病预测的研究,本研究主要以日光温室草莓种植期间的环境和病害发生情况作为样本,采用长短时记忆网络(long-short term memory,简称LSTM)对其发病情况进行预测,为病害防治奠定基础。
1 材料与方法
1.1 种植情况
草莓品种选择红颜和章姬,二者均是天津越冬草莓主栽品种,适合日光温室促成栽培。其中红颜对白粉病抵抗能力弱,章姬较耐白粉病。试验于2020年9月至2021年4月在天津市鼎牛农业园区1号温室和2号温室中进行,温室由聚乙烯薄膜覆盖,温室面积约667 m2,草莓于9月初定植,并建立生产档案,对灌溉、施肥等栽培管理措施进行记录。
1.2 传感器部署
室内环境数据测量使用建大仁科温湿度及光照度三合一传感器、土壤温湿度二合一传感器。监测数据采集使用自主研发的数据采集设备完成,并上传至服务器,数据采集频率为15 min/次。室内传感器按照5×5的位置布放,即将棚室划分为25块区域,横向按照1~5划分,纵向按照A~E划分,传感器布放在相应区域中心。温室划分情况如图 1所示,布放现场及采集设备如图 2所示。
1.3 白粉病调查
调查根据选定的25个采样点,每个采样点对角线五点采样,每点随机选定3株,每株调查全部叶片,发病前每隔2 d观察1次,待发现白粉病后每隔7 d观察1次,统计发病情况,共调查18次,并根据GB/T 17980.119—2004[15]对病害程度进行分级。分级标准如表1所示,病情指数计算公式如下:
表1 病害程度分级标准
1.4 数据采集及清理
根据发病调查获取了自第一次发现病害前7 d至种植期结束的全部环境数据,包括空气温度、空气相对湿度、光照度、土壤温度、土壤相对湿度5组。期间由于园区停电,传感器故障等原因丢失部分数据,按照同一时段其他传感器均值或邻近日期同一位置数据测算,最终获取213 000条环境数据。
1.5 指标选择
为了分析环境因子在调查期间对于白粉病发生的影响,结合已有数据,设计了可能影响白粉病发生的因素共计25项,具体如表2所示。
1.6 预测模型
LTSM是一种特殊的神经网络(RNN)模型,是为了解决RNN模型梯度爆炸和梯度消失问题而提出的,适合处理和预测时间序列中间间隔和延迟相对较长的问题。使用记忆单元代替神经网络中的神经元,LSTM记忆单元示意图如图3所示。
表2 预测指标
1.7 试验方法
对比试验中,首先将“1.4”节中获取的环境数据按照“1.5”节中列出的25个指标项, 通过计算得到观察期间每天的指标值共计400组指标记录,按照80%和20%的比例分为训练集和测试集。再根据观测日期,将该日期前的nd的指标值作为输入值,预测是否发病。开展3组试验,对比预测效果。试验1使用检查日前4 d的数据,预测检查日是否发病;试验2使用检查日前7 d至4 d的气象数据,预测检查日是否发病;试验3使用检查日前7 d的数据,预测检查日是否发病(图4)。
本研究中LSTM网络使用PyCharm环境Python 3.9版本开发,用MySql数据库及Excel进行数据整理分析。
1.8 评价指标
混淆矩阵是用来评价模型时使用的主要工具,其定义如表3所示。
表3 混淆矩阵定义
在混淆矩阵基础上,国际上广泛采用的评价指标包括精确度(precision)、召回率(recall)和F1指数,相应公式如下:
precision=TP/(TP+FP);
recall=TP/(TP+FN);
F1=2×precision×recall/(precision+recall)。
精确度体现的是模型预测结果的正确程度,召回率体现的是是否所有结果都被正确地预测出来了,F1指数是准确度和召回率的综合体现。本研究采用以上3项指标评价模型效果。
2 结果与分析
2.1 易发病位置分析
对比分析发现,同一温室内不同区域由于小气候仍然存在较大差异,导致发病程度不一。通过汇总调查的病情指数,绘制温室划分的25个区域的平均病情指数热力图(图5)。从图5可以看出,2、3、4区域感染白粉病病情指数要高于1、5区域,这主要是由于区域1更靠近出口温度偏低,区域5更靠近侧墙,人员流动小。2、3、4区域中3C区域感染白粉病病情指数最高,主要是由于此区域为温室中心,空气流动及环境情况都更适宜白粉病发展。其中标红色框的区域发病病情指数也要高于周边,主要是由于处于风口位置,空气流动更大,更利于孢子的扩散。因此这些区域是未来监测白粉病发生的重点区域。
2.2 模型预测结果
根据“1.7”试验方法使用LSTM模型评估检查日是否发病,测试集数据共计80条,试验效果如表4所示。
从表4可以看出,试验1中有大量预测发病但实际未发病情况,精确度仅为67%,虽然召回率达到了100%,整体F1指数仅为0.8,大量误判在使用中极易造成人工的浪费。试验3结果最好,精确度、召回率均达到了94%,F1指数达到0.94。试验2精确度达到了93%,召回率达到了94%,F1指数为0.93,结果与试验3结果相比仅多了1次误判,没有明显差别,但可以比试验3使用更少的数据,达到了几乎相当的预测结果,在实际应用中将更有价值,即按照试验2的模式,可以提前4 d预测草莓白粉病的发生,便于农户提前做好预防。测试数据病情指数预测结果如图6所示。
表4 试验结果
3 讨论与结论
本试验选择天津本地越冬茬高价值作物草莓开展研究,针对其易发病害白粉病进行观测,总结了日光温室内白粉病发病的高风险区域,作为病情监测重点区域,用于在模型预测发病时指导人工重点观测。使用LSTM方法构建了草莓白粉病预测模型,选取了25项环境相关指标,使用发病前7 d至发病前4 d、发病前4 d和发病前7 d的环境数据作为输入训练模型,并比较预测效果。证实了使用发病前7 d至发病前4 d的环境数据可以准确地预测出草莓白粉病发病,精度达到了93%,与以发病前 7 d 的环境数据作为输入的模型相比,预测准确度相当,但使用输入数据更少,可以提前3 d预判出白粉病发病,取得了较好的试验效果,可以在实际生产中用于白粉病发病预测。