APP下载

基于病害高发期气象因子的三七病害发生率预测

2020-03-04杨启良杨春曦刘小刚韩焕豪

农业工程学报 2020年24期
关键词:冠层通量气象

熊 凯,杨启良,杨春曦,刘小刚,韩焕豪,周 平

基于病害高发期气象因子的三七病害发生率预测

熊 凯1,杨启良1※,杨春曦2,刘小刚1,韩焕豪1,周 平1

(1. 昆明理工大学农业与食品学院,昆明 650500;2. 昆明理工大学化学工程学院,昆明 650500)

准确预报病害发生率是提前应对三七病害、提高产量和品质的重要基础。该研究利用2018-2019年云南红河州三七种植基地内田间气象数据和病害发生率资料,采用主效应分析(Principal Components Analysis, PCA)来避免多元共线性的发生。以2018年和2019年的5-9月气象数据集作为训练集与验证集,以随机森林(Random Forest, RF)算法作为基础学习机构建初步预测模型,最后通过梯度下降(Gradient Descent, GD)算法进行优化。结果表明,土壤温度与棚内湿度均与病害发生率呈正相关,其皮尔逊相关系数在0.25~0.75之间,棚内土壤热通量和三七冠层上方土壤热通量均与病害发生率呈负相关,其皮尔逊相关系数在-0.75~-0.25之间;通过随机森林获得的模型的均方根误差为0.23;通过梯度下降优化,代价函数收敛时值为241.003,并获得各个气象因子对三七病害高发期的病害发生率影响的权重,其中土壤温度正相关程度最大,权重为21.686,三七冠层上方的土壤热通量负相关程度最大,权重为-13.834。该研究结果在通过田间气象因子预测三七病害高发期的病害发生率上具备可靠的预测能力,可为降低三七病害的设施环境调控和智能化管理提供理论依据和技术支持。

病害;模型;中药材;随机森林;梯度下降;三七;气象因子

0 引 言

三七()是五加科人参属多年生草本植物,是云南白药气血康、云南白药膏等的主要成分。有“金不换、南国神药”等美誉,广泛分布于云南和广西等地[1]。三七生长喜阴湿环境,但其生长环境对水分比较苛刻,过低的土壤水分不利于三七的生长,过高的土壤水分、空气湿度与温度容易滋生病害,每年6-8月为集中降雨期,亦为三七病害高发期。因此,研究三七病害高发期气象数据特征,获得三七病害与田间气象因子之间的关系,对三七病害的绿色防控具有重要意义。

范艳霞[2]指出作物病害由生物因素与非生物因素引起,其又可分为侵染性病害和非侵染性病害,张连娟等[3]研究表明非侵染性病害主要包括由严寒、旱、涝等因素所引起的病害。三七冠层上方的温湿度、饱和水蒸气压、土壤温度、土壤热通量和太阳辐射是影响三七生长的主要气象因子。田间土壤温度、冠层温湿度是引起作物病害发生的关键指标。随着光强和相对空气湿度的增加,三七病害发生率明显加重[4-8],但尚未见冠层饱和水蒸气压、土壤热通量与作物病害发生率间关系的研究。

三七病害高发期与降雨密切相关[9-10],杨欢等[11]研究发现该阶段降雨量占全年总降雨量的80%以上。由于该地区气象指标在时间分布上不具备明显的决策边界、连续且非线性、单个指标在数值上具有明显的重叠性,因此本研究采用机器学习来研究气象因子与三七病害之间的关系,通过机器学习获得不同指标间的联系,降低时间成本,构建、优化模型使其可视化和公式化。Bottou等[12]指出机器学习问题通常会转换成一个目标函数去求解,优化算法是求解目标函数中参数的重要工具。随机森林是Breiman[13]于2001年将Bagging集成学习理论[14]与随机子空间方法[15]相结合,提出的一种机器学习算法,其本质为一种以统计学和组合分类为基础的智能算法,具有较强的非线性模拟能力、泛化能力,可以减少人为主观因素的干扰。而且Kebede等[16-17]研究指出随机森林算法是一种具有监督性的数据挖掘算法,基本原理是将装袋算法和随机空间算法相结合,基本单元为决策树,将多个决策树组合在一起形成森林,通过每个决策树分类预测投票,从而得出最终的分类及评价,该算法被广泛应用到诸如生物信息[18-19]、商业管理[20-21]、医学研究[22-23]、经济金融[24]等实际领域并取得了不错的结果。Nesterov[25]研究表明梯度下降法是求解无约束优化问题最常用的方法,该算法沿梯度下降方向,即负梯度方向作为搜索方向,不断迭代求解目标函数的最优值;赵世林[26]指出梯度下降算法是优化深度学习模型常用的方法;关毅铬等[27]研究表明该算法常在机器学习和人工智能中用于递归性地逼近最小偏差模型。但鲜有将上述算法运用至田间气象数据的模型训练,也未将气象因子与作物病害间的关系进行定量的评价,因此本试验将所采集的数据样本所具备的数学特征与随机森林、梯度下降的优势相对应,从而糅合这2种算法进行机器学习。

尽管前人研究围绕光强、相对空气湿度、土壤温度与三七病害发生率之间的关系进行了定性描述,但降雨会改变土壤的温度和热通量、大气温湿度和太阳辐射等气象环境条件,现有研究鲜有围绕气象因子进行系统的定量分析和评价。本研究通过机器学习分析作物病害高发期的设施环境外在因素的数据特征,进而获得其气象因子数据特征,并根据集中降雨期气象因子与病害发生率之间的数据特征,利用随机森林和梯度下降算法对三七病害高发期气象数据特征进行分析,建立相应的预测模型,以期为降低三七病害的设施环境调控和病害预警提供理论依据和技术支持,也为设施环境智能化管理奠定良好的数据基础。

1 材料与方法

1.1 研究区域概况

昆明理工大学三七控水减排提质增效关键技术研究与示范基地位于云南省红河州泸西县午街铺镇(24°25′N~24°36′N,103°42′E~105°35′E),海拔1 796 m,境内年均气温15.5 ℃,年降水量1 000 mm,每年集中降雨期为6-8月,该时间段为三七病害高发期。全镇为喀斯特地形,属亚热带半湿润季风气候,年日照总数达2 176 h。土壤为燥红土,土层深厚,具有明显的发生层次,其剖面构型为腐殖质层-淀积层-母质层型,pH值为6.3左右。试验田四周以及顶部覆盖2层遮阳网,遮阳率达到65%。三七田共有24垄,每垄长为16.7 m,宽为1.5 m,垄间开有宽和深均为40 cm的排水沟。

1.2 数据采集

非雨季三七病害发生率最高约为10%,而雨季时最高可达60%~80%,因此分别将2018年和2019年的5-9月数据作为三七病害高发期病害发生率、气象因子的总样本。气象因子样本数据每1 h采集 2次,每个气象因子共有7 200个样本,样本数据来源于三七基地安装的1 000型波文比观测系统(图1),包括太阳净辐射(W/m2)、棚内温度(℃)、棚内湿度(%)、棚内土壤热通量(W/m2)、棚内饱和水蒸气压(kPa)、土壤温度(℃)、三七冠层上方温度(℃)、三七冠层上方湿度(%)、三七冠层上方土壤热通量(W/m2)和三七冠层上方饱和水蒸气压(kPa)。三七高发期病害发生率在试验基地中随机选取30 个1 m×1 m的区域进行统计,每5 d统计1次,共计300个,每个区域的病害发生率为该区域发病植株数与总植株数之比,未实际统计的病害发生率由参数估计补齐,补齐后共计7 200个。随机选取全部样本的75%作为训练集,将全部样本所剩的25%作为测试集。

1.信号采集系统 2.冠层上方温湿度、土壤热通量、饱和水蒸气压传感器 3.太阳净辐射传感器 4.风速与风向传感器 5.棚内温湿度、土壤热通量、饱和水蒸气压传感器 6.土壤温度传感器埋于试验地地下

1.3 研究方法

1.3.1 三七病害与气象因子的关系与研究方法

雨季会使太阳净辐射受到负向影响,太阳净辐射会直接影响到三七的生理反应从而间接导致三七病害发生。土壤热通量日间主要受太阳辐射量的影响,夜间主要受环境温度的影响,晴天主要受云量、土壤湿度影响,雨天主要受土壤温度梯度的影响[28]。土壤热通量的大小以及正负转变直接影响着土壤热量的收支,影响着植物根系的生长和呼吸,以及对营养物质和水分的吸收,影响着土壤水分的蒸发和呼吸[29],这关系到植物的发病与否。空气温度的变化,对蒸发和凝结有重要影响,高温时饱和水蒸气压显著增大,空气中所能容纳的水汽含量增多,使原来已处于饱和状态的蒸发面因为温度升高而变为不饱和状态,蒸发重新出现;相反,如果降低饱和空气的温度会导致饱和水蒸气压减小,就会有多余的水汽凝结出来[30],而饱和水蒸气压的变化会影响着田间空气湿度的变化,间接的影响三七病害发生。

本试验数据为连续性、非线性变量,在机器学习的诸多预测解释变量算法中,随机森林擅长处理此类型数据且能较好的容忍异常值和噪声,能生成多个分类器模型,各自独立地学习和做出预测,最后结合成单预测,优于任何一个单分类的做出预测,具有相对高效而准确的优点[31-34],故而选用随机森林算法进行模型训练。

1.3.2 数据清洗

1)通过函数转化(对数函数,幂函数、皮尔曲线等)实现各气象因子的线性化。为了不影响预测模型的精准度,提高模型应对突发气象导致数据震荡的能力,增加其泛化能力,本试验中未将三七病害高发期边界月份(5月和9月)的气象因子和三七病害发生率的数据作为噪点删除。

2)通过对特征向量的统计属性、累积密度函数等进行归一化处理,将每个气象因子进行1次标准归一化,以使不同气象因子间的量纲等价,且每个维度均服从均值为0、方差为1的正态分布。从而避免了在研究不同气象因子对三七病害发生率的影响程度时,因每个气象因子的量纲差异过大,而导致气象因子对三七病害发生率影响权重评估不精确的问题。标准归一化定义如式(1)所示:

参考相关研究成果[4-8,28-30],分别建立棚内湿度和土壤温度、三七冠层上方的土壤热通量和棚内土壤热通量与三七病害发生率的关系,将其归一化后投影获得三七病害高发期(5-9月)病害发生率空间分布(图2)。由图2可知,病害发生率较高的棚内湿度集中分布在−1.5%~1%的区间内,土壤温度集中分布在−2~1 ℃的区间内;棚内土壤热通量集中分布在−3~3 W/m2,冠层上方土壤热通量集中分布在−2~2 W/m2的区间内。但仍有较多的低病害发生率样本数据分布在上述区间内,三七病害发生率在气象因子的空间投影上具有重叠性,这说明通过将标准归一化后的样本投影是不能够合理地解释三七病害与气象因子之间的具体关系,因此需引入机器学习构建模型。

图2 三七病害高发期(5—9月)病害发生率与各气象因子间的空间分布关系

1.3.3 模型构建流程

因无法直接判断试验样本中气象因子与三七病害发生率之间是否存在多元共线性的问题,随机森林对多元共线性并不敏感,为此首先进行主效应分析(Principal Components Analysis, PCA),为获得不同气象因子间的皮尔逊相关系数的大小,将任意一个指标(气象因子或病害发生率)记为变量,将另一任意指标记为变量进行PCA处理,重复该步骤直至获得所有指标两两之间的皮尔逊相关系数为止。计算式为

式中Cov(,)为与的协方差,Var()为的方差,Var()为的方差。

通过主效应分析后,通过皮尔逊相关系数的大小可以反应出不同气象因子对三七病害影响的权重大小,是否有高度共线性关系以及不同气象因子间的共线性程度,皮尔逊相关系数(,)的取值范围为[−1,1],取值在(0,1]间表示取值越大正相关性越强,取值在[−1,0)间取值越小负相关性越大,0值表示无相关。

其次,本试验随机森林的最大节点数、最大树深度、最小子节点数、模型数量分别选取为1 000、10、5和100,通过自助法(bootstrap)从训练集中有放回的采样得到构建100棵树所需的100个子集,即100个子模型,每个模型目标函数()如式(3)所示:

式中为样本个数,(θ)为第个的三七样本的森林随机模型预测值,y为第个的三七样本的真实病害发生率。

每次未被抽到的数据称为袋外数据(Out-Of-Bag,OOB),基于100个子集,训练无剪枝的决策树模型,用来进行内部误差估计和特征变量重要性评价。生成每棵树时,从规模为 10的特征变量集中随机选择 5个变量,对于回归分析,本研究采用均方差作为节点分裂标准,递归执行选取最优分枝的操作,最终获得一个最佳的随机森林模型输出。其评价指标为均方根误差(Root Mean Square Error, RMSE),RMSE的数值大小来衡量观测值同真值之间的偏差,其范围为[0,+∞),当预测三七病害发生率与真实三七病害发生率完全吻合时RMSE=0,误差越大时该值越大,RMSE计算如式(4)所示:

式中(θ)为第个的三七样本的森林随机模型最佳预测值。

模型的泛化误差可以解释为由偏差和方差引起,而随机森林算法只能有效降低方差而不能有效降低偏差,为进一步保证预测模型的可靠性和稳定性,所以引入集成学习的概念如式(5)所示:

式中最终预测模型F()由100个随机森林基础学习模型机模型线性组合而成,f(θ)为第个随机森林基础学习机模型,α为第个随机森林基础学习机模型的权重,因每个随机森林模型的本质是降低方差,故所有权重α记为1(=1,2,…,100)为随机森林模型,θ为系数项。

本试验中的集成学习是将随机森林作为基础学习机模型,通过随机森林将众多决策树并行训练,得到一个方差较小的基础学习机模型。因梯度下降算法普遍用于求解机器学习算法的模型参数问题,是模型优化的主要方法[35],通过主效应分析和随机森林拟合已经将数据降维,使训练集样本量和模型复杂度相匹配,训练集和测试集的特征分布均匀,这使得数据特征与梯度下降算法更加匹配[36],所以利用梯度下降算法在随机森林训练的模型基础上,进一步优化模型,降低模型偏差。梯度下降算法的学习率为0.01,迭代次数为400次。定义模型训练的目标函数,采用平方误差函数如式(6)所示:

然后根据梯度下降算法,对第个随机森林模型,计算目标函数关于F-1()的负梯度,作为第个随机森林模型的目标函数值,其计算如式(7)所示:

模型构建流程的平台环境为处理器为英特尔酷睿i7-9 700K,频率为3.60 GHz;Windows 10 专业版(64位);编程软件为Python3.6;编译器为Pycharm。

2 结果与分析

2.1 气象因子与病害发生率的皮尔逊相关系数

通过计算训练集中不同气象因子间、不同气象因子与三七病害发生率间的皮尔逊相关系数,并将计算结果可视化,得出不同指标之间的皮尔逊相关系数热力图(图3)。由图3可知,土壤温度、棚内湿度、棚内土壤热通量和三七冠层上方土壤热通量4个气象因子,对三七病害高发期的病害发生率影响较显著。其中,土壤温度和棚内湿度与病害发生率呈正相关,其皮尔逊相关系数分别位于[0.50,0.75)、[0.25,0.50);棚内土壤热通量和三七冠层上方土壤热通量与病害发生率呈负相关,其皮尔逊相关系数分别位于[−0.5,−0.25)、[−0.75,−0.5)。本研究中所采用的特征向量均为气温及气温基础上的统计量,与前人研究的试验结论相呼应,土壤温度、棚内湿度与王勇等[6]、陈昱君等[7]、陈得文[37]研究结果一致,温度是影响三七病害发生率最主要的因子,这可能是土壤温度变高会影响土壤中微生物种群结构变化,间接诱导三七发病[10],同时土壤温度变化会影响土壤呼吸,而土壤呼吸又会影响三七根系的生理作用和营养物质传输;温度变高会加强土壤中病原菌的传病性,三七病害高发期土壤处于高湿高温状态,降雨又会导致土壤孔隙变小,从而不利于气体、营养物质和微生物代谢物的交换、吸收与利用,进而导致三七发病。棚内湿度与三七病害发生率呈正相关,这可能是由于棚内空气相对湿度较大时,三七蒸腾作用弱,导致三七叶片气孔关闭,植物运输营养物质能力下降,空气相对湿度对三七蒸腾作用的影响间接影响土壤干湿交替,不利于水肥利用。同时,空气相对湿度较大时,有利于三七致病病菌的繁殖。

图3 三七病害高发期病害发生率与各气象因子间皮尔逊相关系数热力图

2.2 三七病害高发期病害发生率预测模型

2.2.1 随机森林的预测模型构建

通过训练集完成随机森林模型训练后,将测试集用于验证其习得模型性能,试验结果表明,RMSE为0.23,与真实值间的误差较小,表示模型拟合较好,预测效果可以被信赖,由模型预测的三七病害高发期病害发生率如表1所示。其中,置信下限存在负值,表示负值越大,预测三七发病的可能性越低,从而将负值部分取倒数的绝对值后记为正值病害发生率,置信上限存在>100%的情况,病害发生率超出100%越多,表示预测三七发病的可能性越大,故将其记为100%。由表1可知,预测病害发生率在[5, 25)区间的频率<500次,而预测病害发生率在[60, 80)区间的频率>1 500次,这与三七病植株病害从侵入期到高发期感染其他植株的速度呈指数增长的现象一致。

表1 三七病害高发期病害发生率的预测

注:频率表示预测病株在所属病害发生率区间的发病次数。

Note:Frequency represents the incidence frequency of the predicted diseased plants in their incidence interval.

2.2.2预测模型优化

为进一步保证预测模型具有可靠的预测能力,减少迭代次数,优化随机森林预测模型不能降低偏差的问题,提高模型预测的准确性与稳定性,故选择梯度下降算法对随机森林所构建的模型进行优化。将随机森林的每个输出模型导入梯度下降算法,迭代次(=200)至代价函数收敛(图4),此时可得使代价函数收敛的系数项值,此时代价函数(0,1,…, θ)值为241.003,即优化后模型预测的三七病害发生率与三七真实病害发生率间相差1.5%。标准归一化后各气象因子的系数(1、2、3、4、5、6、7、8、9和10)称为权重,用于衡量各气象因子对于病害发生率影响程度的大小,将通过梯度下降算法的集合学习的预测函数计算输出结果()即预测数学表达式表示,即:

式中1为太阳净辐射,2为三七棚内温度,3为三七棚内湿度,4为三七棚内土壤热通量,5为土壤温度,6为三七冠层上方的温度,7为三七冠层上方的湿度,8为三七冠层上方的土壤热通量,9为棚内的饱和水蒸气压,10为三七冠层上方的饱和水蒸气压。1~10均为归一化后的无量纲值。

由该数学表达式可知,与三七病害高发期病害发生率呈正相关的气象因子的相关程度(权重)大小依次为土壤温度(21.686)、三七棚内湿度(4.049)、三七冠层上方湿度(3.947)、三七冠层上方温度(2.210)、三七冠层上方饱和水蒸气压(1.818)、棚内饱和水蒸气压(0.877)、三七棚内温度(1.398)、太阳净辐射(0.327),土壤温度影响程度远远大于其他正相关的气象因子。

与三七病害高发期病害发生率呈负相关的气象因子的相关程度(权重)大小依次为三七冠层上方的土壤热通量(−13.834)、三七棚内土壤热通量(−0.987),三七冠层上方的土壤热通量负相关程度远远大于三七棚内的土壤热通量,整体而言对于三七病害高发期病害发生率影响最大的气象因子为土壤温度。

对于各气象因子对三七病害高发期病害发生率的影响而言,将预测模型计算出的权重与主效应分析所得的皮尔逊相关系数进行对比,两者分析结果一致。本试验将气象因子与三七病害发生率联系起来并进行预测模型训练,所采用的方法与传统上建立单个或多个气象因子回归方程[38-41]的预报方法有明显区别,所构建模型能够较好地预测三七病害高发期病害发生率变化规律,这为定性、定量分析气象因子病害与三七病害之间的关系以及三七病害高发期的病害预测提供了较优的思路和方法。

图4 代价函数与迭代次数间的关系

3 结 论

1)通过随机森林初步构建的预测模型,通过梯度下降对改模型进行优化,代价函数收敛时值为241.003。

此时预测病害发生率在[5, 25)区间的频率<500次,而预测病害发生率在[60, 80)区间的频率>1 500次,这与三七病植株病害从侵入期到高发期感染其他植株的速度呈指数增长的现象一致。

2)模型优化后的预测病害发生率与三七真实病害发生率间相差1.5 %,三七病害高发期的病害发生率与土壤温度、棚内湿度、棚内、冠层上方土壤热通量等气象因子密切相关,其中土壤温度正相关程度最大,其权重为21.686,三七冠层上方的土壤热通量负相关程度最大,其权重为−13.834。

3)对于各气象因子对三七病害高发期的病害发生率的影响而言,将最终得到的预测模型与主效应分析所得的皮尔逊相关系数进行对比,两者的分析结果一致。

[1]周家明,崔秀明,曾鸿超,等. 三七茎叶的综合开发利用[J]. 现代中药研究与实践,2009,23(3):32-34.

Zhou Jiaming, Cui Xiuming, Zeng Hongchao, et al. Comprehensive development and utilization of the stems and leaves of[J]. Research and Practice on Chinese Medicines, 2009, 23(3): 32-34. (in Chinese with English abstract)

[2]范艳霞. 夏季草坪主要病害的识别与防治[J]. 现代园艺,2009(6):39.

Fan Yanxia. Identification and control of main diseases of summer lawn[J]. Xiandai Horticulture, 2009(6): 39. (in Chinese with English abstract)

[3]张连娟,高月,董林林,等. 三七主要病害及其防治策略[J]. 世界科学技术:中医药现代化,2017,19(10):1635-1640.

Zhang Lianjuan, Gao Yue, Dong Linlin, et al. Major diseases ofand their control strategies[J]. Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology, 2017, 19(10): 1635-1640. (in Chinese with English abstract)

[4]邓强辉,潘晓华,石庆华. 作物冠层温度的研究进展[J]. 生态学杂志,2009,28(6):1162-1165.

Deng Qianghui, Pan Xiaohua, Shi Qinghua. Research advances on crop canopy temperature[J]. Chinese Journal of Ecology, 2009, 28(6): 1162-1165. (in Chinese with English abstract)

[5]杨静,施竹凤,高东,等. 生物多样性控制作物病害研究进展[J]. 遗传,2012,34(11):1390-1398.

Yang Jing, Shi Zhufeng, Gao Dong, et al. Mechanism on biodiversity managing crop diseases[J]. Hereditas, 2012, 34(11): 1390-1398. (in Chinese with English abstract)

[6]王勇,刘云芝,陈昱君,等. 三七黑斑病的研究[J]. 人参研究,2005(3):42-45.

Wang Yong, Liu Yunzhi, Chen Yujun, et al. Research onblack spot[J]. Ginseng Research, 2005(3): 42-45. (in Chinese with English abstract)

[7]陈昱君,王勇,刘芸芝,等. 三七黑斑病发生规律调查研究[J]. 中国中药杂志,2005(7):557-558.

Chen Yujun, Wang Yong, Liu Yunzhi, et al. Investigation on the occurrence regularity ofblack spot[J]. China Journal of Chinese Materia Medica, 2005(7): 557-558. (in Chinese with English abstract)

[8]王勇,陈昱君,周家明. 三七黑斑病田间发生规律调查初报[J]. 中药材,2000(11):671-672.

Wang Yong, Chen Yujun, Zhou Jiaming. Preliminary investigation on the occurrence regularity ofblack spot[J]. Journal of Chinese Medicinal Materials, 2000(11): 671-672. (in Chinese with English abstract)

[9]刘云芝,王勇,孙玉琴,等. 三七皱缩型病毒病发生规律调查研究[J]. 现代农业科技,2015(14):105-106,109.

Liu Yunzhi, Wang Yong, Sun Yuqin, et al. Research on occurrent regularity ofshrinking virus disease[J]. Modern Agricultural Science and Technology, 2015(14): 105-106, 109. (in Chinese with English abstract)

[10]官会林,杨建忠,陈煜君,等. 三七设施栽培根际微生物菌群变化及其与三七根腐病的相关性研究[J]. 土壤,2010,42(3):378-384.

Guan Huilin, Yang Jianzhong, Chen Yujun, et al. Change of rhizospheric microbe colony in cultivated soil and its correlation to root rot disease in[J]. Soils, 2010, 42(3): 378-384. (in Chinese with English abstract)

[11]杨欢,刘学录. 基于分形理论的云南红河县景观斑块尺度效应[J]. 生态学杂志,2015,34(9):2636-2644.

Yang Huan, Liu Xuelu. Landscape patch scale effect based on fractal theory in Honghe county of Yunnan province[J]. Chinese Journal of Ecology, 2015, 34(9): 2636-2644. (in Chinese with English abstract)

[12]Bottou L, Curtis F E, Nocedal J. Optimization methods for large-scale machine learning[J]. Siam Review. 2018, 60(2): 223-311.

[13]Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.

[14]Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140.

[15]Ho T K. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(8): 832-844.

[16]Kebede S, Travi Y, Alemayehu T, et al. Groundwater recharge, circulation and geochemical evolution in the source region of the Blue Nile River, Ethiopia[J]. Applied Geochemistry, 2005, 20(9): 1658-1676.

[17]张文彤,董伟. SPSS 统计分析高级教程[M]. 北京:高等教育出版社,2013.

[18]Chen Xuewen, Liu Mei. Prediction of protein-Protein interactions using random decision forest framework[J]. Bioinformatics, 2005, 21(24): 4394-4400.

[19]Pang H, Datta D, Zhao Hongyu. Pathway analysis using random forests with bivariate node-split for survival outcomes[J]. Bioinformatics, 2010, 26(2): 250-258.

[20]Ward M, Pajevic S, Dreyfuss J, et al. Short-term prediction of mortality in patients with systemic lupus erythematosus: Classification of outcomes using random forests[J]. Arthritis and Rheumatism, 2006, 55(1): 74-80.

[21]Kim S H, Lee J H, Ko B, et al. X-ray image classification using random forests with local binary patterns[C] // In proceedings of the 9thInternational Conference on Machine Learning and Cybernetics, Qingdao, China, 2010.

[22]Ying Weiyun, Li Xiu, Xie Yaya, et al. Preventing customer churn by using random forests modeling[C] // In proceedings of the 7thIEEE international Conference on Information Reuse and Integration. Las Vegas, USA, 2008.

[23]Xie Yaya, Li Xiu, Ngai E, et al. Customer churn prediction using improved balanced random forests[J]. Expert Systems with Applications, 2009, 36(3): 5445-5449.

[24]方匡南,朱建平. 基于随机森林方法的基金超额收益方向预测与交易策略研究[J]. 经济经纬,2010(2):61-65.

Fang Kuangnan, Zhu Jianping. Research on the direction prediction and trading strategy of fund excess return based on stochastic forest method[J]. Economic Survey, 2010(2): 61-65. (in Chinese with English abstract)

[25]Nesterov Y. Introductory lectures on convex optimization: A basic course[M]. Boston: Kluwer Academic. 2004.

[26]赵世林. 网络大数据驱动的应用程序智能分类与识别[D]. 深圳:中国科学院深圳先进技术研究院,2020.

Zhao Shilin. Intelligent Classification and Recognition of Applications Driven by Network Big Data[D]. Shenzhen: Shenzhen Institutes of Advanced Technology Chinese Academy of Sciences, 2020. (in Chinese with English abstract)

[27]关毅铬,程敏熙. 基于Python和梯度下降算法的物理实验数据一元线性拟合方法[J]. 物理通报,2019(10):92-96.

Guan Yige, Chen Minxi. Linear fitting method of unitary about physical experimental data based on Python and gradient descent algorithm[J]. Physics Bulletin, 2019(10): 92-96. (in Chinese with English abstract)

[28]陆一凡,李勇,王如竹. 上海地区夏季地表热通量特征及其影响因素[J]. 上海交通大学学报,2019,53(8):891-897.

Lu Yifan, Li Yong, Wang Ruzhu. Characteristics of surface heat flux in Shanghai during summer and its influencing factors[J]. Journal of Shanghai Jiaotong University, 2019, 53(8): 891-897. (in Chinese with English abstract)

[29]张宏,胡波,刘广仁,等. 中国土壤热通量的时空分布特征研究[J]. 气候与环境研究,2012,17(5):515-522.

Zhang Hong, Hu Bo, Liu Guangren, et al. Temporal and spatial characteristics of soil heat flux in China[J]. Climatic and Environmental Research, 2012, 17(5): 515-522. (in Chinese with English abstract)

[30]罗丽,王晓蕾,余鹏. 饱和水汽压计算公式的比较研究[J]. 气象水文海洋仪器,2003(4):24-27.

Luo Li, Wang Xiaolei, Yu Peng. Comparative study on calculation formulas of saturated water vapor pressure[J]. Meteorological, Hydrological and Marine Instruments, 2003(4): 24-27. (in Chinese with English abstract)

[31]方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3):32-38.

Fang Kuangnan, Wu Jianbin, Zhu Jianping, et al. A review of technologies on random forests[J]. Statistics & Information Forum, 2011, 26(3): 32-38. (in Chinese with English abstract)

[32]Tavish S. Introduction to random forest–simplified[R]. Madras: Analytics Vidhya, 2014.

[33]Cutler D R, Edwards T C, Beard K H, et al. Random forests for classification in ecology[J]. Ecology, 2007, 88: 2783-2792.

[34]Genuer R, Poggi J M, Christime T M. Variable selection using random forests[J]. Pattern Recognition Letters, 2010, 31(14): 2225-2236.

[35]王邵鹏. 基于深度学习的广告点击预测研究[D]. 西安:西安科技大学,2019.

Wang Shaopeng. Research on Advertising Click Prediction Based on Deep Learning[D]. Xi’an: Xi’an University of Science and Technology, 2019. (in Chinese with English abstract)

[36]张晓东. 基于LSTM深度神经网络的金融风险控制模型设计与实现[D]. 北京:中国地质大学,2020.

Zhang Xiaodong. The Design and Implementation of Financial Risk Control Model Based on LSTM Deep Neural Network[D]. Beijing: China University of Geosciences, 2020. (in Chinese with English abstract)

[37]陈得文. 避雨模式下微气候因子对‘阳光玫瑰’葡萄生长发育的影响研究[D]. 重庆:西南大学,2019.

Chen Dewen. Effects of Microclimate Factors on The Growth and Development of ‘Shine-Muscat’ Grape in Rain-Proof Mode[D]. Chongqing: Southwest University, 2019. (in Chinese with English abstract)

[38]王佛生,赵菊莲,胡景平,等. 陇东黄土高原苹果锈病发病条件及预测预报研究[J]. 中国果树,2014(1):50-53.

Wang Fosheng, Zhao Julian, Hu Jingping, et al. Study on the incidence and prediction of apple rust in Longdong Loess Plateau[J]. China Fruits, 2014(1): 50-53. (in Chinese with English abstract)

[39]王华弟,沈颖,赵敏,等. 水稻白叶枯病发生危害损失动态与模型预测的探讨[J]. 中国植保导刊,2016,36(4):40-44.

Wang Huadi, Shen Ying, Zhao Min, et al. Occurrence and loss dynamics for rice bacterial leaf blight and its forecast model[J]. China Plant Protection, 2016, 36(4): 40-44. (in Chinese with English abstract)

[40]黄双萍,齐龙,马旭,等. 基于高光谱成像的水稻穗瘟病害程度分级方法[J]. 农业工程学报,2015,31(1):212-219.

Huang Shuangping, Qi Long, Ma Xu, et al. Grading method of rice panicle blast severity based on hyperspectral image[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(1): 212-219. (in Chinese with English abstract)

[41]李德,陈文涛,乐章燕,等. 基于随机森林算法和气象因子的砀山酥梨始花期预报[J]. 农业工程学报,2020,36(12):143-151.

Li De, Chen Wentao, Le Zhangyan, et al. Forecast method for the first flowering date of Dangshansu pear based on random forest algorithm and meteorological factors[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 143-151. (in Chinese with English abstract)

Prediction ofincidence rate based on meteorological factors in the high disease incidence period

Xiong Kai1, Yang Qiliang1※, Yang Chunxi2, Liu Xiaogang1, Han Huanhao1, Zhou Ping1

(1,650500,;2.,650500,)

Predicting the incidence rate accurately is an important basis for responding todisease in advance and improving yield and quality. The study used field meteorological data and incidence data in theplanting base in Honghe prefecture, Yunnan province from 2018 to 2019, and used the Principal Components Analysis (PCA) to avoid the occurrence of multiple collinearities. The weather data set from May to September each year was used as the training set validation set, and the Random Forest (RF) algorithm was used as the basic learning machine to construct the preliminary prediction model, and finally, the Gradient Descent (GD) algorithm was used for optimization. The results showed that 1) The incidence ofdisease in the high-incidence period was mainly related to soil temperature, humidity in the shed, and soil heat flux in the shed and above the canopy. The PCA avoided the problem of the multicollinearity and obtained the Pearson correlation coefficient between the indicators, among them, the soil temperature and humidity in the shed were positively related to the incidence rate, and their Pearson correlation coefficient were both between 0.25 and 0.75; the soil heat flux in the shed and the soil heat flux abovecanopy were negatively correlated with the incidence rate, and their Pearson correlation coefficient were both between -0.75 and -0.25. 2) Random forest predicted that the frequency of 35% of the incidence rate in the high-incidence period was relatively low, while the frequency of the incidence rate was between 60% and 80%. The phenomenon of infecting other plants at an exponential growth rate was consistent, and all fall within the confidence interval. The root mean square error value of the evaluation index used by random forest was 0.230, and the prediction effect could be trusted. 3) Through GD optimization, the cost function convergence time value was 241.03, the difference between the predicted incidence rate ofand the actual incidence rate was 1.5%, and the weight of the impact of each meteorological factor on the incidence rate ofdisease in the high-incidence period was obtained. Where the maximum degree of the positive correlation between soil temperature, weight was 21.686, soil heat flux thirty-seven canopy above the negative correlation between the degree of the largest weight was -13.834. 4) Regarding the impact of various meteorological factors on the incidence rate of thedisease in the high incidence period, the final prediction model was compared with the PCA obtained from the main effect analysis, and the analysis results of the two were consistent. The research results have reliable predictive capabilities in disease prediction, could provide theoretical basis and technical support for facility environmental regulation and intelligent management to reducedisease.

disease; models; traditional Chinese medicinal materials; random forest; gradient descent;; weather factors

熊凯,杨启良,杨春曦,等. 基于病害高发期气象因子的三七病害发生率预测[J]. 农业工程学报,2020,36(24):170-176.doi:10.11975/j.issn.1002-6819.2020.24.020 http://www.tcsae.org

Xiong Kai, Yang Qiliang, Yang Chunxi, et al. Prediction ofincidence rate based on meteorological factors in the high disease incidence period[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 170-176. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.24.020 http://www.tcsae.org

2020-09-14

2020-10-16

国家自然科学基金(51779113,51979134)

熊凯,主要从事农业智能技术研究。Email:851180686@qq.com

杨启良,博士,教授,主要从事高新技术在农业工程中的应用研究。Email:yangqilianglovena@163.com

10.11975/j.issn.1002-6819.2020.24.020

S431

A

1002-6819(2020)-24-0170-07

猜你喜欢

冠层通量气象
密度与行距配置对向日葵冠层结构及光合特性的影响
功能性微肽通量发现和功能验证的研究进展
气象树
冬小麦田N2O通量研究
不同灌溉条件下一个春小麦重组自交系(RIL)冠层温度与产量性状的相关性
基于激光雷达的树形靶标冠层叶面积探测模型研究
《内蒙古气象》征稿简则
深圳率先开展碳通量监测
重庆山地通量观测及其不同时间尺度变化特征分析
密度与播期互作下棉花冠层PAR时空特征分析