褐飞虱诱导的水稻冠层热图像温度特征变异评估方法
2020-07-07刘又夫肖德琴刘亚兰钟伯平周志艳
刘又夫 肖德琴 刘亚兰 钟伯平 周志艳
(1.华南农业大学广东省农业航空应用工程技术研究中心,广州510642;2.国家精准农业航空施药技术国际联合研究中心,广州510642;3.华南农业大学数学与信息学院,广州510642;4.华南农业大学资源环境学院,广州510642)
0 引言
水稻是主要粮食作物之一,约占粮食总产量的30%[1]。稻飞虱是水稻生产中危害最为严重的害虫之一,每年都会造成水稻产量的巨大损失[2]。因此,稻飞虱早期监测研究对精准用药和早期防治具有重要意义。
目前,对虫害的检测方法主要有光谱检测法、图像识别法和电子鼻检测法等。光谱检测法通过检测水稻冠层的光谱特征来判断是否存在病虫害[3]。图像识别法通过获取受害作物的图像,结合图像处理、分类识别、深度学习等方法[4]进行病虫害识别。电子鼻检测法通过检测受害水稻的气体挥发物进行判别[5]。
上述虫害检测方法中,冠层温度特征是作物虫害识别的重要指标之一[6]。水稻与自身周围的病虫害存在着复杂的相互作用[7],在受到病虫害侵害时,水稻会出现一系列生理变化[8-10]。其中,气孔导度变化会引起其冠层蒸腾作用强度的改变,从而改变水稻的冠层表面温度[11]。
红外热成像技术具有非接触、远程以及无损[12-14]等优点,因此可用于监测水稻生长过程中的冠层温度变化情况[15]。目前,基于红外热成像技术的农业应用研究主要以旱地作物为主[16-18],通常仅讨论了同时刻下健康组与胁迫组的温度特征变化,鲜有与气象因子相结合进行分析。此外,作物冠层的温度特征会受气象因子的影响,仅用单一温度对作物状态进行评估,需要在同一时刻下设置健康作物作为参照,并进行差异性分析[19-22],该方式在实际生产中的可操作性不强。
为寻求水稻被褐飞虱侵害后冠层温度特征的有效评估方法,本文以褐飞虱易感水稻品种“TN1”为研究对象,运用热红外成像技术获取健康水稻与受侵害水稻的冠层温度特征,使用机器学习分类器,对褐飞虱诱导的水稻冠层热图像温度特征变异评估方法进行研究,以期为稻飞虱虫害的机器监测技术提供参考。
1 材料和方法
1.1 试验地点及研究对象
试验地点为广东省广州市华南农业大学岑村校内农场。水稻品种为“TN1”(稻飞虱易感品种)。稻种经过选种催芽后,将露白的种子种在12 个混有有机肥的土壤盆栽中进行培育,待水稻长到苗期进行试验。选择长势接近的8 盆稻苗用作试验,分成2 个处理,每个处理4 次重复,即:4 盆作为褐飞虱侵害胁迫组,4 盆作为健康对照组。
褐飞虱来自广东省农业科学院植物保护研究所,虫源放置在种植好的TN1 水稻上进行培养扩繁,取3 龄左右的褐飞虱用于试验,胁迫组平均每株水稻接种褐飞虱5 ~6 头。
胁迫组的水稻与对照组的水稻分开放置,并分别用网罩罩住,以防褐飞虱逃逸及交叉影响。试验期间,胁迫组与对照组采用相同的水肥管理方式,以保证胁迫组与对照组水稻的含水状态一致。
1.2 仪器设备
热图像采集仪器与温湿度、水温采集试验仪器如图1 所示。热像仪和温湿度传感器的仪器参数如表1 所示。
图1 试验仪器设备Fig.1 Test equipments
T400 型热像仪为美国FILR 公司生产,拥有可视化界面、自动定时拍摄功能。COGO SMTDOG280型温湿度传感器为北京安嵌科贸有限公司生产,拥有GPRS 数据上传模块与过热过冷报警模块。
表1 仪器参数Tab.1 Instruments parameter values
1.3 数据采集
采用T400 型热像仪采集水稻冠层的热红外正射图像,同时使用COGO SMTDOG280 型温湿度传感器实时进行环境温度、相对湿度以及水稻灌溉水层水温的采集。热像仪中被测对象发射率的设置参照文献[23]提供的参考值,即水稻冠层的发射率调整为0.98[23]。
数据采集时段为每天09:30—15:00[24],持续采集10 d。热红外图像的采样间隔为5 min,温湿度传感器的采样间隔为30 s,每次采集的对象为空气温度、相对湿度与水稻灌溉水层水温。数据采集方案示意图如图2 所示。
图2 数据采集方案示意图Fig.2 Data acquisition diagram
1.4 数据预处理
数据统计分析处理的软件主要包括Excel 软件、ResearchIR 热红外图像处理软件与Python 3.0。Excel 用于记录数据;ResearchIR 用于提取热红外图像的CSV 文件;Python 3.0 用于批量处理图像并自动提取冠层统计学指标。由于种植密度高,基本看不到水稻冠层间隙中的水和土壤,因此采取框取主要区域的方式进行特征提取。水稻冠层热图像预处理的具体流程如图3 所示。
1.5 热图像特征提取
1.5.1 统计学特征
图3 热图像预处理流程Fig.3 Thermal image preprocessing
褐飞虱侵害水稻时,主要通过刺吸式口器吸食汁液[25],造成植株水分部分流失。因此水稻冠层水分胁迫是褐飞虱危害后的特征之一[26],可通过对水稻热红外图像进行统计学分析,进行水分胁迫情况评估。
热红外技术的本质是把目标对象射出的热辐射场转变为灰度数字矩阵,并添加伪彩处理。作物冠层的灰度数字矩阵的统计学特征可用于判断水分胁迫程度[27-28]。本文通过提取水稻冠层温度极差(Canopy temperature range,CTR)、众 数 频 率(Maximum frequency of canopy temperature,CTM)和变异系数(Canopy temperature coefficient of variation,CTCV)来对褐飞虱的侵害作出评估。相应的统计学特征公式为
式中 ECTCV——CTCV 冠层特征数
N——水稻冠层热红外图像像素点总数量
Ti——水稻冠层热红外图像第i 个像素温度
Tleaf——水稻冠层热红外图像平均温度
ECTR——CTR 冠层特征数
Tmax——水稻冠层热红外图像最大温度
Tmin——水稻冠层热红外图像最小温度
ECTM——CTM 冠层特征数
Tfmax——水稻冠层热红外图像温度众数
在提取CTR 指数时,为了防止极偏差数据的产生,在将数组排列完顺序后,取排于数组的第2.5%和第97.5%位置的数据作极差。
在提取ECTM时,将像素点对应的温度保留一位小数进行统计。
由于统计学特征量纲不统一,为了方便相互之间进行比较,对所有提取结果进行归一化。归一化表达式为
式中 β0——归一化后的统计学特征值
C0——原统计学特征值
Cmax——统计学特征值数据集的最大值
C
min——统计学特征值数据集的最小值
1.5.2 胁迫条件下的统计学特征变化特点
在叶片发生水分胁迫后,其冠层胁迫特征会随之变化[29]。为探究该问题的数学机理,假设一个理想的叶片胁迫模型如图4 所示,叶子表面温度场由有限个离散点的温度代替,其中绿色点代表无胁迫温度,黄色点代表轻度胁迫温度,红色点代表重度胁迫温度。
图4 理想的胁迫过程Fig.4 Ideal stress process
在理想的极端条件下,叶片未受到胁迫时,可假设每个离散点的温度相等,如图4 最左边的全绿色叶片。随着胁迫的加重,黄色点变多,红色点也开始出现。胁迫再加重后,黄色点与红色点逐渐变多,绿色点仅剩下几个。根据上述的变化过程,对应的统计学特征预测变化趋势如表2 所示。
表2 统计学特征变化趋势Tab.2 Trend of statistical characteristics
CTCV 随着温度场的离散程度增大而变大,温度场初始值无离散,因此为CTCV 的初始值(0)。CTR 随着温度场的极端值之差变大而变大,温度场初始值无极端值,或极端值之差为0℃,因此CTR 的初始值也为0℃。CTM 随着温度场的离散程度变大而变小,温度场初始值的众数与温度场离散点的数量一致,因此初始值为1。
1.6 数据分析
1.6.1 累计差值法
累计差值法是将同一时刻下的两组数据作差,再取绝对值作累加。本文采用累计差值法筛选出差异性最大的统计学特征。累计差值法表达式为
式中 A——所有数据统计学特征值的累计差值
n——数据统计学特征值的总组数
βi1——第i 组健康水稻的统计学特征值
βi2——第i 组被侵害水稻的统计学特征值
1.6.2 机器学习分类器
机器学习是一种通过数据集的训练能自动拟合出模型的算法,其本质是一种对真实模型的逼近。在机器学习的监督学习中,数据的分类是重要的任务之一。分类器通过已有的数据集进行训练,其所得到的参数模型可用于判断预测所输入的数据类别,且该类别必须是离散的形式。本文采用逻辑回归(Logistic regression,LR)算法与支持向量机(Support vector machine,SVM)算法拟合褐飞虱的危害评估分类模型。
LR 算法是基于概率思想的算法,其结果是以概率的形式进行判断分类。由于普通感知机模型的变量值范围为正负无穷大,无法给予某种概率的表达,因此LR 算法引入了连续可分的sigmoid 函数,将模型映射成0 到1 的范围。逻辑回归的损失函数是由最大似然估计所推导得出,逻辑回归损失函数J(θ)的表达式为
式中 θ——求解出的一组参数
m——样本的个数
yi——样本i 的真实标签
yθ(xi)——样本i 基于参数θ 所计算出的逻辑回归返回值
xi——样本i 的特征向量
为防止过拟合现象,通过在损失函数后方添加L2 范数来达到优化模型泛化能力的效果。添加了L2 范数的逻辑回归损失函数JL2(θ)表达式为
式中 J(θ)——逻辑回归的原始损失函数
C——控制正则化程度的超参数
k——方程中的特征总数
θj——第j 个参数向量
其中,C 为主要的调参对象,j 为大于等于1 的正整数,因为在参数向量中,第一个参数θ0是截距,通常不参与正则化。
SVM 算法的特点主要体现在核函数以及松弛系数或惩罚系数的使用。SVM 算法的核心思想是在样本空间中寻找出一个可将数据集分离的超平面,同时还要找出满足离超平面距离最近的若干个样本点达到最大化的条件。当该超平面找出后,即可根据该超平面对输入到样本空间的特征向量进行分类。SVM 的损失函数表达式为
式中 w——超平面方向参数向量
b——超平面截距
ϑ——惩罚系数
δi——样本i 的松弛系数,用于衡量容纳错误样本的程度
Φ(xi)——核函数,用于将样本集xi映射于更高纬的空间
式(8)为SVM 的损失函数基本型及其SVM 损失函数的约束条件。惩罚系数ϑ 与核函数Φ(xi)为主要的调参对象。
2 结果与分析
2.1 冠层热图像统计学特征
2.1.1 健康水稻冠层热图像统计学特征趋势
为验证由1.5.2 节提出的冠层热图像统计学特征与胁迫程度的变化关系,先分析健康水稻冠层温度统计学特征的日变化量,在晴朗无云的条件下采集数据,时间段为07:30—18:00。3 种统计学特征数的变化趋势如图5 所示。
图5 统计学特征日变化趋势Fig.5 Statistical eigenvalues trend of daily variation
由图5 可知,从上午到中午期间,胁迫会随着高温高光强而加重,水稻为调节自身的温度,水分供给足够的情况下,在中午时气孔开度会达到最大[30],蒸腾作用最强,3 种特征数在此期间都发生了变化,其中CTR 与CTCV 都呈上升趋势,CTM 呈下降趋势,与前面的假设符合。随后在中午到傍晚期间,随着温度与光强的减弱,环境因素造成的胁迫下降,CTR 与CTCV 都随之下降,CTM 上升,与1.5.2 节提出的假设符合。同时也可知,由于环境温湿度等条件的变化,上述特征也相应发生变化。
2.1.2 统计学特征的累计差值对比
试验过程中共采集了242 组水稻温度冠层特征值数据,每组数据表示的是胁迫组与对照组3 种冠层特征值均值的组合。将采集的数据集使用累计差值法进行分析。某条冠层特征值数据的差值越大,代表该时刻下,健康水稻热图像与受褐飞虱胁迫水稻热图像的冠层统计特征值差异性越大。将某个冠层特征值每条数据的差值进行累加,得到的差值累计值越大,表示该冠层特征值更容易判断出是否有褐飞虱侵害的状态,从而更有利于评估模型的拟合。
数据集的累计差值,CTR 与CTM 分别为25.44、27.23,均低于30,而CTCV 为30.78,说明CTCV 更能反映健康水稻与受侵害水稻的差异性,因此,在后续研究中,重点针对该统计学特征进行分析讨论。
2.2 环境气象因子与CTCV 之间的相关关系
水稻冠层温度会因周围的气象因子变化而变化,因此冠层的统计学特征数也会随之变化,在没有健康水稻作为参照的条件下,很难单纯使用冠层统计学特征数判断褐飞虱的侵害状态,因此进行褐飞虱侵害的评估时应将气象因子也作为特征考虑在内。
水的比热容较大,环境温度变化时,水温的变化较缓慢,因此,引入水稻灌溉水层水温作为参考因子。水温虽然不会影响水稻冠层温度,但水温与气象因子具有一定的关系,有助于模型的拟合。本文采集水稻冠层热图像对应时刻的环境空气温度、相对湿度以及水稻灌溉水层水温,与CTCV 进行相关分析[31]。结果如表3 所示。
由表3 可知,CTCV 与空气温度和水稻灌溉水层水温呈正相关关系,与相对湿度呈负相关关系。三者与CTCV 的皮尔逊系数均高于0.2,其中水温的皮尔逊系数为0.41,在三者中密切程度最高。从表3 可看出,使用传统的线性拟合法建立模型较困难。
表3 相关分析结果Tab.3 Correlation analysis between CTCV and meteorological factors
2.3 基于环境因子与冠层温度特征融合的侵害评估
由上述分析可知,非线性评估模型的拟合应使用CTCV、空气温度、相对湿度以及灌溉水层水温作为特征值进行训练。CTCV 虽然是累计差值中最高的一个特征,但CTR 与CTM 的信息未必全部无效。因此除了单独使用CTCV 进行建模时,也尝试将3种统计学特征一起参与建模进行对比。
采集的数据集正负样本各242 条,按照7:3 的比例设置训练集与测试集,其中正负样本训练数据条数各为169,测试数据条数各为73,健康水稻标签为1,受褐飞虱侵害的水稻标签为0。分别采用LR算法与SVM 算法进行分类,结果如表4 所示。
LR 算法所训练的参数设定为:L2 正则化,最大迭代次数为1 000。SVM 算法所训练的参数设定为:L1 惩罚项,最大迭代次数为1 000。
表4 中,LR 与SVM 算法经过5 折交叉验证法调参后达到了最优值。其中单独CTCV 加气象因子的LR 算法最优正则化系数为766,SVM 算法的最优核函数采用线性内核,惩罚系数为51。其中CTCV、CTR、CTM 加气象因子的LR 算法最优正则化系数为684,SVM 算法的最优核函数采用线性内核,惩罚系数为49。
表4 中,精准率、召回率与F1 综合指标均为测试集的结果。在单独使用CTCV 与气象因子的组合作为输入特征对模型训练拟合时,LR 与SVM 算法的精准率分别为86.61%、84.62%,召回率分别为86.54%、84.62%,F1 综合指标分别为86.37% 与84.62%。而在将所有冠层统计学特征与气象因子组合作为输入拟合模型时,LR 与SVM 算法的精准率 为 87.15%、86.74%,召 回 率 为 86.54%、86.90%,F1 综合指标为86.55%、86.53%。
相比单独使用CTCV 与气象因子的组合,将全部冠层统计学特征用作模型拟合时,SVM 算法的效果有所提升。而2 种组合中LR 算法的精准率与F1综合指标均优于对应的SVM 算法。
表4 虫害评估模型的拟合结果Tab.4 Fitting results of estimate models
3 结论
(1)通过采集从清晨至傍晚的水稻冠层热图像及环境气象数据,证明了气象因子对冠层热图像统计学特征的影响。采用累计差值法筛选出健康水稻与受侵害水稻间差异性最大的统计学特征。在提取的3 个统计学特征中,CTCV 的累计差值为30.78,是最大的特征值,因此CTCV 更能反映健康水稻与受侵害水稻的差异性。
(2)空气温度、水稻灌溉水层水温与CTCV 呈正相关关系,相对湿度与CTCV 呈负相关关系。
(3)基于环境气象因子与冠层热图像温度特征融合的方法,包括:CTCV 与气象因子组合、3 个冠层热图像统计学特征与气象因子组合,采用LR 算法与SVM 算法进行水稻分类及评估,结果表明,LR 算法整体效果优于SVM 算法。在同时使用3 个水稻冠层热图像统计学特征时,SVM 算法的效果有所提升,LR 算法的准确率也有提升。总体而言,将所有冠层统计学特征作为输入向量的LR 算法效果较优,其精准率为87.15%,召回率为86.54%,F1 综合指标为86.55%。
(4)本研究所述的分类及评估方法仍有较大提升空间。从输入特征向量的角度,今后可考虑增加光照强度、风速等气象因子,使输入参量更全面;此外,分类输出只考虑了健康和胁迫2 个类别,缺乏对受侵害程度的评估。