基于椭圆型度量学习的小麦叶部病害识别
2019-01-05鲍文霞张东彦
鲍文霞 赵 健 张东彦 梁 栋
(安徽大学农业生态大数据分析与应用技术国家地方联合工程研究中心, 合肥 230601)
0 引言
农作物病虫害是制约我国农业生产的主要障碍,是影响作物产量的主要因素之一,同时也是限制我国农业优质、高效持续发展的主导因素[1-3]。小麦作为我国的主要粮食作物,其各种病害尤其是白粉病对其产量和质量具有较大的影响[4],针对小麦白粉病,一般通过喷洒农药来进行防治,过量的农药施用导致农产品中残留超标,影响农产品质量;同时,也对环境造成巨大的负担,对人力、财力造成巨大的浪费。为了能正确、适量地使用农药,高效地防治病虫害,需要准确、实时地识别出病害的严重程度[5]。
近年来,图像处理、模式识别等技术被广泛应用于农作物病害识别领域,并取得了显著效果[6-21]。但仍存在一些问题:大多研究针对农作物不同病害的识别,对于农作物病害严重程度的研究相对较少;对于特征提取,大多直接提取颜色、纹理、形状等特征,而没有考虑由于样本图像拍摄视角变化和小麦叶片本身弯曲、倾斜、缺损等而容易造成分类识别率下降的问题;大多采用支持向量机、BP神经网络等方法完成对农作物病害图像的识别,这些传统的机器学习方法的目标函数主要采用欧氏距离的度量方法,它将输入样本空间看成是各向同性的,然而各向同性假设在众多实际应用中不成立,不能准确地反映数据样本维度分量之间的潜在关系。本文在完成病害图像病斑分割的基础上,提出一种基于滑窗最大值(Moving window maximum, MWM)的病斑图像特征提取方法,并且引入对样本数据具有更好适应性的椭圆型度量,提出一种度量学习方法,实现对小麦白粉病严重程度的识别,为农作物叶片病害的严重程度智能识别提供参考。
1 样本采集及特征提取
1.1 样本采集
小麦叶部病害图像样本均在北京市农林科学院试验基地采集。轻度、中度和重度3种严重程度的白粉病叶片图像共210幅。随机选取其中的150幅作为训练样本,另外60幅作为测试样本,具体样本分布见表1。按照病斑面积与整个叶片面积的比值R来界定病害严重程度[21]:0
1.2 病斑分割
病斑分割是农作物叶部病害识别的重要环节,其分割效果对病斑特征提取和病害识别的影响显著。以图2a为例,先将颜色空间转换到Lab空间,通过观察,样本图像a、b分量的灰度直方图存在较明显的两个尖峰,如图3所示,因此利用最大类间方差法计算得到a、b分量灰度阈值分别为114.5和137.5,继而利用阈值分割将样本图像转换为二值图,将得到的a、b分量二值图进行异或运算,接着利用6像素×6像素的方形结构元素对异或后的图像进行先开后闭的图像增强运算,从而实现叶片分割,如图2b所示。
表1 不同严重程度样本分布Tab.1 Sample distribution of different severities
图1 不同严重程度小麦叶片白粉病图像Fig.1 Leaves images of wheat powdery mildew with different severities
在得到叶片分割图像后,分别提取叶片图像的R、G、B分量图,利用超红特征值2R-G-B[21]得到R、G、B分量运算后的超红特征图,接着利用最大类间方差法计算超红特征图的阈值为27.11,利用该阈值对图像进行分割并利用3像素×3像素的方形结构元素对图像进行开运算,将病斑从叶片中分割出来,分割后的病斑图像如图2c所示。
图2 小麦叶片白粉病病斑分割图Fig.2 Leaves images of wheat powdery mildew spot segmentation map
图3 a、b分量灰度直方图Fig.3 Gray histograms of a and b components
1.3 特征提取
在模式识别领域,大量学者通过实验研究证明,利用不同的特征对目标进行描述,往往能够互补从而提高分类结果。颜色特征是小麦叶部病害的一个非常重要的外观特征,也是进行病害诊断时的一个重要依据,颜色直方图是许多植物病害识别系统中被广泛采用的颜色特征,其中HSV空间更符合人眼的主观判断,是直方图最常用的颜色空间,它的3个分量分别代表色彩(Hue,H)、饱和度(Saturation,S)和亮度(Value,V);纹理是能够反映区域内像素灰度级空间的属性,而局部二值模式(Local binary pattern, LBP)常用来描述图像局部纹理特征,具有灰度不变性和旋转不变性等显著优点。
本文利用HSV颜色直方图和LBP统计直方图,针对小麦叶片可能存在弯曲、倾斜、缺损等问题,使用滑窗法来提取病害叶片的MWM局部细节特征。具体地,如图4所示,对于每一幅样本图像(尺寸为880像素×120像素)采用10像素×10像素的子窗口,步长为5个像素扫描整幅图像,在每个子窗口中,将HSV颜色空间量化为512个颜色小区间,每个颜色小区间的直方图代表着其在子窗口中出现的概率,同样地,每个子窗口也提取它的LBP统计直方图特征,对每个子窗口中的某个像素,将相邻的8个像素的灰度值与其进行比较,若周围像素灰度大于中心像素灰度,则该像素点的位置被标记为1,否则为0。这样,3×3邻域内的8个点经比较可产生8位二进制数,将8位二进制数转换为十进制作为该像素点的LBP值,然后计算每个子窗口的直方图,即每个数字出现的频率;再在同一水平高度的子窗口中,取HSV和LBP统计直方图最大的值组成一个新的子窗口,这样,最后得到的特征向量是同一水平高度上统计直方图特征最大化的特征向量。
图4 MWM特征提取过程Fig.4 Process of MWM feature extraction
考虑到多尺度信息,将原图分别缩小1倍和2倍,建立三尺度图像金字塔,同样运用以上方法提取其MWM特征,将缩放后提取的特征组合在一起,构成一个新的特征向量X=(x1,x2,…,xn)T来描述小麦的叶部白粉病。此外,为了消除不同特征向量和向量单位的影响,对数据特征向量X作归一化处理,归一化后的特征向量记为=(1,2,…,n)T,其中
(1)
2 椭圆型度量学习
基于图像处理的农作物病虫害识别方法中对病害图像特征进行距离度量至关重要,然而图像特征受视角、光照等因素的影响不同,常用的欧氏距离、曼哈顿距离等标准的距离度量方法平等地对待每一种特征,而不会剔除那些独立使用时效果很差的特征。因此,本文引入椭圆型度量理论,寻找一种能够反映样本空间结构信息或语义信息的分式线性变换,从而使得椭圆型度量具有更好的区分性。
2.1 椭圆型度量
给定一个可逆对称矩阵Ω∈Rn×n,诱导出x、y的双线性形式为
ω(x,y)=xTΩy(x、y∈Rn)
(2)
式中x、y——样本特征向量
ω——x、y关于Ω的双线性函数
下面统一采用ω(x,y)的简化形式ωxy来表示。当Ω是正定,ωxy可诱导出椭圆型度量几何,令En={x∈Rn:ωxx>0},定义dE:En×En→R+,椭圆型度量计算公式为
(3)
式中dE(x,y)——样本x、y的椭圆型度量
i——虚数单位
ωxx——x、x关于Ω的双线性函数
ωyy——y、y关于Ω的双线性函数
k——曲率半径
2.2 椭圆型度量矩阵
椭圆型度量依赖一个对称矩阵Ω,定义一个正定对称矩阵则可确定一个椭圆型度量,因此称Ω为椭圆型度量矩阵。数据的统计特性在一定程度上反映了样本数据的几何结构,因此可根据样本的类内与类间高斯分布的对数似然比定义椭圆型度量矩阵。
对于特征向量Xi、Xj,它们的样本差异Δ=Xi-Xj,根据二次判别分析法[22],用高斯概率模型来拟合小麦白粉病不同严重度以及相同严重度样本特征之间的差值分布,同类样本差异Δ符合变量ξI的高斯分布,异类样本差异Δ符合变量ξE的高斯分布,即
(4)
(5)
式中P——概率
ξI——同类样本差异拟合变量
ξE——异类样本差异拟合变量
ΣI、ΣE——ξI、ξE差值分布的协方差矩阵
将其进行对数似然比可得
(6)
将其简化为
(7)
由此定义椭圆型度量矩阵Ω为
(8)
2.3 度量学习
经1.3节病害的特征提取,得到的特征维数较高,其中含有与病害识别无关的信息和相关性非常高的冗余信息,而这些信息会影响到分类识别的效果。传统的方法通常先采用主成分分析法(PCA)对高维数据降维,然后在PCA子空间中进行距离度量学习。但是,PCA在进行降维时并未考虑特征间的分类信息,由此可能会增加分类的难度。为了保持最大化的分类信息,在降维的同时学习椭圆型度量矩阵,充分考虑到维数降低对度量学习分类结果的影响。
对初始特征xi、xj∈Rd,通过降维矩阵W∈Rd×r(r (9) 其中 为了将样本分开,使得类内方差小,类间方差大,通过增大方差的距离来增加区分度,对于矩阵W的列向量w,它的方差为σI(w)=wTΣIw,因此可以定义广义瑞利熵来最大化方差之间的比值,为 (10) 使得J(w)最大化等价于 (11) 基于椭圆型度量学习的小麦叶部病害识别算法步骤如下: (1)对采集来的病害图像进行预处理并进行病斑分割。 (3)利用二次判别分析,用高斯概率模型来拟合小麦白粉病不同严重度以及相同严重度样本特征之间的差值分布,分别计算协方差矩阵ΣI、ΣE,通过求解式(11)得到降维矩阵W,相应地由式(9)得到椭圆型度量矩阵Ω(W)。 (4)最后利用特征子空间椭圆型度量dE(x,y)计算测试集和训练集之间的距离,取每个测试样本距离前5个样本的平均距离作为最后的判断依据。 算法流程图如图5所示。 图5 算法流程图Fig.5 Flow chart of algorithm 实验在Matlab 2016b上进行,为了验证基于椭圆型度量学习的小麦叶部病害识别算法的有效性,对提取的MWM特征和分类器分别进行对比实验。 方向梯度直方图(Histogram of oriented gradient, HOG)特征对图像几何和光学形变具有良好的不变性,越来越多的研究者将HOG特征用于农作物病虫害识别上并取得了较好的结果[23-24]。考虑到HOG特征提取方法是在灰度图像上进行的,没有充分利用图像的颜色信息,因此文献[23]结合HOG特征和HSV颜色特征进行植物病虫害的识别;另外,颜色纹理形状特征(Color texture shape features)也是农作物病虫害识别领域常用的图像特征,这里的颜色纹理形状特征特指文献[17,21]中提到的特征描述方法:RGB、HSI和YCbCr颜色空间的颜色成分R、G、B、H、S、I、Y、Cb、Cr的灰度均值作为颜色特征,利用灰度共生矩阵法分别计算病斑区域的对比度、相关性、能量、惯性矩和熵的均值和方差作为纹理特征,计算病斑区域的圆形度、偏心率、形状复杂性和形状参数作为形状特征。 为了验证1.3节所述MWM特征提取方法的有效性,对病斑图像分别提取MWM特征、HSV颜色特征结合HOG特征、HSV特征、LBP特征、HOG特征以及颜色纹理形状特征[17,21],都采用本文椭圆型度量学习对特征进行分类。实验结果利用经典评价指标累积匹配曲线(Cumulative match characteristic,CMC)来表示,CMC曲线表示测试集中所选测试图与目标图第n次成功匹配的概率,实验结果如图6所示。 图6 累积匹配曲线Fig.6 Cumulative match characteristic (CMC) curves 在均使用椭圆型度量学习这一分类器的基础上,可以看出:单一特征(HSV特征、HOG特征和LBP特征)在不同匹配次数上识别正确率各有高低,其中LBP特征在匹配次数为1时识别率虽低于HSV特征与HOG特征,但在其他次数上LBP特征识别率均领先,可以估计当测试样本较多时,LBP特征将具有更好的鲁棒性。融合特征往往比单一的特征描述取得更高的识别正确率,从图6中可以看出,HSV+HOG特征要比单一的HSV、HOG特征识别正确率要高,而在1.3节中提到的MWM特征提取方法(即滑窗最大值法提取HSV特征和LBP特征)也比单一的HSV、LBP特征识别正确率要高。MWM特征提取方法比起HSV+HOG特征、颜色纹理形状特征取得了更好的分类识别正确率。 因此,本文提出的MWM特征提取方法选取了颜色信息丰富的HSV特征和鲁棒性更好的LBP特征作为融合特征来互补共同描述病斑特征,同时提取特征的过程中,最大化了同一水平高度上每个子窗口特征统计直方图的值,在损失少量特征信息的情况下保留了更好的特征信息,有效地去除了特征冗余,有效解决了小麦叶片可能存在弯曲、倾斜、缺损等问题,证明了MWM特征提取方法的有效性。 采用同样的训练样本和测试样本,将提取的MWM特征分别送入SVM分类器、BP神经网络分类器以及椭圆型度量学习分类器进行分类识别,结果如图7~9所示,图中标签1~3分别对应白粉病轻、中、重。对SVM分类器进行交叉验证多次寻优,选择出最优的c、g参数,最终的小麦白粉病轻、中、重3种严重度分类正确率为88.33%。使用BP神经网络时网络参数经过多次试验,选择出最优参数,由于神经网络每次测试结果均存在细微差别,这里使用了多次测试的平均结果,平均识别正确率为90%;采用椭圆型度量学习分类器时识别正确率达到100%。 图7 SVM分类器识别结果Fig.7 SVM classifier 图8 BP神经网络分类器识别结果Fig.8 BP neural network classifier 通过控制变量法,比较了SVM、BP神经网络、椭圆型度量学习分类器的分类性能,椭圆型度量学习分类器取得了更好的识别效果。这是因为比起传统的SVM、BP神经网络,椭圆型度量能够反映特征空间结构信息或语义信息的分式线性变换,对特征具有更好的区分性,能够更好地对特征潜在关系进行建模;在对特征降维的同时考虑了对椭圆型度量学习的影响,因此椭圆型度量学习分类器能达到更高的识别正确率。 图9 椭圆型度量学习分类器识别结果Fig.9 Elliptical metric learning classifier 基于椭圆型度量学习的小麦叶部病害识别算法,提出了一种MWM特征表示方法,同时提出了一种将降维和度量学习同时进行的椭圆型度量学习方法,对小麦白粉病严重度进行分类。通过对不同特征、不同分类器进行对比实验,验证了该方法的有效性,可以满足智能识别小麦白粉病严重度的需求,同时该算法对于农作物病害严重度的识别推广具有较好的借鉴意义。3 算法步骤
4 实验与分析
4.1 不同特征对比实验
4.2 不同分类器对比实验
5 结束语