基于CS-SVM的谷子叶片病害图像识别
2020-03-07张红涛李艺嘉许帅涛
张红涛,李艺嘉,谭 联,许帅涛
(华北水利水电大学 电力学院,河南 郑州 450011)
谷子是我国重要的粮食作物,我国播种面积约占世界播种面积的80%,其产量约占世界总产量的90%[1-2]。谷子在生长发育过程中,因夏季高温多雨的特点容易滋生病虫害,严重影响谷子的生长发育,病害的爆发可造成谷子减产5%~15%[3-4]。因此,成功检测谷子叶片病害对提高谷子产量具有重要意义。目前,针对谷子叶片病害的检测主要有3种方法,分别为人工识别法、聚合酶链式反应(PCR)法、专家系统法[5-7]。人工识别法依照工作人员对谷子病理知识的了解,对谷子叶片病害类型进行判别,但是野外环境条件复杂且部分病害的相似度较高,容易造成谷子叶片病害的错判。PCR检测法是利用分子技术扩增病原菌的基因组,采用荧光定量观察病原菌基因的实时变化,进而判别病害所处时期。目前该方法仅适用于谷子锈病,而且该试验过程复杂,需要大量实验仪器。专家系统是以专家的知识和经验为基础的计算机系统,可对谷子叶片病害的诊断和防治提出相关意见。该系统仅限于判别是否存在谷瘟病,很难将专家的知识和经验用规则进行准确描述。
本研究针对大田中危害严重的4种谷子叶片病害(谷瘟病、白发病、红叶病、锈病),获取其原始图像[8]。运用基于超绿特征的最大类间方差法对谷子叶片病害进行分割,随后对提取的谷子叶片病害进行特征优选, 利用基于布谷鸟优化的支持向量机的方法完成谷子叶片病害的分类判别。该图像识别方法通过区分4种相似病害,为谷子叶片病害的自动检测提供了一种有效的方法,同时也为谷子叶片病害的科学防治提供了理论依据。
1 材料与方法
1.1 图像采集与预处理
选择晴天条件对谷子叶片病害进行拍摄,拍摄时间选择09:00—11:00和15:00—17:00,此时光照条件较为温和,利用遮光板遮挡避免阳光直射。选择带有病害的谷子叶片植株,遮光板对立平行放于目标的上方,将白色背景板紧贴放置于谷子叶片病害的下方,调整好角度后采用手机进行拍摄,此时获取谷子叶片病害图像有利于后期的图像分析处理。为提高图像识别的运行效率,将图像的分辨率由3 024×4 032降低到302×403,其缩放后的谷子叶片病害图像如图1所示。
A,谷瘟病;B,白发病;C,红叶病;D,锈病。下同。A,Millet blast disease; B,White hair disease; C,Red leaf disease; D,Rust disease.The same as below.图1 图像缩放后的谷子病害图像Fig.1 Image of millet disease after image scaling
1.2 谷子叶片病害的图像分割
基于超绿特征(super green feature)的最大类间方差法(OTSU)是一种对超绿图像进行分割的方法。该法增加了绿色通道的权重值,使得绿色分量与其他分量的对比度更加突出,该方法可用于谷子叶片病害的图像分割[9-11]。该分割方法步骤如下:
(1)针对原始图像缩放后的谷子叶片病害图像,提取其对应的3个颜色单通道(R、G、B)图像,超绿图像的定义如公式(1)所示。
Y=2G-R-B。
(1)
式中:Y为超绿图像,R、G、B分别为真彩图像中红、绿、蓝3个颜色通道图像。
(2)对超绿特征图像进行灰度化处理得到灰度图像。任选1个灰度值t1,将该灰度图像分割成Q和S板块,分别对应前景和背景2个部分。各部分对应的灰度值为MQ和MS,对应的像素点所占总像素点的比例部分定义为PQ和PS,M表示谷子叶片病害图像的平均灰度值。
(3)遍历256个图像灰度级,求取背景与前景部分的类间方差大小,其类间方差的定义如公式(2)所示。
σ2(t)=PQ(MQ-M)+PS(MS-M)。
(2)
式中:σ2(t)为类间方差,其类间方差大小表征背景与前景的区分程度。
(4)当满足预设条件时,退出运行。通过比较各方差大小选择最大方差作为最终输出量。该方差所对应的灰度阈值t即为所求的最佳阈值,4种谷子叶片病害的精准分割为后续的特征提取奠定了基础。
1.3 谷子叶片病害的特征提取
通过观察谷子叶片病害图像的特点,发现其颜色特征的区分度较大,不同类型病害的颜色、形状、空间分布特点均有所不同。故试验提取了谷子叶片病害的颜色特征、形态特征、纹理特征等共计19个特征[12-13],用于后续谷子叶片病害的分类识别。
1.3.1 颜色特征
(3)
(4)
(5)
式中:Ek为一阶颜色矩,表征谷子叶片病害图像的明暗度;σk为二阶颜色矩,表征样本图像的颜色分布范围;Sk为三阶颜色矩,表征谷子叶片病害图像的颜色空间分布对称性;N为3种颜色矩的谷子叶片病害图像的像素点总数;Pkj为3个颜色通道k的第j个图像像素值。
1.3.2 纹理特征
1)最大概率
(6)
式中:Pa表征谷子叶片病害基于灰度共生矩阵的最强响应度量,其范围大小在(0,1)间分布,P(i,j)表征任意灰度值i与灰度值j的响应度量情况。
2)能量
(7)
式中:Asm表征灰度图像中纹理部分的均匀程度,其大小与谷子叶片病害纹理的均匀程度成反比。
3)熵
(8)
式中:Ent表征谷子叶片病害图像的复杂程度,其数值越大表征病害纹理越复杂,数值越小表征该图像纹理部分的平滑性较好。
4)对比度
(9)
式中:θ为灰度共生矩阵的生成方向,d为灰度i到灰度j间的距离,Con表征谷子叶片病害图像的辨识程度,其大小决定病害图像空间分布变化情况。
5)相关性
(10)
式中:Corr表征谷子叶片病害图像灰度等级在纵向和横向的相似程度,μx、μy为病害纹理的均值大小,σx、σy为该纹理标准差的大小。
6)平均灰度
(11)
式中:Mean表征谷子叶片病害灰度图像中各灰度值的均匀分布情况,i为任意灰度值,P(i)为病害图像中灰度值出现的概率。
1.3.3 形态特征
1)圆形度
Ca=4πS/L2。
(12)
式中:Ca为圆形度,S为谷子叶片病害图像面积,L为图像的周长。Ca的取值范围满足(0,1),圆形度数值大小越接近1,表征该病害形状越接近圆形。
2)矩形度
Rt=S/Acr。
(13)
式中:Rt为矩形度,S为谷子叶片病害的区域面积,Acr为外接矩形面积。若Rt越大,表征该病害形状越接近矩形。
3)复杂度
St=L2/S。
(14)
式中:St表征谷子叶片病害纹理的复杂情况,L为病害区域周长,S为病害的区域面积。
4)宽长比
Ct=W/Lb。
(15)
式中:Ct为谷子叶片病害区域最小外接矩形宽与长的比值,W、Lb分别为外接矩形的宽度和长度。
1.4 特征优化组合选择
蚁群算法(ant colony algorithm,ACA)模拟蚂蚁的觅食过程,以蚂蚁行走时分泌的信息素为基础,不同蚂蚁个体依据信息素的浓度方向寻找食物源的最优路径[14-15]。试验采用蚁群优化算法为提取的19维特征空间寻找最优的特征组合,通过降低特征空间维度去除多余的冗余信息。
1.5 基于布谷鸟算法的参数寻优
布谷鸟算法(cuckoo search,CS)是一种群智能优化算法,以蚁群算法优化后的8维特征组合作为输入量,该算法基于莱维飞行对降维特征空间的全局最优值进行空间搜索。莱维飞行具有随意性、无规则性、科学性等特点,其飞行轨迹伴随短距离与长距离交替行走的方式完成参数寻优,有效解决了参数寻优过程易陷入局部最优的问题[16-19]。其实现步骤如下:
(1)假设鸟巢数量为n个,初始位置为Xi,i∈[1,n],每个鸟巢位置对应其适应度Fi。比较多个适应度的大小,选择当前最佳适应度Fj的鸟巢作为当前最优鸟巢。
(2)根据莱维飞行对除当前最优解鸟巢外的其他鸟巢进行位置更新操作,获取新的鸟巢位置与适应度。新鸟巢的适应度Fk与当前最优鸟巢的适应度Fj进行比较,若效果较好则替换原先的鸟巢位置。
(3)布谷鸟的鸟巢更新如公式(16)所示,引入随机数r与发现概率Pa进行参数对比。当二者关系满足r>Pa时,随机更新鸟巢位置情况,否则鸟巢位置不发生改变。
(16)
(17)
式中:β的数值大小取1;u、v为高斯分布变量,其大小满足公式(18)、(19)的取值情况。
(18)
(19)
(4)当局部寻优的过程满足其预设条件的搜索精度要求或者达到迭代次数上限,则退出运行,否则返回步骤(3)。
(5)比较运行后各个鸟巢位置的适应度值大小,输出最佳鸟巢位置Xmax。
1.6 支持向量机原理
支持向量机(support vector machine, SVM)是一种基于VC维(vapnikchervonenkis dimension)理论同时以结构风险最小状态为原则的一种机器学习方法。SVM的分类思想是寻找一种最优的超平面,该平面公式满足WTX+b=0,在保证较好区分谷子叶片病害样本的同时,满足其分类的间隔最大[20-22]。由于c、g的选择影响SVM的分类性能,且两参数的取值范围很大,因此,为了提高分类器的识别效率,需要对其参数进行优化。这里选用布谷鸟优化算法对SVM的c、g参数进行寻优操作。
2 结果与分析
2.1 谷子叶片病害的图像分割
试验结果表明,采用公式(1)中超绿特征权重的分割方法会造成谷子叶片病害的错分割和过分割现象。超绿特征参数的调整与谷子叶片病害的类型有关,例如白发病的病害颜色趋近于淡绿色。因此,需要对超绿特征的权重参数进行优化。试验表明,当超绿权重满足公式(20)时,分割效果最好。
EXG=2G-R-B-1.5R+G。
(20)
式中:EXG表示调整权重比例的超绿特征。
图2 基于超绿特征的OTSU分割的谷子叶片病害二值图像Fig.2 Binary image of millet leaf disease by OTSU segmentation based on super green features
采用调整后的超绿权重因子结合连通区域标记法对谷子叶片病害进行分割。利用形态学的图像处理方法,填充病害孔洞,分割处理后的结果如图2所示。4种谷子叶片病害分为2种类型,一种为形状单一且区域集中的病害(如谷瘟病、白发病、红叶病),另一种为排列紧凑且面积较小的锈病。其中,谷瘟病形状呈现纺锤状,白发病与叶脉平行成细长条状分布,红叶病近似长条的矩形状,锈病呈点状分布且数量较多。与图1病害的原始图像进行对照,基本实现了4种谷子叶片病害的分割。由于本文采用的方法是基于超绿权重的自动分割方法,该方法克服了部分光照变化对图像的影响。试验表明,该超绿特征的图像分割对光线明暗程度和颜色变化情况不同的谷子叶片病害具有良好的鲁棒性。
2.2 谷子叶片病害的特征分析
提取谷子叶片病害与叶片的19个特征,并求得每个类别的70个样本(共计350个样本)的特征平均值。针对谷子叶片病害的RGB图像提取其颜色矩特征,结果如表1所示。对谷子叶片病害的灰度图像提取纹理特征,结果如表2所示。利用谷子叶片病害的超绿特征的二值图像提取其形态特征,结果如表3所示。
由表1中的数据可得,4种病害谷子叶片的颜色特征参数区分度较大,其中以一阶矩和二阶矩的变化情况最为显著,三阶颜色矩次之。总体来说,谷瘟病、锈病、白发病、红叶病的特征参数依次排序呈递增趋势。由表2分析可知,4种病害谷子叶片特征类型中相关性、平均灰度、对比度的区分度较大,可作为区分谷子叶片病害的重要特征。相较于这3个特征,熵这一特征在4种病害谷子叶片中的区分度较小,但仍可作为病害分类的特征。能量、最大概率的参数区别较小,不作考虑。由表3分析可知,形态特征中复杂度和圆形度的区分情况较为明显;其他形态特征如宽长比仅能区分出谷瘟病,其他病害类型不易区分;矩形度中4种病害谷子叶片的特征平均值较为接近,也不易区分。通过对颜色、纹理、形态特征作简单分析,可为后续的特征优选提供良好的定性分析。
采用ACA方法对提取的19个特征进行优选,其优化效果以交叉验证率和适应度作为最终的判别标准,特征优选过程中“0”表示未被选择的特征,“1”表示被选中的特征。试验设置蚂蚁数量ant_num为100,提取的特征feature_num为19,信息素矩阵phero_matrix=0.1*ones(2,feature_num),信息素的权重系数alpha为0.5,试验结果测试5次。特征优化结果如表4所示,经过计算发现,最优的参数组合为试验3中的“1101101000001110000”,选择的特征分别为R1、G1、R2、G2、R3、平均灰度、对比度、圆形度。特征选择中形态特征部分选择了圆形度,未选择区分度较大的复杂度,其原因是蚁群算法的特征选择具有随机组合性,优先选择与目标相关程度较高的特征;该试验在特征选择最少的情况下,适应度达到了最佳,其交叉识别率和适应度分别为87.8%、93.16(表4)。该特征优化组合验证了特征平均值的分析结果,其特征选取用于后期的谷子叶片病害的分类识别。
表1 四种病害谷子叶片与正常叶片RGB三通道颜色矩Table 1 RGB three-channel color matrix of four millet leaf diseases and normal leaves
表2 四种病害谷子叶片与正常叶片纹理特征Table 2 Texture characteristics of four millet leaf diseases and normal leaf
表3 四种病害谷子叶片与正常叶片形态特征Table 3 Morphology characteristics of four millet leaf diseases and normal leaf
2.3 CS-SVM在谷子叶片病害识别中的应用
支持向量机中核函数的类型与参数的选择对分类识别效果具有较大的影响,而核函数中径向基核函数在衡量样本由低维度到高维度映射的相似程度方面优势性良好。故本文选择SVM中的径向基核函数进行样本分类。试验选择250个样本作为训练集(每种类型50个),100个样本作为测试集(每种类型20个)。
CS算法简单且寻优能力良好,其算法内部参数的选择在一定程度上决定算法的性能。主要参数有3个:鸟巢数目n、步长因子S、孵化鸟发现布谷鸟蛋的概率Pa。类似于蚁群算法通过确定蚂蚁的数量确定其种群规模,n取值范围一般在[15, 40]。S体现莱维飞行中随机搜索过程的稳定状态,长短步长的交替搜索达到寻求最优解的目的,S的取值满足公式(17),其中β的取值范围满足(0, 2]。Pa主要衡量算法的全局寻优能力与局部搜索之间的平衡性,前期重在增加收敛速度和缩短空间范围,后期保证算法最优解的正确性,其范围大小一般取(0, 0.4]。
利用特征优选后的8维特征作为特征输入量,采用CS算法寻找SVM的c、g参数的优化组合,利用SVM完成谷子叶片病害的判别分类。根据上述试验分析结果对CS算法进行参数设置,确定最优的参数组合,其中鸟巢数目n设置为25,β取固定值为1.5,孵化鸟发现布谷鸟蛋的概率Pa为0.3,迭代次数设置为300次,适应度为94.2。试验表明,当c=80.2662、g=1.8467时,5种样本的识别效果达到最佳,除谷瘟病外,其他3种谷子叶片病害和正常叶片的识别率均达到100%,谷瘟病的识别结果为95%,总识别率达到99%,识别结果如图3所示。
图3 谷子叶片病害测试集识别情况Fig.3 Recognition situation of millet leaves disease test
如表5所示,锈病样本中有1个出现识别错误,可能是谷瘟病与锈病的相似性造成的。因为本试验拍摄的谷子叶片病害均为前中期病害,该时期锈病数量较多且在病害密集时会造成少量的病害融合,而且2种谷子叶片病害颜色都存在褐色成分,其病害的相似性造成了2种谷子叶片病害的误判。
2.4 不同优化算法的对比分析
选择网格搜索法(grid search,GS)和人工蜂群算法(artifical bee colony,ABC)与本文的算法进行对比分析。网格搜索法采用穷举法寻找谷子叶片病害样本中所有可能出现的c、g组合,对参数组合进行交叉验证,以交叉验证率的结果确定最优的c、g参数组合。人工蜂群算法属于群智能优化算法,通过模仿不同类型蜂群相互协作的觅食行为进而解决谷子叶片病害样本的无约束化问题,蜜源的位置对应SVM的c、g参数优选结果,蜜源的大小对应适应度情况。以适应度的大小判定最优的c、g参数组合。
基于GS-SVM和ABC-SVM的试验样本数据均为蚁群算法优化后的8维特征空间。GS-SVM选用交叉识别验证的方法将谷子叶片病害和健康谷子叶片类别的训练样本集分为5份,其中4份用作训练数据集,1份用作验证数据集,循环运行5次,当所有样本数据被选择,则退出运行。ABC-SVM对初始蜂群规模进行随机邻域搜索,蜂群规模NP为20,蜜源数量N设置为10,蜜源的最大迭代次数设置maxcycle为10,其c、g参数范围设置为(0,100)。
3种优化算法的试验结果如表6所示,由表内数据可得,算法的识别结果与寻优的c、g参数紧密联系。GS-SVM分类及其寻优过程易陷入局部最优解,其算法运行时间和识别率在3种方法中试验效果最不理想。ABC-SVM与CS-SVM进行效果对比,二者的运行时间较为接近,但识别结果下降了2%。对比上述试验结果发现,CS-SVM分类器不管从识别率还是识别时间分析,识别效果均为最佳。进一步证明了基于CS-SVM的分类识别方法对数量少、非线性特点的谷子叶片病害样本具有良好的分类效果,基本实现了谷子叶片病害的分类。
表5 四种病害谷子叶片与正常叶片的具体识别情况Table 5 Specific identification situation of four kinds of millet leaf diseases and normal leaves
表6 三种优化算法的识别效果对比Table 6 Comparison of recognition results of three optimization algorithms
3 结论
本文针对谷子叶片病害的自动分类,提出了一种基于CS-SVM的图像识别方法。试验采集4种谷子叶片病害,运用基于超绿特征的OTSU分割方法对谷子叶片病害进行分割,采用蚁群优化算法从提取的19个特征中选择8个特征作为特征输入量,利用基于CS群智能优化算法对SVM的c、g参数进行优化,分类器的识别率达到了99%,表明运用该方法可对4种谷子叶片病害进行有效分类识别。试验采用布谷鸟优化算法提高SVM分类器的性能,与ABC-SVM、GS-SVM算法相比,基于CS-SVM算法的识别效率和识别时间均最佳。本文的图像采集是基于白色背景下的病害拍摄,下一步研究可直接在田间自然条件下进行采集,对获取的谷子叶片病害图像进行复杂背景下的自动判别分类。