高光谱成像的甜瓜嫁接愈合状态早期分类检测
2022-07-06杨杰锴郭志强高宏盛吴香帅
杨杰锴,郭志强,黄 远,高宏盛,金 科,吴香帅,杨 杰
1. 武汉理工大学信息工程学院,宽带无线通信与传感器网络湖北省重点实验室,湖北 武汉 430070 2. 华中农业大学园艺林学学院,园艺植物生物学教育部重点实验室,湖北 武汉 430070 3. 中国农业科学院深圳农业基因组研究所,岭南现代农业科学与技术广东省实验室深圳分中心,广东 深圳 518000
引 言
甜瓜是重要的园艺作物,生产上由于连作导致的土传病害严重,影响了甜瓜的果实产量和品质; 嫁接不仅可以提高甜瓜抗土传病害能力,在产量提升方面也有积极作用,甜瓜嫁接栽培已经在生产上得到大面积应用[1]。 嫁接愈合是嫁接苗生产的重要阶段,愈合阶段种苗质量的评价有利于进行环境的优化管理。 然而,目前对于嫁接苗愈合状态的判断主要凭肉眼观察接穗真叶是否出现和破坏性取样测定,不仅耗时耗力,还会错过愈合补救的最佳时机[2]。 因此亟需研究出快速判别嫁接苗实际愈合状态的无损方法,提高甜瓜嫁接苗生产愈合阶段的智慧化管理水平和种苗质量。
如何实现高效、 精准的嫁接苗愈合状态分类成为人们关注的问题,尤其是嫁接后的1~7 d,是嫁接苗愈合的关键时间,关系着嫁接苗的愈合质量[3]。 前人利用机器视觉技术虽能有效弥补人为误差上的缺陷,但仅能从图像层面对嫁接苗愈合状态进行区分,当愈合状态近似时识别准确率将有所下降[4]。 近年来,基于图像和光谱的分类检测逐渐兴起,高光谱成像(HSI)技术结合了机器视觉(空间信息)和连续光谱(光谱信息)的优势,具有快速、 准确、 分类精度高等特点,能在图像分析的基础上,通过光谱分析进一步探寻深层信息,被广泛应用于分类检测[5]。 目前基于HSI的瓜类分类检测多用于研究病虫害感染情况,暂无针对嫁接愈合状态研究。 本工作通过对以南瓜为砧木,甜瓜为接穗的嫁接成活苗和非成活苗在愈合期1~7 d内连续采集高光谱图像,在最佳预处理方法SNV-SG-SD上,提出一种融合嫁接差异信息的特征提取算法(DIS-CARS-SPA),通过构建GS-RBF-SVM模型,实现对甜瓜嫁接苗愈合期1~7 d内嫁接状态的早期无损检测。
1 实验部分
1.1 实验设计
选用下胚轴粗度一致、 子叶完全展开的南瓜砧木与甜瓜接穗苗。 材料培养在华中农业大学园艺林学学院园艺植物生物学教育部重点实验室进行,采用贴接法嫁接[6]。 设置嫁接成活和非成活两个处理,嫁接成活处理按照常规嫁接方法进行,对于非成活处理,将接穗切口与砧木切口未完全贴合,中间留有空隙。
甜瓜嫁接苗共计500株,嫁接成活和未成活处理各250株。 嫁接完成后迅速置于透明塑料盖中,再放入专用嫁接愈合室中进行培养。 嫁接后愈合期间环境管理为第0~3天白天温度28 ℃、 夜间温度23 ℃,第4~7天白天温度25 ℃、 夜间温度20 ℃; 空气湿度第0~3天95%,第4~7天85%; 光照强度第0~3天为75 μmol·m-2·s-1, 第4~7天为150 μmol·m-2·s-1。 从嫁接后第4天开始每天定时打开塑料盖子进行通风,避免湿度过高引起病害。
1.2 高光谱图像采集
采用比利时IMEC公司制造的便携式高光谱成像仪,工作波段470~900 nm,光谱波段数150个,拍摄范围最大分辨率36 50×2 048像素,光照由一个150 W的卤素光纤线光源提供。 拍摄时,根据嫁接苗大小,选择1 000×1 000的像素分辨率,让实时画面获得充分的曝光,为了避免环境光的干扰,整个系统放置在一个黑色的光照箱内。 此外,一台电脑(Inter(R) Core(TM) i5-7300HQ CPU @2.50GHz,RAM16GB)配有HSI Snapscan软件用来获取高光谱数据。 高光谱图像采集时,先进行校正,调焦,再将白板放置在镜头下方,使白板充满整个画面,直接扫描白板,最后将甜瓜嫁接苗放在镜头正下方直接扫描,如图1所示。
图1 高光谱图像采集Fig.1 Hyperspectral image collection
1.3 总体实验方案
二分类样本和十四分类样本均按照训练集∶测试集=7∶3进行划分,并通过测试集的分类精确率P作为模型评价指标,分类精确率计算为
(1)
图2 总体研究方案Fig.2 Overall research plan
式(1)中:Npred为检测正确嫁接成活苗和非成活苗样本数,Ntotal为实际输入样本数。
实验方案由三部分组成: HSI预处理、 特征波段选取和分类模型建模分析。 实验中需要验证不同预处理方法、 不同特征提取方法、 不同组合类型的SVM分类模型对甜瓜嫁接状态早期分类检测的影响。 总体研究方案如图2所示。
2 结果与讨论
2.1 HSI预处理
利用配套HSI Snapscan采集软件对采集的甜瓜嫁接苗HSI数据进行黑白标定去噪。 因甜瓜嫁接愈合期内的主要变化来自于新长出的真叶区域变化,故选择真叶区域作为感兴趣区域,由图3(a)和(b)可知,感兴趣区域的光谱曲线(红色曲线)和背景区域的光谱曲线(绿色曲线)在470~900 nm范围内存在明显差异; 用ENVI软件手动圈出感兴趣区域后设置二进制掩码(感兴趣区域内每个像素为1,背景区域为0),如图3(c)所示。
根据掩码图像中感兴趣区域和背景区域不一致,将感兴趣区域对应的高光谱图像区域切割成30×30的块,并返回每个块的平均光谱再叠加,就可切分得到每一天的所有样本光谱值,称为原始全波段光谱数据。 另一方面,为了消除光谱数据的无关信息,提高数据和模型的鲁棒性和准确率,选择常见的光谱预处理方法,如SG平滑、 一阶导数(FD)、 二阶导数(SD)、 标准正态变换(SNV)、 多元散射校正(MSC)等[7],与无预处理的原始光谱进行比较对比,选取最优的预处理方法。
图3 分割示意图(a): 感兴趣区域和背景区域分割; (b): 感兴趣区域和背景区域光谱曲线; (c): 掩码Fig.3 Segmentation diagram(a): Segmentation of region of interest and background region; (b): Spectra of region of interest and background region; (c): Mask
基于不同预处理分别对愈合期1~7 d内的甜瓜嫁接成活苗和非成活苗样本按照训练集∶测试集=7∶3的划分原则构建SVM模型(选择RBF为核函数,GS为寻优方式)。 结果如表1所示,因为SNV预处理后能减少基线漂移及光散射引起的光谱冗余数据,使光谱更集中,同时SG平滑可有效去除背景噪声,而SD预处理可明显反映出波峰与波谷,显示有效光谱,故将三者结合的SNV-SG-SD效果最好, 在甜瓜嫁接愈合期1~7天内的分类准确率均能达到99%以上,从而将甜瓜嫁接愈合状态的早期分类检测时间提前到嫁接后第1天(肉眼观察第3~4天[3],机器视觉技术第1~2天[4])。
表1 基于不同预处理构建SVM的同一天嫁接成活苗和非成活苗二分类结果Table 1 Two classification results of grafted survival seedlings and non-viable seedlingson the same day based on SVM constructed by different pretreatments
本方法还可对不同天嫁接成活苗或非成活苗的二分类进行研究,选择SNV-SG-SD预处理方法,根据多组数据组合实验,取每组实验结果平均值作为该组结果,筛选部分标志结果如表2所示。 对表中标号进行说明,令变量Day由A={1, 2},B={3, 4, 5},C={6, 7},D={3, 4, 5, 6, 7}表示,数字代表天,若变量Day只有一个字母,则表示在所选字母集合范围内任选两天进行二分类,若表示为A-B,则从A集合中任选一天,B集合中任选一天进行二分类,其余同理。
结果如表2所示,在愈合期内甜瓜嫁接成活苗在第1~2天、 3~5天和6~7天二分类准确率有明显差异,其中第1~2天的准确率偏低(90.17%),说明愈合初期甜瓜嫁接愈合部伤口还未修复,其愈合速度较为缓慢; 第3~5天准确率有了明显上升(97.68%),说明愈合中期甜瓜嫁接愈合部伤口已经逐渐修复,呈正常愈合状态,第6~7天的准确率进一步提升达到99.15%,说明愈合后期甜瓜嫁接愈合部伤口已经快速修复,呈快速愈合状态。 因此可认为甜瓜嫁接成活苗在愈合期1~7 d内愈合状态可分成弱—中—强三个阶段,第3天是明显差异时间。
在愈合期内甜瓜嫁接非成活苗在不同天的分类准确率均能达到97%以上,其中第1~2天的准确率相较于第3天后偏低,说明在愈合初期,非正常嫁接虽有影响,但程度不是很大,而第3天后任选两天或第1~2天中选一天,第3天后选一天准确率均为99.5%以上,说明非正常嫁接加速了变坏的过程,成为影响二分类结果的直接因素,因此可以认为甜瓜嫁接非成活苗在愈合期1~7 d内愈合状态可分为弱—更弱两个阶段,第3天是明显差异时间。
表2 基于SNV-SG-SD预处理构建SVM的不同天嫁接成活苗/非成活苗二分类结果Table 2 Two classification results of survival/non-viable seedlings grafted on different days usingSVM constructed based on SNV-SG-SD pretreatment
2.2 特征波段提取
2.2.1 CARS-SPA算法
以愈合期1~7 d内甜瓜嫁接成活苗和非成活苗十四分类的特征波段提取为例,由于CARS算法易将反射率波动差异作为权重较大的变量提取为特征波段,故使用SPA算法对CARS特征提取后的特征波段进行二次筛选,查找含有冗余信息最少的变量组[8]。 图4(a)中采用CARS算法筛选的波段数在560~900 nm范围内较为密集,其中560~692和731~900 nm处更为集中,经过CARS筛选后可得到66个特征波段。
使用SPA算法对CARS特征波段进行降维再提取,如图4(b)所示,筛选的特征波段数从66降到32,特征波段普遍位于582~685和730~900 nm。
2.2.2 DIS-CARS-SPA算法
CARS-SPA算法虽能进一步简化筛选CARS算法提取的特征波段,但由于CARS算法的随机性,还是容易将反射率波动差异作为权重较大的波段提取为特征波段。 文献[9]通过包络线去除法提取棉花冠层的光谱差异波段,构建估算棉花冠层叶绿素含量的BP神经网络模型,结果发现,去包络后冠层反射率和叶绿素含量相关性在560~740 nm波段范围内提高了10.7%。 文献[10]通过包络线去除法对中国西南丘陵地区的遥感影像阴影信息进行校正重建,结果发现,去包络后有阴影的丘陵地区遥感影像自动分类精度提高了17.98%。 因此,借鉴光谱差异分析思想,提出DIS-CARS-SPA算法特征提取,即在预处理后先进行嫁接差异信息的筛选,然后通过包络线去除法确定光谱吸收曲线,再在光谱差异波段的基础上进行CARS-SPA算法特征提取,使CARS-SPA算法融合嫁接差异信息。
在愈合期1~7 d内,嫁接成活苗愈合状态呈现弱—中—强三个阶段,非成活苗愈合状态呈现弱—更弱两个阶段,因此第7天的嫁接成活苗和非成活苗平均光谱曲线差异最大,
图4 CARS-SPA算法(a): CARS算法提取的特征波段位置;(b): CARS-SPA算法提取的特征波段位置Fig.4 CARS-SPA algorithm(a): Feature band extracted by CARS algorithm;(b): Feature band extracted by CARS-SPA algorithm
图5 嫁接差异信息选择(a): 第7天嫁接成活苗和非成活苗的平均光谱曲线及包络线;(b): 第7天嫁接成活苗和非成活苗的平均光谱吸收曲线;(c): DIS-CARS-SPA算法提取的特征波段位置Fig.5 The choice of grafting difference information
(a): Average spectra of grafted survival and non-viable seedlings on the 7th day; (b): Average absorption spectra of grafted survival and non-viable seedlings on the 7th day; (c): Location of the extracted feature wavelengths using DIS-CARS-SPA algorithm
可作为嫁接差异波段选择的原始曲线。 如图5所示,图5(a)表示的是第7天的嫁接成活苗和非成活苗平均光谱曲线和包络线,发现两者曲线存在较大差异,将各自包络线与实际光谱曲线相减得到光谱的吸收曲线,从图5(b)中可以明显发现,552.5~634.3,651.4~697.5,709.2~900 nm三处范围吸收曲线明显不一,因此认为这三个区间为甜瓜嫁接差异波段区间。 对比图4(b)和图5(c),图4(b)是CARS-SPA算法提取的特征波段,最后筛选出32个特征波段,图5(c)是DIS-CARS-SPA算法提取的特征波段,最后筛选出26个特征波段。
基于SNV-SG-SD预处理方法分别通过CARS-SPA算法和DIS-CARS-SPA算法构建SVM模型(选择RBF作为核函数,GS作为寻优方式),对愈合期内不同天数(1~7 d)和不同状态(嫁接成活苗和非成活苗)进行十四分类,并和只预处理无特征提取步骤进行对比。 如表3所示,只预处理未特征提取所构建的SVM模型准确率最低,仅为93.48%,预处理后经过CARS-SPA算法所构建的SVM模型准确率达到96.26%,结果表明,特征提取可以有效降维剔除冗余信息,筛选的特征波段数从全波段150个降低至32个,分类准确率提升了2.78%。 而DIS-CARS-SPA算法所构建的SVM模型准确率最高,达到96.85%,所筛选的特征波段数进一步降低,只有26个,说明在特征提取前加入嫁接差异信息的筛选可以在更少波段的基础上提升分类模型的识别准确率,因此该方法是可行的。
2.3 SVM分类模型
SVM分类模型选用5种优化算法: 网格寻优(GS)、 遗传算法(GA)、 量子遗传算法(QGA)、 粒子群算法(PSO)、 量子粒子群算法(QPSO),4种核函数: 径向基(RBF)、 线性(LINEAR)、 多项式(POLY)、 神经元非线性(SIGMOID)进行建模分析。 固定RBF核函数,探究不同优化算法对SVM模型的影响,其中不同优化算法将影响RBF核函数中的两个重要参数: 惩罚系数c和核宽度g。
如表4所示,所有优化算法模型中,GS-SVM模型准确率最高,达到96.85%,这是因为GS-SVM的可并行性高,对每个(c,g)对寻优是相互独立的,而其余四种算法则受不同(c,g)对组合的影响。 QPSO算法和PSO算法属于同一类型算法,QPSO算法取消了粒子的移动方向属性,增加了粒子位置的随机性,在一定程度上解决了PSO算法容易陷入局部最优解的问题,故QPSO-SVM模型准确率高于PSO-SVM。 而QGA算法虽在GA算法上进行了改进,但和GS-SVM模型准确率相差较大,这是由于基础GA算法对初始样本的数量有一定依赖性,不能很好的解决大规模计算量问题,本研究对象是愈合期1~7 d内甜瓜嫁接愈合状态的十四分类,模型计算量大,因此准确率大大降低。
以此为基础,选择GS-SVM筛选的c=1 000,g=1 000作为SVM模型参数,探究不同核函数选择对十四分类准确率的影响。
由表5可知,选择RBF作为SVM模型的核函数在愈合期1~7 d内甜瓜嫁接愈合状态十四分类准确率最高。 虽然十四分类样本数量多,但RBF核函数具有较宽的收敛域,计算复杂度低,可以适应大样本情况; 而POLY核函数和SIGMOID核函数由于内部参数众多,当大样本时,核矩阵的元素值趋于无穷大,计算复杂度大幅提高,导致最终分类效果低; 虽然LINEAR核函数可以适应大样本情况,但对样本线性度要求极高,只能解决线性可分问题,本研究非线性可分,因此导致分类准确率低。
表3 基于SNV-SG-SD预处理后特征提取构建SVM的嫁接成活苗/非成活苗十四分类结果Table 3 Fourteen classification results of grafted survival/non-viable seedlings by SVMbased on feature extraction after SNV-SG-SD preprocessing
表4 基于不同优化算法的SVM模型参数选择Table 4 Parameter selection of SVM model based on different optimization algorithms
表5 基于不同核函数的SVM模型参数选择Table 5 Parameter selection of SVM model based on different kernel functions
3 结 论
以南瓜为砧木,甜瓜为接穗的甜瓜嫁接苗为研究对象,提出基于高光谱成像的甜瓜嫁接愈合状态早期分类检测方法。 通过样本集划分,先经过SNV-SG-SD预处理,再进行DIS-CARS-SPA特征提取,最后建立基于GS-RBF-SVM的甜瓜嫁接愈合状态早期分类检测模型,主要得出以下结论:
(1)方法不仅能实现同一天嫁接成活苗和非成活苗的二分类,还能实现不同天同一类型的二分类,不同天不同类型的多分类。 其中同一天的二分类效果最明显,均能达到99%以上,说明嫁接成活苗和嫁接非成活苗在愈合期后第一天已经呈现较大差异,且随着时间推移,这种差异更加凸显。
(2)在SNV-SG-SD最佳预处理基础上,提出DIS-CARS-SPA特征提取算法,该算法融合了甜瓜成活苗和非成活苗的嫁接差异特征信息,可以在筛选更少特征波段基础上,进一步提升分类模型的识别准确率。
(3)本方法可将甜瓜嫁接成活苗和非成活苗的早期分类检测提前到嫁接后第1天(肉眼观察第3~4天,机器视觉技术第1~2天); 同时第3天均是嫁接成活苗和非成活苗的差异突变天数,嫁接成活苗状态可分为弱—中—强三个阶段,非成活苗状态可分为弱—更弱两个阶段,能为甜瓜嫁接苗生产提供有效指导,具有一定的理论和实践价值。