基于光谱成像的大白菜叶色定量鉴定方法
2021-12-14张东方申书兴范晓飞
张东方,张 君,申书兴,范晓飞
(1.华北作物改良与调控国家重点实验室/河北省蔬菜种质创新与利用重点实验室; 2.河北农业大学 机电工程学院; 3. 河北农业大学 园艺学院,河北 保定 071000)
大白菜是我国栽培面积最大的蔬菜作物,全国每年播种面积近267 万hm2,产值在600 亿元以上,占全国蔬菜总播种面积的15%左右[1]。叶片颜色是其重要的表型性状,但目前叶片颜色鉴定仍采用传统的目测法,具有较大的人为主观性。
鉴于光谱分析技术在农产品样本测定上具有无破坏性、实时快速、成本低等优势,结合图像技术作为定量、快速、无损和可追溯的数据采集方法,已经在农业的多个领域得到了应用[6]。在质量检测方面,采用基于不同光电子学原理的图像传感器,如可见光、近红外、多光谱、高光谱、X-CT、核磁共振等技术[7],可获取作物器官或组织性状的精细测量参数。
例如,高雄等提出1 种基于机器视觉的、以颜色特征为基础、利用阈值选取和RGB 空间特征变换来实现病虫害自动识别的方法,试验表明,识别虫害区域的准确率达88.33%,阐明了根据颜色特征处理图片的方法[8]。Arma 等就基于机器视觉对成熟番茄果实的检测和定位进行了一系列研究,引入HIS 和YIQ 模型综合分析,静态图像处理试验表明,可以很好的对番茄果实进行空间和质量检验,但是动态图片性能还有待进一步研究[9]。赵若梅等使用高光谱扫描马铃薯叶片,建立了叶绿素荧光模型与其可视化分布图,为马铃薯作物光合活性评价及复杂的生理生化动态检测提供了技术支持[10]。Ps A 等利用RGB 相机结合机器学习方法对稻米氮素营养素进行了估测,建立了线性回归、随机森林回归模型,最终得出随机森林模型的验证数据集精度可达80.17%[11],证明图像技术和适当的机器学习方法结合可以作为作物氮素可靠的估算。Atil 和Kumar 利用图像的颜色、形状及纹理特征实现了对3 种大豆叶片病害的检索分析[12]。Zhao 等开发了1个RGB 图像分析工具ApLeaf,该软件通过背景去除、特征提取及分类鉴定3 个步骤,对法国的126 个物种进行了分类鉴定[13]。Pound 等开发了1 种软件包,可以利用RGB 图像自动对植物进行三维重建,并提取地上部的结构特征,这种方法被应用于小麦和水稻的地上部重建[14]。综上所述,将光谱技术和图像技术相结合的光谱图像技术可精确检测每个像素点的光谱数据和图像信息,为大白菜叶片的叶色定性鉴定提供技术支持。
本研究尝试使用多光谱相机扫描白菜叶片,根据大白菜特异性、一致性和稳定性主要测试性状(DUS)作为性状调查标准,基于标准比色卡和由专业人员挑选的标准叶片,对大白菜叶片颜色进行分类,从而建立大白菜叶色分类定量模型。旨在解决大白菜叶片叶色传统鉴定方法主观性强的问题,研发利用图像处理鉴定大白菜叶色的新方法。
1 材料与方法
1.1 试验材料
本试验使用河北农业大学蔬菜育种试验基地的大白菜材料,进行叶色鉴定及多光谱图像采集。大白菜进入莲座期后,每株大白菜选取第4 片完整叶片进行样本采集,所有的样本均逐一进行编号并装入带有保鲜措施的保鲜箱内(含冰袋),带回实验室对所有样本进行图像信息的采集,共计1 255 个大白菜样本。
1.2 数据的采集与分析
1.2.1 19 通道多光谱成像系统大白菜叶色鉴定
利用多光谱成像系统(VideometerLab 4,丹麦)采集455 个样本的19 通道多光谱图像,利用阈值分割法将去除叶脉的叶片与背景进行分割,得到叶片在19 通道下的平均灰度值。后采用机器学习算法中的无监督学习K 均值聚类算法(K-means clustering algorithm, K-means)进行叶片颜色分类分析。
K-means 算法是经常使用的一种聚类分析法[15],最终将所有的试验样本分到K 类,某一类的中心点是所对应类别中所有数据的均值,同时在分类中利用欧式距离平方作为标准进行衡量。该算法中最主要的是K 值的选择,K 作为聚类的簇数,设置该算法的最大迭代次数[16],其输入为每一个样本对应的光谱数据S={x1,x2, ...,xm},m 为样本数量,输出簇的划分C={C1,C2,…,Ck},该算法的具体执行步骤为:
(1)随机地在数据集S中选择K 个样本作为初始的K 个初始聚类中心向量:{μ1,μ2, ...,μk};
(2)计算S中每个样本Xi到各个聚类中心的距离,将每一个样本分到距聚类中心最小的类别中;
(3)按照各类别μj,重新计算属于该类所有样本的质心(聚类中心)
(4)重复(2)(3),直到达到迭代次数整个算法终止;
(5)输出簇划分C={C1,C2,…,Ck}。
在此试验中参照大白菜DUS 中5 种叶片颜色的标准,令所有样本数据的类别为5,即在K-Means中令聚类的簇数为5,并设置最大迭代次数为10,即在此方法运行到第10 次时终止并得出的簇划分C集为5 个类别的聚类中心。
1.2.2 基于4 通道多光谱成像系统的大白菜叶色分类 利用4 通道相机(AD-130GE,丹麦)同时捕获大白菜样本的可见光图像与近红外图像,通过阈值分割算法[17]将感兴趣区域与背景分割,提取感兴趣区域的RGB 3 通道的灰度值以及近红外通道的灰度值,所有感兴趣区域均为去除大白菜叶脉的叶片区域。对于具有病斑的大白菜样本,首先将其病斑利用阈值法去除。本试验所采集的800 个试验样本均为大白菜外叶,其中基于比色卡的分类研究中以同样的试验环境采集英国皇家园林协会的RHS 比色卡中深绿(编号为135)、灰绿(编号为137)、绿(编号为141)、浅绿(编号为142)和黄绿(编号为150)5 个标准颜色。
为了加快运算速度,本试验利用主成分分析法(PCA)为数据进行降维处理[18],用维数较少的新变量反映原始变量,这些新变量可以包含原始变量中的大部分信息[19]。在处理光谱数据过程中,利用标准变换对原始的多维光谱数据进行处理,使得大量光谱信息集中在几个综合变量,充分利用所选取综合变量所包含的特征信息进行数据处理[20]。PCA 方法的分析过程为:
本试验有800 个样本(样本量记为m),每个样本有观测变量p个(即本节中781 个波段,p=781),由所有样本构成一个m×p阶的矩阵,该矩阵模式为
系数aij需要满足的相关条件:
Fi与Fj(i≠j)互不相关,即Fi与Fj的协方差为零;
Fi是所有样本对应的x1,x2, …,xp在所有的线性组合中具有最大方差的变量;
在F1不相关的基础上,F2是x1,x2, …,xp所有线性组合中具有最大方差的变量;在与x1,x2, …,xp-1都不相关的基础上,Fp是x1,x2, …,xp的所有线性组合中具有最大方差的变量;
最终基于以上3 条,得到第一主成分,第二主成分,…,第n个主成分分别为F1,F2, …Fn。主成分是在相关矩阵中特征值对应的特征向量,而这几个主成分对应的n个特征值为在相关矩阵中较大的[21]。
2 结果与分析
2.1 19 通道多光谱成像系统大白菜叶色鉴定结果
利用采集的19 通道多光谱图像中每个波段的平均灰度值进行K-means 聚类分析,得到簇划分C={C1,C2,C3,C4,C5},Ci为这5 个类别的中心,该中心为1 个19 维数据,图1 为最终得到聚类中心Ci的光谱图,距离聚类中心Ci最近的样本即划分为对应的类别Ci,记Ci为类别i。
根据图1 可知,5 类大白菜叶片的光谱曲线具有典型的绿色植被光谱特征,并在500 ~700 nm波段和近红外波段具有较强的差异性,这是由于在高等植物中决定叶片颜色的主要色素有叶绿素、类胡萝卜素和花青素等,而具有颜色差异的叶片在500 ~700 nm 和近红外波段因为叶绿素的吸收量不同形成了有差别的反射峰。因此,基于光谱反射率之间的差异,进行叶片颜色分类具有可行性。本试验采用的455 个样本类别的个案数目以及5 类叶片样本图如图2 所示,试验证明基于多光谱图像数据可以实现大白菜叶片颜色的分类。
图1 按照DUS 进行五分类的聚类中心图Fig. 1 Cluster centers of five groups according to DUS
图 2 各样本类别占比Fig. 2 Number of each class
因此,基于图像信息可以代替人眼以实现对叶片颜色精准判定。此外,本研究结果表明,基于大白菜叶片的RGBN 图像即可对叶片实现分类,由于多光谱成像设备造价昂贵,故本试验继续研究了使用多光谱4 通道相机(AD-130GE)对叶片叶色进行分类的方法。
2.2 基于4 通道多光谱成像系统的大白菜叶色分类结果
2.2.1 基于比色卡的叶片颜色分类 本模型对所采集的500 个样本与5 个标准比色卡进行研究,得到样本以及比色卡的RGBN 4 通道灰度值,对这4 个灰度值进行主成分分析(图3),最终提取得到1个主成分,其贡献率高达94.46%,故本试验由该主成分代表原始数据信息。
图3 基于RGBN 图像的主成分分析Fig.3 The contributions based on principal component analysis of RGB images
基于5 个标准颜色比色卡RGBN 4 通道的灰度值,可以将叶片按照DUS 分开。将主成分分析重新编码的新数据从而进行有监督的聚类分析,在SPSS中将连续变量转化为分类变量。利用转换对主成分分析得出的新变量实现了重新编码,重新编码为不同的变量,最终实现将分类变量进行有监督聚类。
在DUS 的分类中将5 张比色卡的颜色利用主成分值进行重新编码,利用分类变量按照DUS 的5 类标准比色卡重新编码的分类变量进行分类,进而实现利用比色卡信息对叶片的5 分类,结果如图4:
图4 叶片的分类结果Fig 4 Classification results of the leaves:
由于比色卡材质与叶片材质不相同,而材质的差异多数体现在近红外波段,为了提高模型的准确性,采用标准叶片的多光谱图像建立叶色的定量分类模型。
2.2.2 基于标准样本的叶片颜色分类 本模型对300 个样本与标准叶片的RGBN 4 通道灰度值进行研究。标准叶片由2 个试验组的所有采集人员根据DUS 对应的比色卡标准选出绿色、灰绿色、黄绿色、深绿色和浅绿色标准样本。以RGBN 4 通道的平均值建立机器学习模型,该模型可以将叶色分为5 类(灰绿、浅绿、黄绿、绿、深绿),其颜色空间散点图如图5 所示。
图5 叶片的颜色空间散点图Fig.5 Scatter plot of color space of leaf
提取标准叶片RGBN 4 个通道的灰度值,将每一通道的平均灰度值作为模型的输入,对所有样本分别按照4 通道图像的灰度值进行分类分析。图6为按照标准样本的RGB 3 通道值和RGBN 4 通道值进行类别分析后得出结果的混淆矩阵,本研究发现加入近红外通道灰度值后在混淆矩阵中,RGBN 和RGB 在深绿范围内有较大的差异。
图6 RGB 和RGBN 分类结果的混淆矩阵Fig 6 Confusion matrix of standard color and cluster analysis color
3 结论
本试验首先采用19 通道多光谱成像设备,采集大白菜叶片的多光谱图像,经过预处理后得到叶片19 通道的平均灰度值,利用K-means 聚类分析方法对19 个平均灰度值进行聚类分析,发现主要影响叶色鉴定的波段集中在R、G、B 和N 4 个通道,即使用四通道多光谱相机即可完成,故采用AD-130GE 4 通道多光谱成像系统采集了大量试验样本的图像信息,在去除掉样本叶片的病斑以及叶脉区域后进行叶色分类,分别建立了基于比色卡与标准样本的叶色分类模型,用2 种标准进行了聚类研究。结果显示基于RGBN 4 通道叶片的平均灰度值按照标准比色卡以及标准叶片均可以实现叶色分类,由于比色卡材质与叶片材质不同,基于标准叶片的定量分类模型可以对叶色更加准确分类,即本试验最终选择使用AD-130GE 4 通道多光谱相机结合标准叶片选择主成分分析对大白菜叶片进行叶色鉴定所需成本最低,检测效果最好。该试验表明基于多光谱成像的定量检测技术,可以辅助人眼辨别对叶片颜色进行划分,为育种田间性状调查提供了1 种大白菜叶色的准确鉴定方法。