近红外高光谱成像结合特征波长筛选识别小麦赤霉病瘪粒
2021-06-30沈广辉曹瑶瑶刘馨徐剑宏史建荣LEEYin-won
沈广辉 曹瑶瑶 刘馨 徐剑宏 史建荣 LEE Yin-won
摘要: 为实现小麦赤霉病瘪粒快速识别,本研究使用主成分分析(Principal component analysis, PCA)结合最大类间方差法(Otsu)对小麦高光谱图像进行背景分割,以赤霉病瘪粒识别正确率为评价指标,探究判别分析方法与竞争性自适应权重取样法(Competitive adaptive reweighted sampling, CARS)的最佳组合方式。结果显示,基于全谱段构建的偏最小二乘判别分析(Partial least squares discrimination analysis, PLS-DA)和支持向量机判别分析(Support vector machine discriminant analysis, SVM-DA)模型预测精度相同,外部验证集健康籽粒和赤霉病瘪粒识别正确率分别为95.2%和100.0%;基于CARS筛选的8个特征波长构建的CARS-PLS-DA模型外部验证集健康籽粒和赤霉病瘪粒识别正确率均为100.0%,预测精度高于CARS-SVM-DA模型,可有效实现赤霉病瘪粒的快速识别。研究结果将为谷物仓储和加工过程中赤霉病瘪粒高通量快速识别提供理论依据和技术支撑。
关键词: 高光谱成像;赤霉病瘪粒;近红外光谱;无损检测
中图分类号: S123;TP391.41 文献标识码: A 文章编号: 1000-4440(2021)02-0509-08
Abstract: In order to realize rapid identification of unfilled grain from wheat infected by Fusarium, principal component analysis (PCA) combined with Otsu algorithm was used for background segmentation of wheat hyperspectral imaging. The compound mode of discriminant analysis method and competitive adaptive reweighted sampling (CARS) method were optimized based on the identification accuracy of Fusarium damaged kernels. The results indicated that, the predication accuracy of partial least squares discrimination analysis (PLS-DA) model and support vector machine discriminant analysis (SVM-DA) model constructed based on full spectrum were the same, and the recognition accuracy of healthy and Fusarium damaged kernels in the external validation set were 95.2% and 100.0%, respectively. The recognition accuracy of healthy and Fusarium damaged kernels were both 100.0% in the external validation set of CARS-PLS-DA model which was built based on eight characteristic wavelengths selected by CARS algorithm, and the prediction accuracy was higher than CARS-SVM-DA model, and could rapidly identify Fusarium damaged kernels effectively. The results can provide theoretical basis and technical support for the high throughput and rapid detection of Fusarium damaged kernels during grain storage and processing.
Key words: hyperspectral imaging;Fusarium damaged kernels;near infrared spectroscopy;non-destructive detection
小麥赤霉病是由亚洲镰刀菌和禾谷镰刀菌侵染引发的真菌病害,赤霉病发生过程中会产生有毒次级代谢产物脱氧雪腐镰刀菌烯醇(Deoxynivalenol, DON),又称呕吐毒素,其不仅会破坏小麦的细胞组织结构,降低出粉率,误食被DON污染饲料的家畜会导致呕吐、拒食、腹泻、出血甚至死亡,对人体也有较大毒性[1-3]。近年来,受极端气候等环境因素影响,小麦赤霉病爆发频率增加,DON污染风险不断加剧,已成为制约中国及世界小麦产品质量安全的主要风险因子[4-5]。DON结构性质稳定,在谷物加工过程中难以消除,中国规定小麦及全麦粉中DON的最大残留限量标准为1 000 μg/kg。因此,及时检测并发现DON污染,可有效避免DON对人畜健康构成危害。
常用的DON检测方法有色谱法和免疫学方法,色谱法包括高效液相色谱法(HPLC)[6]、气相色谱法(GC)[7]、气相色谱-质谱联用法(GC-MS)[8]和液相色谱-串联质谱法(LC-MS/MS)[9]等,这些方法具有较高的灵敏度和重复性,可同时对多种真菌毒素进行定量分析,但大都需要复杂的前处理,检测周期长;免疫学方法包括荧光免疫分析法(FIA)、酶联免疫吸附测定法(ELISA)和免疫生物传感器法等[10],此类方法虽然灵敏度较高,在一定程度上弥补了色谱法不能用于现场快速检测的不足,但其检测性能主要依赖于所用抗体,不能重复使用,检测成本较高,与色谱法一样属于破坏性检测,无法用于DON污染麦粒的快速筛分。
近红外高光谱成像技术(NIR-HSI)将近红外光谱和成像技术相结合,不仅可以同时获取样品内部和外部信息,还可以表征不同组分在样品中的空间分布,具有快速无损、抗干扰能力强等特点,已被广泛应用于制药[11]、考古[12]、刑事侦查[13]、农业[14]和食品[15]等领域。近年来,NIR-HSI在保障谷物安全方面也展现出了巨大的应用潜力,如病虫害识别、霉变谷物检测等[16-18]。在赤霉病瘪粒识别方面,国内外研究人员基于NIR-HSI开展了一定的研究工作,如Delwiche等[19]发现基于近红外高光谱(900~1 750 nm)对病瘪粒的识别率高于可见光高光谱(430~900 nm),主要原因是1 200 nm处为麦角固醇(真菌细胞膜的主要成分)的吸收峰,能反映病瘪粒中真菌的污染;Shahin等[20]将麦粒分为健康、镰刀菌轻度感染和严重病变3个等级,基于高光谱成像技术构建线性判别分析(LDA)模型,病瘪粒识别正确率高于92%,镰刀菌污染程度识别正确率为86%;梁琨等[21]基于可见光高光谱图像构建小麦赤霉病检测方法,识别正确率大于90%;刘爽等[22]基于近红外高光谱成像,对比分析了LDA模型、K-邻近(KNN)算法和支持向量机(SVM)算法对病瘪粒的识别率,发现Savitzky-Golay平滑-连续投影法-支持向量机(粒子群算法)[SG-SPA-SVM(PSO)]模型最优,识别正确率高于95%。
以上研究结果表明,NIR-HSI可以实现赤霉病瘪粒的快速识别,但在已有报道中,高光谱图像背景扣除通常采用手动设置阈值进行图像分割,校正集样品信息获取也大都基于手动选取感兴趣区域(Region of interest, ROI)的方式,不仅分析效率低,还容易导致模型适用性差。鉴于此,本研究将采用PCA结合Otsu算法对小麦高光谱图像进行背景分割,避免了人为设定阈值的不适用性,借助小麦籽粒自动识别算法提取单麦粒近红外光谱,并基于特征波长筛选算法构建赤霉病瘪粒的快速、无损定性分析模型,提高数据处理效率,为开发基于近红外高光谱成像技术的赤霉病瘪粒自动识别和分选设备提供技术支撑。
1 材料与方法
1.1 试验材料
试验所用小麦品种为济麦20,来源于江苏省农业科学院农产品质量安全与营养研究所样品室,共收集健康饱满籽粒99粒,赤霉病瘪粒33粒,均经过经验丰富的实验员视觉区分确认,其中随机选取37粒健康籽粒和19粒赤霉病瘪粒作为校正集,用于构建定性分析模型,剩余小麦籽粒作为外部预测集对模型进行验证。
1.2 样品高光谱图像采集
将小麦籽粒单层平铺于样品台,使用近红外高光谱成像系统获取样品图像。近红外高光谱系统硬件部分包括光源、成像光谱仪、电控位移平台、暗箱和计算机等。光源为4盏50 W卤素灯,成像镜头为HSIA-OLES30(芬兰SPECIM公司产品),可采集到的光谱范围为901.05~ 2 517.89 nm,光谱分辨率为12 nm,相机分辨率为384×288像素,样品台移动速度为10 mm/s,曝光时间为5.7 ms。为消除暗电流以及光源强度分布不均匀导致的噪声,需要根据公式(1)对原始高光谱图像进行黑白校正:
式中I为黑白校正后的图像信息,I0为原始高光谱图像信息,B为盖上镜头盖的黑色标定背景信息,W为标准聚四氟乙烯白板标定图像信息。
1.3 高光谱图像分割及单麦粒光谱提取
首先,利用ENVI 5.1软件的Resize功能对黑白校正后的图像进行裁剪,去除不必要的区域和噪声较大的波段(本研究使用波段为960~1 700 nm),压缩数据,然后使用基于PCA得分的Otsu算法进行图像分割和背景去除,提取只含有小麦籽粒信息的图像,最后使用Matlab 2014a中Bwlabel函数对图像中麦粒编号,实现单麦粒指纹图谱的自动提取,并计算平均光谱作为此麦粒的近红外光谱,用于后续判别分析。
1.4 數据处理
1.4.1 主成分分析(PCA) PCA是将多个变量通过线性变换后投影到一个新的坐标系中,使得到的新变量两两相互正交,互不相关,从而在保证不丢失主要信息的前提下对数据进行压缩降维。本研究使用PCA对健康籽粒和赤霉病瘪粒的近红外光谱进行分析,探究不同麦粒的聚类趋势。
1.4.2 判别分析 本研究采用偏最小二乘判别分析法(PLS-DA)和支持向量机判别分析法(SVM-DA)构建赤霉病瘪粒的判别分析模型。
PLS-DA是一种有监督模式的定性判别分析方法,是将定量PLS算法用于判别分析的一种策略,其基本思想就是用二进制变量(类别变量)来代替浓度变量[23]。PLS-DA主要是计算光谱向量X与类别向量Y的相关关系,要求类别向量Y必须能描述特定种类的样品。
SVM-DA是一种二分类模型,通过非线性变换将数据映射到高维空间,并寻找最优分类面,不仅要将2类样品准确分开,还要使分类间距最大[24]。SVM-DA中包含2个参数,c是惩罚参数,起到控制对误判样本惩罚程度的作用,减小过拟合现象;g为核函数参数,与模型的稳定程度有关。
1.4.3 特征波长筛选 为减少光谱中无用信息对模型的干扰,提高模型的预测精度,研究将采用竞争性自适应权重取样法(CARS)进行变量筛选[25],并结合PLS-DA和SVM-DA构建判别分析模型,探究与赤霉病瘪粒相关的特征波段。CARS特征波长筛选模仿达尔文的“适者生存”法则,使用自适应权重加权采样保留模型回归系数绝对值较大的波长点,再利用交互验证选出交互验证均方根误差最小的子集作为最优波长组合,可有效地去除无信息变量,筛选与性质有关的特征变量。
2 结果与分析
2.1 图像分割方法分析
小麦样品原始图像如图1a所示,上半部分摆放的为小麦健康籽粒,下半部分为不同病变程度的赤霉病瘪粒,为了实现背景扣除和小麦籽粒光谱提取,以裁剪后小麦样品高光谱图像为对象进行PCA处理,提取第一主成分得分结合Otsu方法对图像进行单阈值和双阈值分割,分割后二值化图像分别如图1b和图1c所示。由图1b可知,部分小麦籽粒腹股沟部位被误判为背景而扣除,其主要原因是扫描样品高光谱图像时,小麦腹股沟向上部位会产生阴影,导致腹股沟部位信息获取不完整,进而影响图像分割效果;双阈值图像分割可有效降低腹股沟部位阴影的影响(图1c),因此,本研究采用双阈值方式对图像进行处理,实现图像和背景的自动分割。
2.2 麦粒光谱解析
基于Matlab中bwlabel函数分别提取每一颗小麦籽粒的光谱,并计算平均值作为此麦粒的近红外光谱,结果如图2a所示,通过对比可知赤霉病瘪粒光谱反射率普遍高于健康籽粒。为进一步解析2种麦粒间的光谱差异,分别计算健康籽粒和赤霉病瘪粒的平均光谱,并做二阶导数处理(图2b),从图2b中可知光谱在波长1 140 nm、1 200 nm、1 221 nm、1 340 nm、1 408 nm和1 446 nm附近有较大差异(这些波长记为CW),通过光谱解析发现这些吸收峰与蛋白质、脂肪和淀粉含量有关,探究其原因,可能是禾谷镰刀菌在侵染小麦过程中,会破坏小麦细胞壁和淀粉结构,消耗小麦籽粒中的营养物质,导致健康粒和赤霉病瘪粒中的蛋白质、脂肪和淀粉含量存在差异[26]。此外,1 200 nm处为麦角固醇吸收峰,也能反映赤霉病瘪粒中真菌的污染。
2.3 主成分分析
对小麦光谱进行一阶导数处理,消除基线漂移的影响,并进行主成分分析,发现前3个主成分可表达99.37%的原始信息。图3a为PC1、PC2和PC3的三维聚类效果图,从图3a可知健康籽粒和赤霉病瘪粒在PC2方向具有明显的分类趋势,提取PC2的载荷系数(图3b),发现对聚类有重要影响的波段(局部最值波段)与图2b中健康籽粒和赤霉病瘪粒光谱间差异较大的波段基本一致,可进一步使用有監督的判别分析方法进行分析。
2.4 赤霉病瘪粒判别分析
2.4.1 基于全谱段的判别分析 以37粒健康籽粒和19粒赤霉病瘪粒为校正集,分别基于全谱段构建PLS-DA模型和SVM-DA模型,并对外部验证集(62粒健康籽粒和14粒赤霉病瘪粒)进行预测,判断模型精度。PLS-DA模型构建使用原始光谱,将健康粒类别设定为1,赤霉病瘪粒类别设定为2,采用留一交互验证的方式,根据交互验证均方根误差确定最佳潜变量数为4,结果如表1所示。由表1可知,校正集中健康籽粒和赤霉病瘪粒识别正确率均大于94.00%,其中健康籽粒和赤霉病瘪粒各有一个样品被误判,总识别正确率为96.40%。外部验证集中健康籽粒识别正确率为95.20%,其中有3个健康籽粒被误判为赤霉病瘪粒,赤霉病瘪粒识别正确率为100.00%,总识别正确率为96.10%。SVM-DA模型中惩罚系数(c)和核函数参数(g)最优值分别为100和3.2×10-4,此时校正集健康籽粒识别正确率为100.00%,赤霉病瘪粒识别正确率为94.70%,与PLS-DA模型判别结果相比略有提升,外部验证集识别正确率与PLS-DA模型判别结果一致。以上结果表明,基于全谱段的PLS-DA模型与SVM-DA模型均可实现赤霉病瘪粒的识别。
2.4.2 基于CW和CARS筛选特征波长的判别分析 高光谱数据具有数据量大、冗余信息多等特点,CARS方法能有效地去除无信息变量,筛选与禾谷镰刀菌污染相关的特征波长,在保留有效信息的同时降低数据维度[25]。在本研究中,通过CARS法筛选出8个特征波长(图4),分别为1 051 nm、1 114 nm、1 140 nm、1 195 nm、1 227 nm、1 334 nm、1 396 nm和1 452 nm。进一步分析可知,CARS法筛选出的特征波长与图2中健康籽粒和赤霉病瘪粒光谱间差异较大的波长(CW)以及主成分分析中PC2载荷中对聚类有重要影响的波长基本一致,其主要原因是近红外区域的吸收多为宽峰且重叠严重,无法直接分辨是哪一种物质的吸收峰,需要借助化学计量学对光谱信息进行解析。CARS法则是通过自适应权重加权采样保留模型回归系数绝对值较大的波长,且这些波长分布在CW附近,表明CARS法筛选出的波长与麦粒中禾谷镰刀菌污染导致的籽粒内部和外部品质变化有一定的关联。基于CW和CARS法筛选出的特征波长分别构建判别分析模型,并对外部验证集进行预测,结果如表1所示。与基于全谱段判别分析结果相比,CW-SVM-DA模型和CARS-SVM-DA模型校正集和验证集中健康籽粒和赤霉病瘪粒的识别正确率均与SVM-DA模型的结果一致,CW和CARS筛选的特征波长压缩数据的同时并未对模型精度造成影响;CARS-PLS-DA模型中校正集健康籽粒和赤霉病瘪粒识别正确率与CW-PLS-DA模型和PLS-DA模型相同,但验证集中健康籽粒识别正确率分别由96.80%和95.20%提高到100.00%,赤霉病瘪粒识别正确率未发生变化,以上结果表明,通过CARS法可有效去除无用信息变量,筛选出与禾谷镰刀菌污染相关的特征变量,且模型精度优于使用二阶导数处理后光谱差异较大的波长构建的判别分析模型。将基于特征波长构建的判别分析模型预测结果进行可视化,结果如图5所示,从图5a可知,14粒赤霉病瘪粒分布在中心位置,62粒健康籽粒分布在赤霉病瘪粒周围,CARS-PLS-DA模型预测结果显示健康籽粒和赤霉病瘪粒均全部正确识别(图5b),而CARS-SVM-DA模型预测结果中有2粒健康籽粒被误判为赤霉病瘪粒(图5c)。
3 结论
采用近红外高光谱图像结合化学计量学算法对小麦赤霉病瘪粒进行判别分析研究,主要研究结论如下:①提取960~1 700 nm光谱,利用PCA第一主成分得分结合Otsu算法的双阈值分割,可有效实现背景扣除。②健康籽粒和赤霉病瘪粒样品光谱在1 140 nm、1 200 nm、1 221 nm、1 340 nm、1 408 nm和1 446 nm附近有较大差异,通过PCA分析发现健康籽粒和赤霉病瘪粒在PC2方向具有明显的聚类趋势。③基于全谱段的PLS-DA模型和SVM-DA模型外部验证集健康籽粒和赤霉病瘪粒识别正确率相同,分别为95.20%和100.00%。④基于CARS法筛选出的8个特征波长构建判别分析模型并对外部验证集进行分析,结果表明CARS-PLS-DA模型外部验证集健康籽粒和赤霉病瘪粒识别正确率均为100.00%,预测精度高于CARS-SVM-DA模型。
以上結果表明,基于近红外高光谱图像结合特征波长筛选算法可有效实现赤霉病瘪粒的快速、无损识别,提高数据处理效率,也为基于近红外高光谱成像技术的赤霉病瘪粒自动识别和分选设备的开发提供了技术支撑。但本研究使用的样品仅为赤霉病感染程度严重和未发病的小麦籽粒样品,未对轻微感染样品进行分析,轻微感染小麦籽粒通常只有局部位置发生病变,麦粒摆放姿态(腹沟朝上或者朝下)可能会对光谱信号造成影响,进而导致对轻微感染样品的误判。因此,下一步将增大样本量,采用不同感染等级的赤霉病瘪粒,探明麦粒摆放姿态对模型精度的影响,探究此模型对不同感染等级赤霉病瘪粒识别的可行性,并选用更多的小麦品种来验证此模型的通用性和稳定性。
参考文献:
[1] VISCONTI A, PASCALE M. An overview on Fusarium mycotoxins in the durum wheat pasta production chain[J]. Cereal Chemistry, 2010,87(1):21-27.
[2] KOUADIO J H, MOBIO T A, BAUDRIMONT I, et al. Comparative study of cytotoxicity and oxidative stress induced by deoxynivalenol, zearalenone or fumonisin B1 in human intestinal cell line Caco-2[J]. Toxicology, 2005,213(1/2):56-65.
[3] PESTKA J J, SMOLINSKI A T. Deoxynivalenol: toxicology and potential effects on humans[J]. Journal of Toxicology and Environmental Health(Part B), 2005,8(1):39-69.
[4] WANG H W, SUN S L, GE W Y, et al. Horizontal gene transfer of Fhb7 from fungus underlies Fusarium head blight resistance in wheat[J]. Science, 2020,368(6493):e5435.
[5] 史建荣,刘 馨,仇剑波,等. 小麦中镰刀菌毒素脱氧雪腐镰刀菌烯醇污染现状与防控研究进展[J]. 中国农业科学, 2014,47(18):3641-3654.
[6] ZHAO Y J, GUAN X L, ZONG Y, et al. Deoxynivalenol in wheat from the Northwestern region in China[J]. Food Additives & Contaminants(Part B), 2018,11(4):281-285.
[7] CIRIO M, VILLARREAL M, LPEZ SEAL TOMS M, et al. Incidence of deoxynivalenol in wheat flour in argentina and GC-ECD method validation[J]. Journal of AOAC International, 2019,102(6):1721-1724.
[8] MCMASTER N, ACHARYA B, HARICH K, et al. Quantification of the mycotoxin deoxynivalenol (DON) in sorghum using GC-MS and a stable isotope dilution assay (SIDA)[J]. Food Analytical Methods, 2019,12(10): 2334-2343.
[9] VENDL O, BERTHILLER F, CREWS C, et al. Simultaneous determination of deoxynivalenol, zearalenone, and their major masked metabolites in cereal-based food by LC-MS-MS[J]. Analytical and Bioanalytical Chemistry, 2009,395(5):1347-1354.
[10]TURNER N W, BRAMHMBHATT H, SZABO-VEZSE M, et al. Analytical methods for determination of mycotoxins: an update (2009-2014)[J]. Analytica Chimica Acta, 2015, 9019(2):12-33.
[11]CLARKE F. Extracting process-related information from pharmaceutical dosage forms using near infrared microscopy[J]. Vibrational Spectroscopy, 2004,34(1):25-35.
[12]CUCCI C, DELANEY J K, PICOLLO M. Reflectance hyperspectral imaging for investigation of works of art: old master paintings and illuminated manuscripts[J]. Accounts of Chemical Research, 2016, 49(10):2070-2079.
[13]黄红娟,郑一平,楼寿松. 傅立叶显微红外化学成像在朱墨时序鉴定中的应用研究[J]. 刑事技术, 2010(4): 29-32.
[14]FERNNDEZ PIERNA J A, BAETEN V, RENIER A M, et al. Combination of support vector machines (SVM) and near-infrared (NIR) imaging spectroscopy for the detection of meat and bone meal (MBM) in compound feeds[J]. Journal of Chemometrics, 2004,18(7/8): 341-349.
[15]LI J G, RAO X Q, YING Y B. Detection of common defects on oranges using hyperspectral reflectance imaging[J]. Computers and Electronics in Agriculture, 2011,78(1):38-48.
[16]CHU X, WANG W, NI X Z, et al. Classifying maize kernels naturally infected by fungi using near-infrared hyperspectral imaging[J]. Infrared Physics & Technology, 2020,105(1):103242.
[17]CHU X, WANG W, YOON S C, et al. Detection of aflatoxin B1 (AFB1) in individual maize kernels using short wave infrared (SWIR) hyperspectral imaging[J]. Biosystems Engineering, 2017,157:13-23.
[18]LIANG K, LIU Q X, XU J H, et al. Determination and visualization of different levels of deoxynivalenol in bulk wheat kernels by hyperspectral imaging[J]. Journal of Applied Spectroscopy, 2018,85(5):953-961.
[19]DELWICHE STEPHEN R, KIM MOON S, DONG Y H. Fusarium damage assessment in wheat kernels by Vis/NIR hyperspectral imaging[J]. Sensing and Instrumentation for Food Quality and Safety, 2011,5(2):63-71.
[20]SHAHIN M A, SYMONS S J. Detection of Fusarium damaged kernels in Canada Western Red Spring wheat using visible/near-infrared hyperspectral imaging and principal component analysis[J]. Computers and Electronics in Agriculture, 2011,75(1):107-112.
[21]梁 琨,杜瑩莹,卢 伟,等. 基于高光谱成像技术的小麦籽粒赤霉病识别[J]. 农业机械学报, 2016,47(2):309-315.
[22]刘 爽,谭 鑫,刘成玉,等. 高光谱数据处理算法的小麦赤霉病籽粒识别[J]. 光谱学与光谱分析, 2019,39(11): 3540-3546.
[23]SHEN G H, FAN X, YANG Z L, et al. A feasibility study of non-targeted adulterant screening based on NIRM spectral library of soybean meal to guarantee quality: the example of non-protein nitrogen[J]. Food Chemistry, 2016,210:35-42.
[24]ZAREEF M, CHEN Q S, HASSAN M M, et al. An overview on the applications of typical non-linear algorithms coupled with NIR spectroscopy in food analysis[J]. Food Engineering Reviews, 2020,12(2):173-190.
[25]LI H D, LIANG Y Z, XU Q S, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009,648(1): 77-84.
[26]BAURIEGEL E, GIEBEL A, GEYER M, et al. Early detection of Fusarium infection in wheat using hyper-spectral imaging[J]. Computers and Electronics in Agriculture, 2011,75(2):304-312.
(责任编辑:陈海霞)